Парсер обратных ссылок по Yahoo

Анализ обратных ссылок конкурентов по выдаче — это один из основных подходов для создания своей стратегии продвижения сайта. Самый популярный источник информации об обратных ссылках — это Yahoo Site Explorer. Есть много инструментов, которые позволяют автоматизировать парсинг ссылок из Yahoo Site Explorer, но чаще всего они позволяют за один раз проверять только один сайт. Datacol умеет парсить беклинки сразу для пачки сайтов.

Задача »

Наша задача получить обратные ссылки первых 3 сайтов из выдачи по запросу «окна москва«.

Парсер обратных ссылок на базе Datacol

Сохранение должно производиться в обычный CSV файл (1 строка = 1 ссылка).

Сохраненные обратные ссылки

Демонстрация »

Работу данного профиля настроек вы можете скачав файл настроек парсера обратных ссылок и положив его в папку с настроенными профилями. Демонстрационный профиль настроек называется YahooBackLinks.

Профиль настроек для парсинга обратных ссылок

Поскольку демо версия Datacol не умеет сохранять результаты в файл, для просмотра результатов после запуска парсера необходимо перейти на вкладку Результаты.

Реализация »

Создаем новый парсер (в главном окне программы жмем Ctrl+N).

Парсер обратных ссылок по Yahoo

На вкладке Начальные URL можно задать список сайтов, для которых вы хотите спарсить обратные ссылки. Делается это с помощью блока добавления переменных.

Парсер обратных ссылок по Yahoo

В настройках Навигации необходимо добавить один формат URL (в примере он называется dataPlusLinks). Он будет использоваться как для сбора данных (то есть беклинков проверяемого сайта), так и для сбора ссылок на следующие после первой страницы выдачи Yahoo Site Explorer (принцип работы Навигации в Datacol наглядно описан на видео).

Парсер обратных ссылок по Yahoo

Далее, если мы исследуем код страницы Yahoo Site Explorer, то можем заметить следующий фрагмент:

Парсер обратных ссылок

Динамический код может сделать проблематичной настройку прохода по сайту (поскольку этот код в ссылке может свести на нет использование истории обработки).

;_ylt=A0oG7zHmVGBOsnMBq0Pbl8kF

Поэтому мы используем Глобальные замены, чтобы исключить вхождения данного кода из всего тела страницы (это производится перед сбором ссылок и данных со страницы).

Парсер обратных ссылок по Yahoo

Теперь необходимо настроить Сбор ссылок, чтобы парсер собирал со страницы не все подряд, а только ссылки на последующие страницы выдачи Yahoo Site Explorer. Для этого мы заходим открываем встроенный браузер, находим ссылки на последующие страницы выдачи и кликаем на одну из них правой кнопкой мыши.

Парсер обратных ссылок по Yahoo

В результате мы получаем следующую формулу для получения ссылок:
//body[@class="ie microsoft windows v7_0"]/div[@id="doc"]/div[@id="bd"]/div[@id="bd-rt"]/div[@class="advsearch"]/div[@class="bd"]/ol[@id="result-list"]/li

Чтобы сделать ее более универсальной (ведь видим что в формулу проскочил class="ie microsoft windows v7_0", что может быть только при загрузке страницы в Internet Explorer), пробуем ее максимально укоротить:

//ol[@class="btn-list"]/li/a[@class="btn"]

Чтобы проверить, что эта формула также собирает все нужные нам ссылки, кликните на кнопку Собрать XPATH и в выпадающем списке должно появится ровно такое же, как и прежде количество найденных значений.

Парсер обратных ссылок по Yahoo

Теперь осталось сохранить найденную формулу в поле XPATH блока на вкладке Сбор ссылок:

Парсер обратных ссылок по Yahoo

Сейчас вы можете сразу же протестировать сбор ссылок и увидеть, что мы действительно получаем ссылки на все нужные нам страницы выдачи Yahoo Site Explorer:

Парсер обратных ссылок по Yahoo

Настройка навигации окончена. Теперь необходимо настроить сбор данных. Здесь мы добавим только одно поле данных — link. С помощью него мы будем собирать со страницы выдачи беклинки интересующего нас сайта.

Парсер обратных ссылок по Yahoo

Сбор данных также можно настроить с помощью встроенного браузера по тому же принципу.

Парсер обратных ссылок по Yahoo

Только обратите внимание, что XPATH выражения для сбора участков страницы позволяют нам в данном случае собрать полный код ссылки, а нам нужен только ее URL (здесь он сохраняется в параметре title).


Пластиковые окна Вертикаль - Главная

Поэтому нам необходимо использовать блок замен, чтобы снести лишний код (в частности все, что до title=" и затем все, начиная с кавычки).

Парсер обратных ссылок по Yahoo

На вкладке Тестирование можно сразу протестировать, что у нас получилось:

Парсер обратных ссылок по Yahoo

На данный момент осталось настроить сохранение данных — то есть Экспорт. Для этого добавляем Произвольный формат экспорта.

Парсер обратных ссылок по Yahoo

На вкладке Экспорт->Произвольный задаем название файла, а также формулу формирования его содержимого.

Парсер обратных ссылок по Yahoo

Файл профиля настроек для парсера обратных ссылок можно просмотреть здесь. Его также можно сохранить себе на компьютер и скопировать в папку с профилями настроек Datacol (ее можно открыть нажав Ctrl+E в главном окне программы).