Парсер обратных ссылок по Yahoo
Анализ обратных ссылок конкурентов по выдаче — это один из основных подходов для создания своей стратегии продвижения сайта. Самый популярный источник информации об обратных ссылках — это Yahoo Site Explorer. Есть много инструментов, которые позволяют автоматизировать парсинг ссылок из Yahoo Site Explorer, но чаще всего они позволяют за один раз проверять только один сайт. Datacol умеет парсить беклинки сразу для пачки сайтов.
Наша задача получить обратные ссылки первых 3 сайтов из выдачи по запросу «окна москва«.
Сохранение должно производиться в обычный CSV файл (1 строка = 1 ссылка).
Работу данного профиля настроек вы можете скачав файл настроек парсера обратных ссылок и положив его в папку с настроенными профилями. Демонстрационный профиль настроек называется YahooBackLinks.
Поскольку демо версия Datacol не умеет сохранять результаты в файл, для просмотра результатов после запуска парсера необходимо перейти на вкладку Результаты.
Создаем новый парсер (в главном окне программы жмем Ctrl+N).
На вкладке Начальные URL можно задать список сайтов, для которых вы хотите спарсить обратные ссылки. Делается это с помощью блока добавления переменных.
В настройках Навигации необходимо добавить один формат URL (в примере он называется dataPlusLinks). Он будет использоваться как для сбора данных (то есть беклинков проверяемого сайта), так и для сбора ссылок на следующие после первой страницы выдачи Yahoo Site Explorer (принцип работы Навигации в Datacol наглядно описан на видео).
Далее, если мы исследуем код страницы Yahoo Site Explorer, то можем заметить следующий фрагмент:
Динамический код может сделать проблематичной настройку прохода по сайту (поскольку этот код в ссылке может свести на нет использование истории обработки).
Поэтому мы используем Глобальные замены, чтобы исключить вхождения данного кода из всего тела страницы (это производится перед сбором ссылок и данных со страницы).
Теперь необходимо настроить Сбор ссылок, чтобы парсер собирал со страницы не все подряд, а только ссылки на последующие страницы выдачи Yahoo Site Explorer. Для этого мы заходим открываем встроенный браузер, находим ссылки на последующие страницы выдачи и кликаем на одну из них правой кнопкой мыши.
В результате мы получаем следующую формулу для получения ссылок:
Чтобы сделать ее более универсальной (ведь видим что в формулу проскочил
, что может быть только при загрузке страницы в Internet Explorer), пробуем ее максимально укоротить:
Чтобы проверить, что эта формула также собирает все нужные нам ссылки, кликните на кнопку Собрать XPATH и в выпадающем списке должно появится ровно такое же, как и прежде количество найденных значений.
Теперь осталось сохранить найденную формулу в поле XPATH блока на вкладке Сбор ссылок:
Сейчас вы можете сразу же протестировать сбор ссылок и увидеть, что мы действительно получаем ссылки на все нужные нам страницы выдачи Yahoo Site Explorer:
Настройка навигации окончена. Теперь необходимо настроить сбор данных. Здесь мы добавим только одно поле данных — link. С помощью него мы будем собирать со страницы выдачи беклинки интересующего нас сайта.
Сбор данных также можно настроить с помощью встроенного браузера по тому же принципу.
Только обратите внимание, что XPATH выражения для сбора участков страницы позволяют нам в данном случае собрать полный код ссылки, а нам нужен только ее URL (здесь он сохраняется в параметре title).
Поэтому нам необходимо использовать блок замен, чтобы снести лишний код (в частности все, что до
и затем все, начиная с кавычки).
На вкладке Тестирование можно сразу протестировать, что у нас получилось:
На данный момент осталось настроить сохранение данных — то есть Экспорт. Для этого добавляем Произвольный формат экспорта.
На вкладке Экспорт->Произвольный задаем название файла, а также формулу формирования его содержимого.
Файл профиля настроек для парсера обратных ссылок можно просмотреть здесь. Его также можно сохранить себе на компьютер и скопировать в папку с профилями настроек Datacol (ее можно открыть нажав Ctrl+E в главном окне программы).