Парсер SEO параметров сайтов

SEO подразумевает под собой множество рутинных задач. Одной из них является проверка различных параметров сайтов (PR, тИЦ, возраст и т.д.). Чаще всего это делается для оценки доноров для покупки ссылок или оценки весомости конкурентов в поисковой выдаче. Существует множество сервисов для этих нужд, но большинство подразумевают постоянную оплату за совершенные проверки. Что касается бесплатных сервисов, то они чаще всего ограничивают пользователя (например, в количестве проверяемых сайтов), значительно замедляя работу. Кроме того, не все сервисы позволяют экспортировать полученные данные в удобный формат.

На базе Datacol вы можете собрать различные парсера, которые смогут массово посылать запросы на всевозможные бесплатные чекеры и сохранять выданные результаты в удобном для вас формате, например csv. Сейчас я приведу наглядный пример, как это может быть реализовано.

Для примера возьмем этот PR чекер. Он позволяет проверять только 1 сайт за один запрос и не предусматривает возможности экспорта результатов проверки.

Задача »

Автоматизировать работу с вышеупомянутым PR чекером. При этом сделать возможность массовой проверки сайтов и сохранения результатов в удобном формате для последующего анализа.

Парсер SEO параметров сайтов (на пример PR чекера): Результаты работы

Демонстрация »

Работу данного профиля настроек вы можете потестировать сразу после установки Datacol. Демонстрационный профиль настроек называется PRMassChecker. Поскольку демо версия Datacol не умеет сохранять результаты в файл, для просмотра результатов после запуска парсера необходимо перейти на вкладку Результаты.

Парсер SEO параметров сайтов (на пример PR чекера): Запуск

Реализация »

В общих настройках указываем интервал между проверками (чтобы запросы парсера к сервису были похожи на запросы реального пользователя).

Парсер SEO параметров сайтов (на пример PR чекера): Общие настройки

Теперь переходим ко вкладке Начальные URL. Для выяснения формата запроса к чекеру воспользуемся встроенным браузером. Видим, что для передачи параметров используется метод POST. Параметр urls указывает, какой сайт мы проверяем.

Глубина будет у нас равна нулю, поскольку при парсинге нет смысла двигаться вглубь сайта.

Парсер SEO параметров сайтов (на пример PR чекера): Встроенный браузер

На базе наших наблюдений, мы создаем список начальных URL, используя блок добавления переменных, который позволяет быстро сгенерировать URLы, подразумевающие передачу POST данных, для целого списка сайтов.

Парсер SEO параметров сайтов (на пример PR чекера): Начальные URL

На вкладке Сбор данных настраиваем 2 поля. Одно для получения PR, а второе для сохранения домена, для которого производится проверка. Поскольку данные при получении группируются, а домен выводится на странице до вывода PR, то задаем полю DOMAIN больший приоритет, чтобы его поиск происходил в первую очередь.

Регулярное выражение для полей проще подбирать с помощью встроенного браузера:

Парсер SEO параметров сайтов (на пример PR чекера): Подбор Regex во встроенном браузере

Парсер SEO параметров сайтов (на пример PR чекера): Сбор данных

Далее настраиваем блок Навигации.

Парсер SEO параметров сайтов (на пример PR чекера): Навигация

Осталось настроить экспорт результатов в csv файл. Назовем его seo_parameters_checker.

Парсер SEO параметров сайтов (на пример PR чекера): Экспорт данных

Файл профиля настроек для парсера SEO параметров сайтов можно просмотреть здесь. Его также можно сохранить себе на компьютер и скопировать в папку с профилями настроек Datacol (ее можно открыть нажав Ctrl+E в главном окне программы). Это на случай, если вы удалили демонстрационный профиль, который создается при установке программы.