Парсер SEO параметров сайтов
SEO подразумевает под собой множество рутинных задач. Одной из них является проверка различных параметров сайтов (PR, тИЦ, возраст и т.д.). Чаще всего это делается для оценки доноров для покупки ссылок или оценки весомости конкурентов в поисковой выдаче. Существует множество сервисов для этих нужд, но большинство подразумевают постоянную оплату за совершенные проверки. Что касается бесплатных сервисов, то они чаще всего ограничивают пользователя (например, в количестве проверяемых сайтов), значительно замедляя работу. Кроме того, не все сервисы позволяют экспортировать полученные данные в удобный формат.
На базе Datacol вы можете собрать различные парсера, которые смогут массово посылать запросы на всевозможные бесплатные чекеры и сохранять выданные результаты в удобном для вас формате, например csv. Сейчас я приведу наглядный пример, как это может быть реализовано.
Для примера возьмем этот PR чекер. Он позволяет проверять только 1 сайт за один запрос и не предусматривает возможности экспорта результатов проверки.
Автоматизировать работу с вышеупомянутым PR чекером. При этом сделать возможность массовой проверки сайтов и сохранения результатов в удобном формате для последующего анализа.
Работу данного профиля настроек вы можете потестировать сразу после установки Datacol. Демонстрационный профиль настроек называется PRMassChecker. Поскольку демо версия Datacol не умеет сохранять результаты в файл, для просмотра результатов после запуска парсера необходимо перейти на вкладку Результаты.
В общих настройках указываем интервал между проверками (чтобы запросы парсера к сервису были похожи на запросы реального пользователя).
Теперь переходим ко вкладке Начальные URL. Для выяснения формата запроса к чекеру воспользуемся встроенным браузером. Видим, что для передачи параметров используется метод POST. Параметр urls указывает, какой сайт мы проверяем.
Глубина будет у нас равна нулю, поскольку при парсинге нет смысла двигаться вглубь сайта.
На базе наших наблюдений, мы создаем список начальных URL, используя блок добавления переменных, который позволяет быстро сгенерировать URLы, подразумевающие передачу POST данных, для целого списка сайтов.
На вкладке Сбор данных настраиваем 2 поля. Одно для получения PR, а второе для сохранения домена, для которого производится проверка. Поскольку данные при получении группируются, а домен выводится на странице до вывода PR, то задаем полю DOMAIN больший приоритет, чтобы его поиск происходил в первую очередь.
Регулярное выражение для полей проще подбирать с помощью встроенного браузера:
Далее настраиваем блок Навигации.
Осталось настроить экспорт результатов в csv файл. Назовем его seo_parameters_checker.
Файл профиля настроек для парсера SEO параметров сайтов можно просмотреть здесь. Его также можно сохранить себе на компьютер и скопировать в папку с профилями настроек Datacol (ее можно открыть нажав Ctrl+E в главном окне программы). Это на случай, если вы удалили демонстрационный профиль, который создается при установке программы.