Парсер контента по ключевым словам

Если вы уже ознакомились с парсером ссылок из выдачи Google, а также парсером контента по списку URL, то вам могла прийти мысль, что эти 2 парсера можно соединить в одном. Сейчас я покажу как это можно сделать с помощью Datacol.

Задача »

Передать парсеру URL выдачи Google по интересующему запросу на выходе получить текстовый файл, в котором одна за другой идут статьи, спарсенные с URL из выдачи. При этом статьи должны быть отделены друг от друга тремя звездочками: ***. Ниже на рисунке представлен пример такого файла.

Парсер контента по ключевым словам: результаты работы

В данном случае был введен запрос «история доллара«.

Парсер контента по запросу: выдача Google

Демонстрация »

Работу данного профиля настроек вы можете потестировать сразу после установки Datacol. Демонстрационный профиль настроек называется ContentByKeyword.

Парсер контента по ключевикам: запуск демонстрационного профиля настроек

Поскольку демо версия Datacol не умеет сохранять результаты в файл, для просмотра результатов после запуска парсера необходимо перейти на вкладку Результаты.

Парсер контента по ключевым словам: просмотр результатов

Реализация »

Настройки профиля парсера контента по ключевым словам базируются на настройках вышеупомянутых парсеров. Сейчас я только вкратце опишу основные моменты.

В общих настройках выставляем 10 потоков (если интернет соединение позволяет, то можно больше). Также указываем ограничение по количеству страниц для парсинга за сессию (хотя этого можно и не делать, если хотите, чтобы парсилось как говорится «до упора»).

Парсер контента по ключевым словам: Общие настройки

В начальные URL необходимо добавить URLы страниц выдачи Google по интересующим нас запросам. В справке подробно описано, как можно легко добавить URLы для большого количества запросов.

Также необходимо установить достаточную глубину парсинга.

Парсер контента по ключевикам: Настройка начальных URL

Настройки сбора данных практически аналогичны парсеру контента по списку URL. Обратите внимание на список замен — благодаря им можно получать очищенный от всякого мусора контент.

Парсер контента по ключевым фразам: Замены для очистки контента

В настройках навигации учитывается то, что на URLах из выдачи Google мы собираем ссылки, а с остальных мы берем только контент. Подробнее с настройками навигации можно ознакомиться здесь.

Парсер контента по ключевым фразам: Настройки навигации

Также обратите внимание на вкладку Правила соответствия для формата Google listing url. Введенные в начальных URL ссылки обязательно должны соответствовать представленным здесь настройкам. В обратном случае может возникать ошибка: Парсер не может быть запущен с пустой очередью.

Парсер контента по ключевикам: правила соответствия формата URL

В настройках экспорта реализуем описанный в поставленной задаче формат.

Парсер контента по ключевикам: Настройка экспорта

Файл профиля настроек для парсера контента по ключевикам можно просмотреть здесь. Его также можно сохранить себе на компьютер и скопировать в папку с профилями настроек Datacol (ее можно открыть нажав Ctrl+E в главном окне программы). Это на случай, если вы удалили демонстрационный профиль, который создается при установке программы.