Парсер контента по ключевым словам
Если вы уже ознакомились с парсером ссылок из выдачи Google, а также парсером контента по списку URL, то вам могла прийти мысль, что эти 2 парсера можно соединить в одном. Сейчас я покажу как это можно сделать с помощью Datacol.
Передать парсеру URL выдачи Google по интересующему запросу на выходе получить текстовый файл, в котором одна за другой идут статьи, спарсенные с URL из выдачи. При этом статьи должны быть отделены друг от друга тремя звездочками: ***. Ниже на рисунке представлен пример такого файла.

В данном случае был введен запрос «история доллара«.

Работу данного профиля настроек вы можете потестировать сразу после установки Datacol. Демонстрационный профиль настроек называется ContentByKeyword.

Поскольку демо версия Datacol не умеет сохранять результаты в файл, для просмотра результатов после запуска парсера необходимо перейти на вкладку Результаты.

Настройки профиля парсера контента по ключевым словам базируются на настройках вышеупомянутых парсеров. Сейчас я только вкратце опишу основные моменты.
В общих настройках выставляем 10 потоков (если интернет соединение позволяет, то можно больше). Также указываем ограничение по количеству страниц для парсинга за сессию (хотя этого можно и не делать, если хотите, чтобы парсилось как говорится «до упора»).

В начальные URL необходимо добавить URLы страниц выдачи Google по интересующим нас запросам. В справке подробно описано, как можно легко добавить URLы для большого количества запросов.
Также необходимо установить достаточную глубину парсинга.

Настройки сбора данных практически аналогичны парсеру контента по списку URL. Обратите внимание на список замен — благодаря им можно получать очищенный от всякого мусора контент.

В настройках навигации учитывается то, что на URLах из выдачи Google мы собираем ссылки, а с остальных мы берем только контент. Подробнее с настройками навигации можно ознакомиться здесь.

Также обратите внимание на вкладку Правила соответствия для формата Google listing url. Введенные в начальных URL ссылки обязательно должны соответствовать представленным здесь настройкам. В обратном случае может возникать ошибка: Парсер не может быть запущен с пустой очередью.

В настройках экспорта реализуем описанный в поставленной задаче формат.

Файл профиля настроек для парсера контента по ключевикам можно просмотреть здесь. Его также можно сохранить себе на компьютер и скопировать в папку с профилями настроек Datacol (ее можно открыть нажав Ctrl+E в главном окне программы). Это на случай, если вы удалили демонстрационный профиль, который создается при установке программы.









