Урок №28. Создание цепочки кампаний в Datacol

В ряде случаев удобно, чтобы результаты работы одной кампании становились входными данными для другой. Например, мы собираем ссылки из выдачи по запросу, а затем хотим собрать контент, контактные данные, метатеги, заголовки и тому подобное с этих ссылок. Конечно же, с учетом гибкости Datacol, это можно реализовать в рамках одной кампании, однако это достаточно трудоемко. К тому же, если разбить задачу на модули, то многие из них мы сможем повторно использовать в других кампаниях. Например, модуль парсинга ссылок из выдачи можно использовать в рамках парсера контента, однако его же можно использовать в составе парсера контактов или SEO параметров.

Таким образом, с помощью Datacol можно создавать целые функциональные комбайны.

Хотите автоматически запускать цепочку кампаний Datacol? Это можно легко реализовать при помощи динамических плагинов. Подробности смотрите в видеоинструкции.


Напомним, что в Datacol Вы так-же найдете уже готовые парсера:

Текст видео (если Вам проще воспринимать информацию после прочтения) »

Сейчас мы рассмотрим конкретный пример. Задача формулируется следующие образом:

Во-первых, собрать первые 10 ссылок из выдачи по запросам.

Во-вторых, просканировать сайты на наличие email, затем сохранить найденные адреса электронной почты в отчет. Для ускорения процесса сканировать будем только на глублину в одну страницу. Это значит, что парсер будет заходить на сайт и проверять страницы не глубже первого уровня вложенности.

Данную задачу можно решить с помощью новой технологии динамических плагинов. Подробнее об этой технологии можно узнать из наших предыдущих видеоинструкций.

Итак у нас есть 2 кампании — базовая кампания для сбора email по списку сайтов и модифицированная кампания для парсинга выдачи google, которая собирает только URL. Для реализации заявленной задачи мы задействуем динамический плагин для запуска Datacol после завершения кампании.

Подключаем его к настройке парсинга выдачи. В плагине мы видим, что Datacol запускается с параметрами, в которых должен быть передан путь к файлу, в котором будут находиться исходные данные для запускаемой кампании, а также путь в дереве настроек к кампании, которая должна запуститься. Здесь есть следующие важные моменты. В параметрах вызова сейчас заданы соответственно файл «results.txt», который лежит в папке Мои документы, а путь к базовой кампании email-parser.par . Обратите внимание, сохранение данных текущей кампании должно быть также настроено в файле results.txt.

При необходимости вы можете поменять кампанию, которая осуществляет последующую обработку собранных URL, например, чтобы собирать с них не email, а метатеги, контент или что либо другое. Соответственно, меняем относительный путь запускаемой кампании.

Можно пойти дальше и даже запустить несколько кампаний обработчиков одновременно.

Теперь протестируем работу нашего “комбайна”.

Запускаем первую кампанию. Видим, что после завершения сбора URL запускается новый экземпляр программы и в нем собираются адреса электронной почты по данным URL. Очень удобно, неправда ли?

Если у вас будут вопросы по использованию или редактированию динамического плагина — вы можете обратиться к нам.