D5Plugin_FieldGetAditionalData — плагин для сбора информации с нескольких страниц

Иногда требуется парсить информацию с нескольких страниц, либо собирать дополнительную информацию со сторонней страницы, на которую есть лишь ссылка. Для этого используется плагин обработки поля D5Plugin_FieldGetAditionalData.

Примеры использования плагина »

Наглядные примеры использования:

  • Сбор информации в одну строку (группу данных) с нескольких страниц. Например, когда цена на одной странице, а характеристики на другой.
  • Подтягивание различной дополнительной информации, такой как: профиль пользователя, сопутствующие постов (объявлений), цены на смежные товары, их описания и т. д.
  • Загрузка картинок (или любых иных файлов) со сторонней страницы.
  • Любые случаи, когда при парсинге необходимо перейти по ссылке, взять некую информацию и вернутся к дальнейшему парсингу.

Принцип работы плагина »

Плагин переходит по ссылке, которая подается ему на вход, собирает по регулярному выражению либо XPath нужную вам информацию. После этого он возвращает информацию в виде текста с тегами или без них, при необходимости загружает файл.

Стоимость плагина составляет 10$. Вы можете купить плагин прямо сейчас.

Импорт плагина в Datacol »

Импорт плагинов в программу подробно описан в справке (доступной из интерфейса программы):

Импорт плагинов

кликните на изображении для увеличения

Подключение плагина к настройке »

Плагин D5Plugin_FieldGetAditionalData подключается в качестве плагина обработки поля:

Подключение плагина D5Plugin_FieldGetAditionalData

кликните на изображении для увеличения

Конфигурация плагина задается в настройках кампании (к которой подключен плагин) на вкладке Сбор данных->Поля данных->Выбор нужного поля->Плагин.

Конфигурация плагина для сбора информации с нескольких страниц

кликните на изображении для увеличения

В конфигурации задаются следующие параметры:

  • regex — регулярное выражение, по которому будет производится поиск необходимого фрагмента текста;
  • tags — если значение этого параметра пустое — плагин удалит все теги, в ином же случае текст вернется с тегами;
  • download — при значении данного параметра = 1 будет произведена попытка загрузить данные. Данные сохраняются в папку Мои Рисунки (Изображения). При совпадении имен файл будет сохранен с добавлением к названию _X, где X — инкрементируемое числовое значение (1, 2, 3 и т. д.). В таком случае плагин вернет путь к сохраненному файлу.

Пример строки конфигурации при подключении плагина к демо настройке парсера объявлений:


ВАШЕ РЕГУЛЯРНОЕ ВЫРАЖЕНИЕ

0