Урок №6. Парсинг статических полей и диапазонов

В этом видео я приведу один из примеров использования статических полей в Datacol. Для лучшего восприятия информации, рекомендую предварительно посмотреть видео, в котором мы создавали настройку кампании Datacol по сбору заголовков и анонсов новостей.

Иногда возникает необходимость собирать несколько групп данных с одной страницы. Например, при парсинге блога, форума, а также при парсинге некоторых интернет магазинов или сайтов объявлений. Как это сделать? Смотрите видеоинструкцию о статических полях и диапазонах.


Напомним, что в Datacol Вы так-же найдете уже готовые парсера:

Текст видео (если Вам проще воспринимать информацию после прочтения) »

Для сбора нескольких групп данных с одной страницы мы использовали так называемые диапазоны. Другими словами — области страницы, в рамках которых расположены отдельные группы данных. Следует помнить, что подбор Xpath для полей данных можно было производить только в рамках этих областей.

Но что делать, если нужные данные расположены вне настроенных диапазонов. Например, мы хотим спарсить название блога?

Для этого воспользуемся статическим полем. Одним из свойств статического поля является то, что при поиске его на странице Datacol игнорирует диапазоны. Заметим также, что для всех групп данных, собранных с одной страницы, полученное значение статического поля будет одинаковым.

Сейчас я продемонстрирую добавление статического поля на примере вышеупомянутой настройки сбора анонсов. Обратите внимание, что настройка сбора ссылок и диапазонов абсолютно аналогична.

Что касается полей данных, здесь появляются некоторые нюансы.

Задаем перечень полей данных, которые мы хотим сохранять.

поскольку название блога является статически полем, устанавливаем соответсвующую опцию.

Дважды кликаем по первому полю данных чтобы запустить Picker для подбора Xpath выражений.

поля заголовок и анонс настраиваем аналогично предыдущему примеру.

Мы видим, что при переходе к настройки сбора названия блога, синее выделение, которое показывало границы диапазонов, исчезает. Таким образом мы можем кликнуть левой кнопкой мышки на названии блога, и получить нужное Xpath выражение, несмотря на то, что название блога не входит в области, соответствующие исходным диапазонам.

Остается нажать кнопку Сохранить.

Настройка завершена.

Запускаем кампанию.

Через некоторое время мы видим как начинают появляться результаты. Теперь каждая группа данных помимо заголовка и анонса новости, содержит название блога.

Это у нас получилось благодаря статическому полю.

У статических полей есть ряд других полезных свойств. Их мы рассмотрим в дальнейших видео.