Урок №3. Парсинг анонсов новостей блога

В этом видео я покажу пример настройки кампании Datacol, которая поможет вам быстро собрать заголовки и анонсы новостей блога. Для лучшего восприятия информации, советую перед просмотром ознакомиться с видео пошаговой настройки интернет магазина.

Изучив видео Вы сможете собирать анонсы всех новостей, которые находятся на главной странице или странице раздела новостного сайта или блога. Видеоурок будет особенно полезен людям, которые используют Datacol для работы с контентом.


Напомним, что в Datacol Вы так-же найдете уже готовые парсера:

Текст видео (если Вам проще воспринимать информацию после прочтения) »

Обратите внимание, в отличие от примера с интернет магазином, сейчас нужная информация расположена непосредственно на исходной странице. Кроме того, с одной страницы необходимо собирать сразу несколько групп данных, ведь анонсов на странице более одного.

Уточню, группой данных мы называем одну строку в таблице результатов, которая в нашем случае включает в себя заголовок и анонс новости.

В виду необходимости сбора сразу нескольких групп данных с одной страницы, для настройки потребуется задействовать Продвинутый мастер создания новой кампании.

Запускаем мастер.

Вводим название кампании.

Задаем входные данные.

Сейчас это ссылка на главную страницу блога, с которого мы хотим собрать анонсы новостей. Datacol начинает обход сайта в поиске нужных данных именно с этой ссылки .

Поскольку анонсы новостей присутствуют на главной странице, казалось бы, нам нет необходимости настраивать сбор ссылок. Однако, нам нужно проложить маршрут программы до каждого конкретного анонса, даже если он расположен не на первой странице выдачи. Для этого мы должны собрать ссылки пагинации. Для тех кто не знает, пагинация – это порядковая нумерация страниц каталога или выдачи материалов сайтов, которая обычно находится вверху или внизу вебстраницы. Так мы покажем Datacol , как переходить на другие страницы выдачи анонсов новостей.

Для этого мы будем использовать Xpath выражения. Xpath выражения — это адреса различных частей вебдокумента. Благодаря им Datacol находит нужные ссылки и данные. Для быстрого подбора Xpath выражений мы запускаем Datacol Picker.

Чтобы подобрать Xpath для ссылок пагинации, просто кликаем по одной из них левой кнопкой мышки. Моментально в блоке Подбор Xpath появляется подобранное Xpath выражение. Оно автоматически сохраняется в список Варианты Xpath. Именно этот список будет использоваться при работе программы. Справа , в блоке ссылки , можно увидеть набор ссылок, которые соберет Datacol используя текущий Xpath.

В некоторых случаях может понадобится следовать по страницам выдачи последовательно. Для этого можно вместо Xpath для получения всех доступных ссылок пагинации, подобрать Xpath ссылки на следующую страницу.

Осталось нажать кнопку Сохранить, чтобы подобранные Xpath выражения сохранились в конфигурации нашей новой кампании.

Теперь, когда Datacol знает как добраться до нужных данных, ему необходимо пояснить что именно требуется собирать.

При этом мы помним, что на странице у нас расположено сразу несколько групп данных, то есть несколько пар заголовок-анонс. Для таких случаев в Datacol предусмотрен специальный механизм, которые называется парсинг с помощью диапазонов. Для его использования нам нужно задать области страницы, в рамках которых расположены отдельные группы данных. Эти области мы называем диапазонами. Для поиска диапазонов Datacol также использует Xpath выражения. Запускаем Picker для их подбора.

Чтобы подобрать Xpath выражения для диапазонов, сначала кликаем на одном из полей данных, например на заголовке новости.

После этого нажимаем кнопку с ножницами (которые смотрят в левую сторону), чтобы расширить область, адресуемую Xpath выражением. Нажимаем ее до тех пор, пока выделение не охватит все поля данных одной группы. В нашем случае — это заголовок и анонс.

Правильность подбора Xpath подтверждает тот факт, что области, содержащие остальные группы данных на странице, оказались также выделены.

Теперь нажмем кнопку Сохранить, чтобы сохранить подобранные Xpath выражения.

Наконец, переходим к настройке сбора данных.

Для начала задаем перечень полей данных, которые мы хотим сохранять.

Запускаем Picker для подбора Xpath полей данных.

Обратите внимание, что диапазоны (Xpath для которых мы подбирали ранее), выделены синим цветом. Заметим, что сейчас мы можем производить подбор Xpath для полей данных только в рамках этих областей.

Итак, нам нужно подобрать Xpath выражение для сбора заголовка новости. Для этого кликаем на заголовке левой кнопкой мышки. В блоке Подбор Xpath сразу же появляется подобранное Xpath выражение, которое автоматически сохраняется в список варианты Xpath. Обратите внимание, что заголовок автоматически выделяется красной рамкой не только в первом диапазоне, но и во всех остальных. Правильноcть подбора Xpath подтверждает исходный Html код найденного блока. Он отображается в поле “Найденные соответствия”.

По аналогии с заголовком можно подобрать Xpath выражение для сохранения анонса.

Остается нажать кнопку Сохранить.

Таким образом мы завершили настройку сбора данных. Теперь закрываем мастер и переходим к тестированию.

Нажимаем кнопку “Запуск”.

Через некоторое время мы видим как начинают появляться результаты.

После завершении работы кампании все выгруженные данные будут сохранены в Excel файл. По умолчанию он генерируется в папке Мои документы.

Название файла соответствует названию новой кампании.

Формат и место сохранения результатов можно изменять. Об этом мы расскажем в последующих видео.