Урок №16. Парсинг сайтов с несколькими уровнями категорий

На этом видео мы покажем как пройти более одного уровня вглубь сайта, чтобы добраться от страниц входа до интересующей информации. Для лучшего понимания вопроса, рекомендую предварительно посмотреть видео о настройке парсинга интернет магазина.

Если перед вами стоит задача сбора информации со всех разделов сайта, то нам сначала нужно собрать ссылки на разделы, а только после этого собрать товары из каждого найденного раздела. Как сделать это за несколько минут? Смотрите в видеоинструкции.


Напомним, что в Datacol Вы так-же найдете уже готовые парсера:

Текст видео (если Вам проще воспринимать информацию после прочтения) »

Для начала изучим источник парсинга. Если мы хотим от каталога всех разделов добраться до полной информации о каждом товаре, то нам для начала понадобится собрать ссылки на все разделы, затем собрать товары из каждого найденного раздела. Если же нам нужно собрать информацию только из отдельных разделов, то можно сразу задать ссылки на эти разделы в качестве входных данных.

Приступим к настройке. При настройке сбора сбора ссылок общий принцип состоит в том, чтобы показать программе как добраться от стартовых страниц (которые заданы в качестве входных данных) до страниц с нужной информацией. Для начала настроим сбор ссылок на разделы со страницы главного каталога.

Теперь перейдем по одной из ссылок на разделы. Обратите внимание, переход необходимо осуществлять именно с помощью контекстного меню. Отсюда уже можно собирать ссылки на сами товары, которые в данном случае являются страницами с полезной информацией. Заметим, что для каждого типа ссылок на каждом уровне сайта создаем отдельный вариант Xpath. Также не забываем про пагинацию. Настройка сбора ссылок завершена. Осталось настроить сбор данных

Обрежем xpath с конца, чтобы сохранить весь блок с описанием. При настройке сохранения категории Picker выдал предупреждение о том, что подобранный Xpath не будет корректно обработан Datacol. Нам следует преобразовать Xpath выражение, чтобы Datacol мог с ним работать. В данном случае, можно реализовать привязку к соседним элементам по структуре. Вариант с привязкой к тексту здесь не подойдет, поскольку категория верхнего уровня для разных товаров может меняться.

Переходим к тестированию. Видим, что все отработало именно так, как нам надо. После завершении работы кампании все выгруженные данные будут сохранены в Excel файл. По умолчанию он генерируется в папке Мои документы.