Урок №7. Парсинг с прокруткой

В этом видео я покажу, как собирать данные, которые подгружаются в результате прокрутки страницы вниз, другим словами при скроллинге.
Мы настроем кампанию Datacol, которая соберет информацию о товарах интернет магазина. Для лучшего понимания вопроса, рекомендую предварительно посмотреть видео о настройке сбора товаров с простого интернет магазина, а также видео о настройке сценария авторизации.

Что делать, если на сайте отсутствует пагинация, а данные подгружаются при скроллинге? Подробное описание создания сценария с прокруткой страницы описано в данной видеоинструкции.


Напомним, что в Datacol Вы так-же найдете уже готовые парсера:

Текст видео (если Вам проще воспринимать информацию после прочтения) »

Собирать данные со страницы с автоподгрузкой мы будем с помощью встроенного браузера Datacol. Для этого воспользуемся продвинутым мастером создания новой кампании.

В данном случае нам понадобиться использовать Браузер для загрузки страницы.

Чтобы браузер осуществлял прокрутку страницы, мы создадим простой сценарий имитации действий пользователя.

Для создания сценария запускаем Datacol Picker.

Для реализации сценария прокрутки нам понадобится всего лишь один блок. Добавляем его.

При добавлении сразу укажем название блока, чтобы в будущем было проще ориентироваться в созданном сценарии.

Теперь добавим само действие прокрутки или скроллинга.

Казалось бы, все, однако вспомним нашу задачу. Нам необходимо, чтобы браузер имитировал прокрутку до тех пор, пока не загрузятся все товары категории. Для этой цели создадим так называемое условие повторения блока WEB_ELEMENT_COUNT_DIFFERENCE. Таким образом, каждый раз после скроллинга Datacol будет подсчитывать количество товаров на странице. И пока их количество будет увеличиваться по сравнению с предыдущим разом, выполнение блока будет повторяться.

После добавления условия повторения зададим Xpath выражение для поиска элементов, которые будем подсчитывать. В нашем случае это ссылки на товары, ведь именно их нам нужно собрать со страницы категории на следующем этапе настройки. Подберем Xpath выражение, которое поможет собрать все ссылки на товары.

Заметим, что по какой-то причине, Picker не смог автоматически подобрать Xpath для сбора всех ссылок. Но мы можем подкорректировать Xpath выражение самостоятельно. В таких случаях во-первых, применяем операцию удаления индексов. Если это не помогает, обрезаем Xpath с конца до тех пор, пока все нужные элементы не будет находиться. Обратите внимание, найденный Xpath автоматически прописывается в настройки условия повторения.

Вот и все! Сценарий записан. Осталось его протестировать. Запускаем тест всего сценария.

Видим, что успешно отрабатывает, реализуя прокрутку для подгрузки всех ссылок на товары категории.

Нажимаем кнопку Сохранить.

Дальнейшая настройка достаточно проста. Аналогичный пример описан на видео о настройке простого интернет магазина.

Настраиваем переход по ссылкам на товары категории, чтобы Datacol мог добраться до полной информации о товаре.

Обратите внимание, пагинацию настраивать не нужно, ведь ее здесь нет. Роль пагинации выполняет прокрутка.

Настраиваем сбор данных.

Остается нажать кнопку Сохранить.

Теперь закрываем мастер и переходим к тестированию.

Нажимаем кнопку “Запуск”.

Через некоторое время мы видим как появляется браузер-загрузчики, в котором эмулируется созданный нами сценарий.

Вскоре начинают появляться результаты.

После завершении работы кампании все выгруженные данные будут сохранены в Excel файл. По умолчанию он генерируется в папке Мои документы.

Название файла соответствует названию новой кампании.

Что касается фото, то они по умолчанию сохраняются в папке Изображения на нашем компьютере.

Заметим, что формат сохранения собранной информации можно переопределить. Об этом мы расскажем в последующих видео.