Урок №26. Сохранение товаров из POPUP окна

На этом видео мы покажем как создать сценарий для сбора товаров, у которых нет отдельной страницы на сайте. Другими словами, полная информация о них отображается в POPUP окне, которое открывается прямо над страницей каталога. Подобная схема выдачи информации становится все более популярной в интернет магазинах, на сайтах объявлений и других типах сайтов.

Иногда возникает необходимость собирать информацию, которая отображается в POPUP окне. Например, при парсинге некоторых интернет магазинов или сайтов объявлений. Как это сделать? Смотрите в видеоинструкции.


Напомним, что в Datacol Вы так-же найдете уже готовые парсера:

Текст видео (если Вам проще воспринимать информацию после прочтения) »

Приступим к настройке. В данном случае нам понадобиться Браузер для загрузки страницы. Чтобы реализовать заявленную задачу, создадим простой сценарий имитации действий пользователя.

Для начала определимся как будет работать сценарий. В нашем случае он должен после обработки текущий страницы кликнуть на следующую ссылку на товар. Если этот клик успешен, нужно указать Datacol, чтобы он повторил цикл обработки вновь загруженной страницы. И так до тех пор, пока у нас есть следующий товар на текущей странице каталога. Перейдем к реализации сценария. Добавим блок действий. Сразу помечаем, что это блок пост обработки. Именно так, ведь клик нужно осуществить после того, как Datacol обработал текущую страницу.

Теперь создаем действие клика. Будьте внимательны, именно в нем кроются отличия от стандартных подходов к парсингу. Для клика мы должны подобрать xpath, которому соответствуют все ссылки на товары со страницы каталога. Но ведь клик должен производиться по определенному элементу — возразите вы? Именно так, однако обратите внимание — мы делаем действие итеративным.

Это значит, что при повторных циклах обработки текущей вебстраницы, действие клика будет использовать один из элементов, соответствующих Xpath. Повторные циклы можно организовать с помощью действия REPEAT_ITEM_PROCESSING. При каждой следующей итерации цикла, будет использоваться следующий элемент.

Теперь создадим соответственно действие REPEAT ITEM PROCESSING. Оно дает указание парсеру, что после завершения мероприятий по обработке данной страницы, в частности отработки сценария, сбора ссылок, сбора данных и экспорта, необходимо обработать страницу повторно. Обратите внимание, при повторной обработке не происходит повторной постановки страницы в очередь, мы как бы продолжаем обрабатывать тот же элемент очереди. Также не происходит повторной загрузки страницы. Именно это дает нам возможность управлять загрузкой из сценария. Для повторной обработки мы подгружаем страницу описания следующего товара, кликнув по ссылке на нее помощью действия клика.

Когда же закончатся повторяющиеся итерации обработки страницы — спросите вы? Они закончатся тогда, когда подойдет к концу количество элементов, представляющих собой ссылки на товары на текущей странице каталога. При очередной итерации, когда следующего по порядку элемента, соответствующего xpath, уже не будет существовать, действие клика выдаст ошибку и выполнение блока прервется. Соответственно, событие REPEAT ITEM PROCESSING не будет выполнено и цикл перебора товаров на странице каталога завершится. Сохраняем сценарий.

Настраиваем сбор ссылок. В данном случае нам нужны только ссылки на страницы пагинации, ведь циклический проход по описаниям товаров обеспечивает сценарий. Оптимально будет настроить сбор ссылки на следующую страницу пагинации. Так мы избежим возможного дублирования данных, собранных с первой страницы каталога.

Настраиваем сбор данных. Сохраняем кампанию.

Переходим к тестированию. Нажимаем кнопку “Запуск”. Через некоторое время мы видим как появляется браузер-загрузчик, в котором эмулируется созданный нами сценарий. Обратите внимание на то, что все товары с конкретной страницы каталога циклически перебираются в том же окне, в котором на заднем плане открыта эта страница. Вскоре начинают появляться результаты.

После завершении работы кампании все выгруженные данные будут сохранены в Excel файл. По умолчанию он генерируется в папке Мои документы. Название файла соответствует названию новой кампании. Что касается фото, то они по умолчанию сохраняются в папке Изображения на нашем компьютере.