Урок №1. Парсинг товаров интернет-магазина

В этом видео я покажу пример настройки кампании Datacol, которая поможет вам быстро собрать информацию о товарах с интернет магазина. В дальнейшем вы сможете использовать выгруженные данные для наполнения собственного сайта.

Просмотрев это видео вы узнаете как создать компанию парсинга нужного вам магазина всего за 10 минут. Мастер создания компании и инструменты автоматической настройки помогут справится даже без знаний языков программирования или основ html. Воспроизвести настройку, продемонстрированную на видео, можно на данном сайте.

Напомним, что в Datacol Вы так-же найдете уже готовые парсера:

Текст видео (если Вам проще воспринимать информацию после прочтения) »

В этом видео я покажу пример настройки кампании Datacol, которая поможет вам быстро спарсить информацию о товарах с интернет магазина. В будущем вы сможете использовать выгруженные данные для наполнения собственного магазина. Итак запускаем мастер создания новой кампании.

Вводим название кампании.

Задаем входные данные. Чаще всего это ссылки на каталог или категории сайта, информацию с которого мы собираем. Заметим, что Datacol начинает обход сайта в поиске нужных данных именно с этих ссылок .

На следующем шаге мы показываем Datacol, как добраться от начальной категории до конкретных товаров. Программа как и обычный пользователь ищет интересующие ее данные, переходя по ссылкам на сайте. Соответственно, нам нужно проложить для Datacol маршрут , который приведет от исходной категории до каждого конкретного товара.

Для этого мы будем использовать Xpath выражения. Xpath выражения — это адреса различных частей вебдокумента. Благодаря им Datacol находит нужные ссылки и данные. Для быстрого подбора Xpath выражений мы запускаем Datacol Picker.

Теперь нам нужно определиться по каким ссылкам Datacol должен будет проследовать, чтобы добраться до полной информации о каждом конкретном товаре. Естественно, в первую очередь, это ссылки на товары.

Чтобы подобрать Xpath для сбора всех этих ссылок, просто кликаем по одной из них левой кнопкой мышки. Моментально в блоке Подбор Xpath появляется подобранное Xpath выражение. Оно автоматически сохраняется в список Варианты Xpath. Именно этот список будет использоваться при работе программы. Справа, в блоке ссылки, можно увидеть набор ссылок, которые соберет Datacol используя текущий Xpath.

Хорошо, теперь Datacol знает как найти ссылки на товары. Но так мы соберем товары только с первой страницы каталога. Поэтому нам нужно показать Datacol как переходить на другие страницы выдачи товаров.

Отметим, что ссылки на другие страницы каталога (даже визуально) расположены совершенно иным образом, чем ссылки на товары. Поэтому для них мы подбираем отдельное Xpath выражение. Для этого добавим новый вариант Xpath.

Теперь кликаем на одну из ссылок и Datacol Picker опять же автоматически подбирает нужный Xpath.

Вот так просто, всего в несколько кликов мыши, мы настроили проход Datacol по сайту. Осталось нажать кнопку Сохранить, чтобы подобранные Xpath выражения сохранились в конфигурации нашей новой кампании.

Теперь, когда Datacol знает как добраться до нужных данных, ему необходимо пояснить что именно требуется собирать. Для начала задаем перечень полей данных, которые мы хотим сохранять.

Для поиска полей данных мы также задаем Xpath выражения. Для этого снова запускаем Picker.

Перед началом настройки сбора данных мы переходим на одну из страниц с товаром, то есть туда, где находятся интересующие нас данные.

Обратите внимание, когда Picker открыт в режиме подбора Xpath для поля данных, в нем присутствует блок Поле данных. В этом блоке отображается название поля, которое сейчас настраивается.

Итак, нам нужно подобрать Xpath выражение для сбора наименования товара. Для этого кликаем на наименовании левой кнопкой мышки. В блоке Подбор Xpath сразу же появляется подобранное Xpath выражение, которое автоматически сохраняется в список варианты Xpath. При нажатии кнопки Сохранить или при переходе к настройке следующего поля данных этот список будет автоматически сохранен в конфигурации текущей кампании Datacol. Заметим, что наименование товара автоматически выделяется красной рамкой. Правильноcть подбора Xpath подтверждает исходный Html код найденного блока. Он отображается в поле “Найденные соответствия”.

По аналогии с наименованием товара можно подобрать Xpath выражения для сохранения остальных полей данных.

Для поля фото лучше использовать специальную опцию контекстного меню.

В ряде случаев сохранение изображений имеет свою специфику.

Когда мы дошли до последнего поля данных, остается нажать кнопку Сохранить. Таким образом мы завершили настройку сбора данных. Теперь закрываем мастер и переходим к тестированию.

Нажимаем кнопку “Запуск”.

Через некоторое время мы видим как начинают появляться результаты.

После завершении работы кампании все выгруженные данные будут сохранены в Excel файл. По умолчанию он генерируется в папке Мои документы.

Название файла соответствует названию новой кампании.

Заметим, что формат сохранения собранной информации можно переопределить. Об этом мы расскажем в последующих видео.