Парсер Яндекс Маркет
Очень актуальной является задача парсинга Яндекс Маркета. Эту задачу можно также легко решить используя Datacol. Ниже представлен один из вариантов настроек парсера Яндекс Маркета на базе Datacol.
ВАЖНО: недавно мы выпустили дополнительный плагин, который позволяет загружать информацию по товарам в наиболее полном и удобном для дальнейшего анализа виде.

Спарсить данные о товарах из категории Компьютеры / Ноутбуки / Apple и сохранить в CSV файл формата:
Название товара;Характеристика;Значение Характеристики
Работу данного профиля настроек вы можете потестировать сразу после установки Datacol. Демонстрационный профиль настроек называется YandexMarketParser.

Поскольку демо версия Datacol не умеет сохранять результаты в файл, для просмотра результатов после запуска парсера необходимо перейти на вкладку Результаты.
В общих настройках нужно указать, чтобы парсер использовал интервал между запросами к страницам, поскольку проксей мы не используем и нас могут быстро забанить, если будем чрезмерно активны. Также ограничим количество страниц, проходимых за сессию (это можно использовать для организации парсинга по расписанию, но в данном примере мы его использовать не будем).

В начальные URL вставим адрес страницы каталога для одного из вида товаров (в нашем случае Ноутбуки Apple).

Данные мы будем собирать со страниц, на которых описаны подробные характеристики товаров (их URLы включают в себя строку model-spec, но об этом позже). Поля данных настраиваем таким образом, чтобы для каждого товара у нас сохранились все его параметры (ну и наряду с ними название самого товара).

На вкладке Навигация нужно настроить 2 формата URL. Формат data_gather соответствует страницам с данными (как сказано выше их URL включают в себя строку model-spec).

Формат get-product-link-layer соответствует страницам для сбора ссылок (важно понять, что ссылки собираются на страницы всех доступных форматов, но ТОЛЬКО со страниц формата, на котором разрешен сбор ссылок).

Также обратите внимание на список глобальных замен в настройках формата get-product-link-layer. В данном случае эта уловка (замена model.xml на model-spec.xml) позволяет сразу получать URLы страниц с полным описанием товара.

Настройки экспорта довольно просты (особенно, если вы уже ознакомились с предыдущими примерами и со справкой к программе).

Файл профиля настроек для парсера Яндекс Маркета можно просмотреть здесь. Его также можно сохранить себе на компьютер и скопировать в папку с профилями настроек Datacol (ее можно открыть нажав Ctrl+E в главном окне программы). Это на случай, если вы удалили демонстрационный профиль, который создается при установке программы.









