Урок №30. Парсинг из файлов

Бывают случаи, когда нужно спарсить данные не с веб-страниц, а из файлов, расположенных на локальном компьютере. Это актуально для задач преобразования информации в файлах. Например: автоматического перевода, добавления наценки к цене, удаления лишнего текста. Данный механизм также пригодиться в задачах публикации контента из файлов на ваш сайт на WordPress, Opencart, Bitrix, Joomla, Webasyst, DLE и других CMS. Отдельная группа задач — работа с прайслистами, в частности изменение, фильтрация и анализ доступных в них данных, распознавания сканированных объявлений.


Напомним, что в Datacol Вы так-же найдете уже готовые парсера:

Текст видео (если Вам проще воспринимать информацию после прочтения) »

Зачастую бывают случаи, когда вы ранее собрали данные и у вас есть выгрузка в Excel файле, но в ней нужно что либо поменять. Например добавить наценку к стоимости выгруженных с сайта поставщика товаров. При этом не хочется тратить время и ресурсы, чтобы перепарсивать исходный сайт, ведь выгрузка уже имеется.

Ввиду большого количества конечных прикладных задач, актуальна поддержка различных форматов входных файлов. С одной стороны, это могут быть простые текстовые файлы. С другой стороны, это могут быть файлы со сложной структурой, например Excel таблицы.

Теперь загрузку данных из файлов можно реализовать в базовом фукнционале Datacol. От слов сразу перейдем к примеру. Допустим, у нас есть прайс поставщика (или конкурента) в Excel формате.

Он мог быть получен от поставщика напрямую либо с помощью парсинга с помощью Datacol с сайта поставщика или конкурента. Наша задача — добавить наценку в 20% для каждого товара.

Для этого создаем новую кампанию Datacol.

На этапе задания входных данных вместо ссылки на вебстраницу задаем полный локальный путь к нашему файлу. Кстати, если файл лежит в папке Документы на вашем компьютере, путь можно не задавать, а ограничиться названием файла.

Сбор ссылок отключаем. В данном случае он нам не понадобиться, ведь весь нужный контент будет взят сразу из файла.

Сбор данных также настраивать не придется. В данном случае распознавание полей данных в структуре Excel файла будет настроено автоматически с помощью специального пункта контекстного меню.

Настройка завершена. Можно закрыть мастер.

Запустим созданную кампанию. Видим, что Datacol мгновенно воспроизвел таблицу, которая находилась в исходном Excel файле. Кстати он по умолчанию сохраняет ее также в Excel файл, с названием, аналогичным названию новой кампании.

Однако мы помним, что наша задача — это установка наценки в 20%. Для этого нужно перейти к настройкам поля данных Цена

И подключить динамический плагин, изменяющий цену на определенный процент.

Плагин можно скачать с нашего сайта.

Осталось подкорректировать наценку по умолчанию, чтобы она равнялась 10%.

Готово, можно тестировать.

Запускаем кампанию

Видим, что цена парстится уже с наценкой. Аналогично она сохраняется в Excel файл.

Итак, мы показали только одну из прикладных задач, в которых может пригодиться парсинг из файлов. В будущих видео мы также покажем как можно парсить не один файл а все файлы в заданной папке и ее подпапках.