Урок №30. Парсинг из файлов
Бывают случаи, когда нужно спарсить данные не с веб-страниц, а из файлов, расположенных на локальном компьютере. Это актуально для задач преобразования информации в файлах. Например: автоматического перевода, добавления наценки к цене, удаления лишнего текста. Данный механизм также пригодиться в задачах публикации контента из файлов на ваш сайт на WordPress, Opencart, Bitrix, Joomla, Webasyst, DLE и других CMS. Отдельная группа задач — работа с прайслистами, в частности изменение, фильтрация и анализ доступных в них данных, распознавания сканированных объявлений.
Напомним, что в Datacol Вы так-же найдете уже готовые парсера:
Для сбора контента: |
Для работы с соц. сетями: |
Для SEO: |
Текст видео (если Вам проще воспринимать информацию после прочтения) »
Зачастую бывают случаи, когда вы ранее собрали данные и у вас есть выгрузка в Excel файле, но в ней нужно что либо поменять. Например добавить наценку к стоимости выгруженных с сайта поставщика товаров. При этом не хочется тратить время и ресурсы, чтобы перепарсивать исходный сайт, ведь выгрузка уже имеется.
Ввиду большого количества конечных прикладных задач, актуальна поддержка различных форматов входных файлов. С одной стороны, это могут быть простые текстовые файлы. С другой стороны, это могут быть файлы со сложной структурой, например Excel таблицы.
Теперь загрузку данных из файлов можно реализовать в базовом фукнционале Datacol. От слов сразу перейдем к примеру. Допустим, у нас есть прайс поставщика (или конкурента) в Excel формате.
Он мог быть получен от поставщика напрямую либо с помощью парсинга с помощью Datacol с сайта поставщика или конкурента. Наша задача — добавить наценку в 20% для каждого товара.
Для этого создаем новую кампанию Datacol.
На этапе задания входных данных вместо ссылки на вебстраницу задаем полный локальный путь к нашему файлу. Кстати, если файл лежит в папке Документы на вашем компьютере, путь можно не задавать, а ограничиться названием файла.
Сбор ссылок отключаем. В данном случае он нам не понадобиться, ведь весь нужный контент будет взят сразу из файла.
Сбор данных также настраивать не придется. В данном случае распознавание полей данных в структуре Excel файла будет настроено автоматически с помощью специального пункта контекстного меню.
Настройка завершена. Можно закрыть мастер.
Запустим созданную кампанию. Видим, что Datacol мгновенно воспроизвел таблицу, которая находилась в исходном Excel файле. Кстати он по умолчанию сохраняет ее также в Excel файл, с названием, аналогичным названию новой кампании.
Однако мы помним, что наша задача — это установка наценки в 20%. Для этого нужно перейти к настройкам поля данных Цена
И подключить динамический плагин, изменяющий цену на определенный процент.
Плагин можно скачать с нашего сайта.
Осталось подкорректировать наценку по умолчанию, чтобы она равнялась 10%.
Готово, можно тестировать.
Запускаем кампанию
Видим, что цена парстится уже с наценкой. Аналогично она сохраняется в Excel файл.
Итак, мы показали только одну из прикладных задач, в которых может пригодиться парсинг из файлов. В будущих видео мы также покажем как можно парсить не один файл а все файлы в заданной папке и ее подпапках.