Парсер контента по списку URL
Парсер контента — это настройка Datacol, которая автоматически получает контент по списку URL. На выходе вы получаете очищенный от тегов контент.
- Парсер поможет найти контент по заданному списку URL;
- Возможность рерайта контента с помощью дополнительного плагина синонимизации;
- Более 15 форматов экспорта собранных данных. Сохраняйте в удобном виде для дальнейшего редактирования или экспорта на сайт.
Экспорт обычно производится в текстовый файл со следующей структурой:
<content>Контент страницы</content>
Ниже приведен скриншот такого файла:
Проверить работу парсера контента по списку URL можно бесплатно в демо-версии программы.
Основные преимущества парсера контента по списку URL на базе Datacol это:
- Возможность донастройки парсинга контента по списку URL конкретно под ваши нужды (вами либо нами на платной основе).
- Возможность переводить, уникализировать, дополнительно обработать собранные данные с помощью плагинов а также загружать их в различные форматы и CMS.
- Возможность цикличного запуска кампаний. Когда результаты выполнения первой задачи парсинга будут входными данными для второй задачи по сбору данных. Подробнее смотрите здесь.
Тестирование парсинга контента по списку URL
Чтобы протестировать работу парсера контента по списку URL:
Шаг 1. Установите демо-версию программы Datacol. Демо-версия программы имеет все возможности платной, но сохраняет только первые 25 результатов парсинга.
Шаг 2. В дереве кампаний присутствует кампания >content-parsers/content-by-urls.par. Выберите ее и нажмите кнопку Запуск (Play). Перед запуском вы можете отредактировать Входные данные, чтобы изменить список URL, с которых будет парситься контент.
Шаг 3. Дождитесь появления результатов работы парсера контента по списку URL. После появления результатов можно принудительно остановить парсинг (нажав кнопку Стоп).
Шаг 4. После окончания/принудительной остановки парсера в папке Мои документы можно найти файл content from Datacol5.txt:
Блокировка парсера со стороны сайта источника »
Если сайт-источник забанит ваш IP адрес (обычно в результате этого перестают находиться новые результаты), задействуйте прокси.
Обработка и экспорт данных
Способы обработки данных, собранных парсером контента по списку URL:
Форматы экспорта данных, собранных парсером контента по списку URL:
- CSV/TXT/База данных/Excel;
- WordPress;
- DLE;
- Joomla;
- Webasyst;
- Все варианты.
Загрузка в CMS/магазин/сайт
Если у вас не получается самостоятельно загрузить собранные данные в свою CMS/интернет магазин/сайт, оставьте заявку и мы постараемся Вам помочь.
Сколько стоит парсер контента
Парсер контента – это настройка (пресет/конфигурация) программы Datacol. Настройка доступна в демо-версии программы. Демо-версия имеет все возможности платной версии, но сохраняет только первые 25 результатов парсинга. Узнать актуальную стоимость лицензии Datacol и купить программу можно здесь.
FAQ
Что делать, если сайт блокирует (банит) парсинг?
Если сайт забанит ваш IP-адрес (обычно в результате этого перестают находиться новые результаты), задействуйте прокси или VPN.
Как разобраться в Datacol?
Ознакомьтесь, пожалуйста, с видеоуроками по Datacol (хотя бы первые 3-5 уроков). Если при дальнейшей настройке программы у вас возникнут вопросы, задайте их нам. Поддержка Datacol отвечает с понедельника по пятницу.
Какие условия покупки Datacol?
Все условия приобретения программы приведены здесь.
Как я получу программу после ее оплаты?
После поступления оплаты за лицензию вы получите код активации программы и информацию о сроках действия вашей лицензии на адрес электронной почты, указанный при покупке. Инструкцию по активации можно посмотреть здесь.