Парсер контента по списку URL

Парсер контента — это настройка Datacol, которая автоматически получает контент по списку URL. На выходе вы получаете очищенный от тегов контент.

  • Парсер поможет найти контент по заданному списку URL;
  • Возможность рерайта контента через сервис Synonyma.ru с помощью дополнительного плагина;
  • Более 15 форматов экспорта собранных данных. Сохраняйте в удобном виде для дальнейшего редактирования или экспорта на сайт.

Экспорт обычно производится в текстовый файл со следующей структурой:

    <url>Ссылка на страницу</url>
    <content>Контент страницы</content>

Ниже приведен скриншот такого файла:

Результаты парсинга контента по списку URL

кликните на изображении для увеличения


Проверить работу парсера контента по списку URL можно бесплатно в демо-версии программы.


Основные преимущества парсера контента по списку URL на базе Datacol это:

  • Возможность донастройки парсинга контента по списку URL конкретно под ваши нужды (вами либо нами на платной основе).
  • Возможность переводить, уникализировать, дополнительно обработать собранные данные с помощью плагинов а также загружать их в различные форматы и CMS.
  • Возможность цикличного запуска кампаний. Когда результаты выполнения первой задачи парсинга будут входными данными для второй задачи по сбору данных. Подробнее смотрите здесь.

Тестирование парсинга контента по списку URL

Чтобы протестировать работу парсера контента по списку URL:

Шаг 1. Установите демо-версию программы Datacol. Демо-версия программы имеет все возможности платной, но сохраняет только первые 25 результатов парсинга.

Скачать Демо-версию Datacol

Шаг 2. В дереве кампаний присутствует кампания >content-parsers/content-by-urls.par. Выберите ее и нажмите кнопку Запуск (Play). Перед запуском вы можете отредактировать Входные данные, чтобы изменить список URL, с которых будет парситься контент.

Запуск парсера контента по списку URL

кликните на изображении для увеличения

Шаг 3. Дождитесь появления результатов работы парсера контента по списку URL. После появления результатов можно принудительно остановить парсинг (нажав кнопку Стоп).

Парсер контента по списку url

кликните на изображении для увеличения

Шаг 4. После окончания/принудительной остановки парсера в папке Мои документы можно найти файл content from Datacol5.txt:

Результаты парсинга контента по списку URL

кликните на изображении для увеличения

Блокировка парсера со стороны сайта источника »

Если сайт-источник забанит ваш IP адрес (обычно в результате этого перестают находиться новые результаты), задействуйте прокси.

Обработка и экспорт данных

Способы обработки данных, собранных парсером контента по списку URL:

Форматы экспорта данных, собранных парсером контента по списку URL:

Загрузка в CMS/магазин/сайт

Если у вас не получается самостоятельно загрузить собранные данные в свою CMS/интернет магазин/сайт, оставьте заявку и мы постараемся Вам помочь.


Сколько стоит парсер контента

Парсер контента – это настройка (пресет/конфигурация) программы Datacol. Настройка доступна в демо-версии программы. Демо-версия имеет все возможности платной версии, но сохраняет только первые 25 результатов парсинга. Узнать актуальную стоимость лицензии Datacol и купить программу можно здесь.

FAQ

Что делать, если сайт блокирует (банит) парсинг?

Если сайт забанит ваш IP-адрес (обычно в результате этого перестают находиться новые результаты), задействуйте прокси или VPN.

Как разобраться в Datacol?

Ознакомьтесь, пожалуйста, с видеоуроками по Datacol (хотя бы первые 3-5 уроков). Если при дальнейшей настройке программы у вас возникнут вопросы, задайте их нам. Поддержка Datacol отвечает с понедельника по пятницу.

Какие условия покупки Datacol?

Все условия приобретения программы приведены здесь.

Как я получу программу после ее оплаты?

После поступления оплаты за лицензию вы получите код активации программы и информацию о сроках действия вашей лицензии на адрес электронной почты, указанный при покупке. Инструкцию по активации можно посмотреть здесь.

Не нашли ответа?