Полезные фишки Datacol: решение ошибки «Ваш браузер устарел» и загрузка файлов с сайта

Этим постом мы начинаем серию постов “Полезные фишки Datacol, о которых мало кто знает”, в которых расскажем о полезных настройках программы, лайфхаках по ее настройке и работе, которые наверняка Вам пригодятся при самостоятельной настройке парсеров.

Как избежать ошибки “Ваш браузер устарел”

При сборе данных с использованием загрузчика “Браузер” иногда на странице с данными возникает ошибка вида  “Ваш браузер устарел” Особенно это актуально при парсинге поисковых систем Google и Yandex.

Данная ошибка чаще всего происходит потому, что инструмент “Браузер” использует User Agent из списка доступных в нашей программе. И хотя мы их обновляем, но разработчики браузеров их обновляют чаще.

Чтобы исправить ошибку и загрузить страницу с данными, Вам нужно:

  1. Запустить свой браузер и в адресной строке набрать “My user agent”. В результате выполнения такой команды вы получите примерно такие данные:
  2. Зайдите в настройки кампании. Во вкладке “Общие->Дополнительно” найдете список доступных user agent.
  3. Удалите текущие значения и добавьте туда свое.
  4. При следующем запуске парсера данные будут загружаться.

Как загружать данные с сайта

Datacol умеет собирать изображения и загружать их на локальный компьютер. По аналогии с изображениями он также поможет загрузить любые файлы, которые есть на сайте: каталоги, инструкции, рефераты, книги, архивы с программами и т.д.

Для того, чтобы собрать нужные данные, Вам нужно:

  1.  В настройку парсинга добавить поле, которое будет собирать ссылки на объекты, которые нужно скачать. Пусть это будут фото для магазина.
  2. Затем зайти на вкладку “Загрузка файлов” и настроить сохранение нужных файлов. В настройках вы сможете задать путь для сохранения файла, правила, по которым может быть сформировано имя, расширение для файла.