Этим постом мы начинаем серию постов “Полезные фишки Datacol, о которых мало кто знает”, в которых расскажем о полезных настройках программы, лайфхаках по ее настройке и работе, которые наверняка Вам пригодятся при самостоятельной настройке парсеров.
Как избежать ошибки “Ваш браузер устарел”
При сборе данных с использованием загрузчика “Браузер” иногда на странице с данными возникает ошибка вида “Ваш браузер устарел” Особенно это актуально при парсинге поисковых систем Google и Yandex.
Данная ошибка чаще всего происходит потому, что инструмент “Браузер” использует User Agent из списка доступных в нашей программе. И хотя мы их обновляем, но разработчики браузеров их обновляют чаще.
Чтобы исправить ошибку и загрузить страницу с данными, Вам нужно:
- Запустить свой браузер и в адресной строке набрать “My user agent”. В результате выполнения такой команды вы получите примерно такие данные:
- Зайдите в настройки кампании. Во вкладке “Общие->Дополнительно” найдете список доступных user agent.
- Удалите текущие значения и добавьте туда свое.
- При следующем запуске парсера данные будут загружаться.
Как загружать данные с сайта
Datacol умеет собирать изображения и загружать их на локальный компьютер. По аналогии с изображениями он также поможет загрузить любые файлы, которые есть на сайте: каталоги, инструкции, рефераты, книги, архивы с программами и т.д.
Для того, чтобы собрать нужные данные, Вам нужно:
- В настройку парсинга добавить поле, которое будет собирать ссылки на объекты, которые нужно скачать. Пусть это будут фото для магазина.
- Затем зайти на вкладку “Загрузка файлов” и настроить сохранение нужных файлов. В настройках вы сможете задать путь для сохранения файла, правила, по которым может быть сформировано имя, расширение для файла.