Очередь и история

Parent Previous Next


Максимум страниц в очереди и истории. Максимально допустимое суммарное количество страниц в Очереди и Истории. Если настройка равна нулю, ограничение не действует.


Новые в начало очереди. Ссылки, которые находятся на страницах, помещаются в начало очереди (по умолчанию они помещаются в конец очереди). Таким образом парсер их обработает раньше. Настройка позволяет сделать процесс парсинга более наглядным в случае, когда в Начальных URL задано большое количество ссылок на категории.


Сохранять / Использовать дамп очереди и истории. При установке данной опции Очередь и История будут сохраняться в дамп после завершения процесса парсинга. Перед последующим запуском парсера Очередь и История будут подгружаться из дампа.


Начальные всегда. Эта настройка указывает Datacol всегда при запуске процесса парсинга добавлять в Очередь набор начальных URL, даже если они уже присутствуют в Истории (подгруженной из дампа).


Очищать дамп Истории после окончания парсинга. При установке этой опции дамп Истории очищается после окончания парсинга.


Очищать дамп Очереди после окончания парсинга. При установке этой опции дамп Очереди очищается после окончания парсинга.


Очередь в дамп Истории после окончания парсинга. При установке этой опции оставшиеся в Очереди на обработку страницы после окончания парсинга помещаются в Историю. Эта опция позволяет легко парсить часто обновляющиеся блоги, поскольку при посещении начальных URL, парсер будет собирать только новые ссылки, а все старые (собранные ранее) игнорировать.


Не добавлять страницы каталога в дамп истории. При установке данной опции страницы, с которых производился сбор ссылок, не помещаются в дамп Истории. Эта опция дает возможность перепарсивать каталоги товаров (или объявлений), в выдаче которых регулярно появляются новые ссылки.

Created with the Personal Edition of HelpNDoc: Free Kindle producer