Алгоритм работы программы

При запуске кампании парсинга Очередь заполняется в соответствии с настройками, указанными в окне Входные данные или на вкладке Стартовые URL. Также Очередь может заполняться URL из дампа Очереди, сохраненного при предыдущем парсинге. Что касается Истории, то она также может заполняться URL из дампа Истории, сохраненного при предыдущем парсинге. Далее потоки парсера начинают в параллельном режиме доставать URL из Очереди. В момент удаления URL из очереди (и соответственно поступления в обработку) происходит добавление этого URL в историю обработанных. Каждый URL обрабатывается по нижеописанному плану.

1. Проверка, подходит ли URL для сбора данных или для сбора ссылок. Проверка осуществляется в соответствии с настройками, заданными в блоке Сбор данных и Навигация.

2. Загрузка страницы URL, в результате чего мы получаем исходный код страницы.

3. Проверка, подходит ли код загруженной страницы для сбора данных или для сбора ссылок. Проверка осуществляется в соответствии с настройками, заданными в блоке Сбор данных и Навигация.

4. Если страница подходит для сбора данных (это проверялось ранее по ее URL и коду страницы), то на ней производится сбор данных в соответствии с настройками указанными в блоке Сбор данных.

5. Если страница подходит для сбора ссылок (это проверялось ранее по ее URL и коду страницы), то на ней производится сбор ссылок в соответствии с настройками указанными на вкладке Навигация -> Сбор ссылок. Собранные ссылки добавляются в Очередь. При этом игнорируются:

- ссылки, URL которых не соответствует НИ настройкам соответствия URL для сбора данных, НИ настройкам соотвтествия URL для сбора ссылок.

- ссылки, которые уже присутствют в Истории парсера.

6. Экспорт результатов сбора данных. В зависимости от настроек экспорта, результаты могут сохраняться в произвольный формат (обычно это CSV или TXT файл), Excel, Mysql, Wordpress или с помощью плагина экспорта.

Created with the Personal Edition of HelpNDoc: Produce Kindle eBooks easily