Базовые настройки навигации

Parent Previous Next


В базовых настройках навигации мы определяем какие страницы могут быть использованы для сбора ссылок с них на другие страницы сайта (в рамках текущей кампании). Чтобы понимать зачем это делается, ознакомьтесь с общим алгоритмом работы программы.


Таким образом, для того чтобы с определенного URL собирались ссылки на другие страницы сайта, он должен:


1. Соответствовать хотя бы одному из регулярных выражений, заданных настройкой Форма URL страницы. Если эта настройка не задана, то данная проверка не приозводится (и в определении пригодности страницы для сбора ссылок участвуют только настройки Принадлежности).

2. Удовлетворять фильтру страниц по URL:

а) Содержать строки (или одну из строк если не задана опция Учитывать ВСЕ), заданные в настройке Должны присутствовать в URL.

б) Не содержать строки (или одну из строк если не задана опция Учитывать ВСЕ), заданные в настройке Должны отсутствовать в URL.

3. Код страницы, загруженной по ссылке URL должен удовлетворять фильтру страниц по коду:

а) Содержать строки (или одну из строк если не задана опция Учитывать ВСЕ), заданные в настройке Должны присутствовать в коде.

б) Не содержать строки (или одну из строк если не задана опция Учитывать ВСЕ), заданные в настройке Должны отсутствовать в коде.


Что касается 2-го и 3-го вышеприведенных пунктов, если установлен флаг Regex, то строки из настроек воспринимаются как регулярные выражения и URL (либо код страницы) проверяются на соответствие им.


Глубина прохода по сайту. Данная настройка позволяет ограничить глубину парсинга сайта. Если глубина равна нулю, то парсер будет обрабатывать только начальный список URL (и не собирать ссылки на другие страницы сайта). Обратите внимание на то, что в случае парсинга сайта, на котором необходимые для парсинга страницы находятся на большой глубине (например при парсинге каталога объявлений), необходимо увеличивать значение данной настройки до необходимого уровня.

Created with the Personal Edition of HelpNDoc: Create HTML Help, DOC, PDF and print manuals from 1 single source