Базовые

Parent Previous Next


В базовых настройках сбора данных мы определяем какие страницы могут быть использованы для сбора данных. Чтобы понимать зачем это делается, ознакомьтесь с общим алгоритмом работы программы.


Таким образом, для того чтобы с определенного URL собирались данные, он должен:


1. Соответствовать хотя бы одному из регулярных выражений, заданных настройкой Форма URL страницы. Если эта настройка не задана, то данная проверка не производится (и в определении пригодности страницы для сбора данных участвуют только настройки Принадлежности).

2. Удовлетворять фильтру страниц по URL:

а) Содержать строки (или одну из строк если не задана опция Учитывать ВСЕ), заданные в настройке Должны присутствовать в URL.

б) Не содержать строки (или одну из строк если не задана опция Учитывать ВСЕ), заданные в настройке Должны отсутствовать в URL.

3. Код страницы, загруженной по ссылке URL должен удовлетворять фильтру страниц по коду:

а) Содержать строки (или одну из строк если не задана опция Учитывать ВСЕ), заданные в настройке Должны присутствовать в коде.

б) Не содержать строки (или одну из строк если не задана опция Учитывать ВСЕ), заданные в настройке Должны отсутствовать в коде.


Что касается 2-го и 3-го вышеприведенных пунктов, если установлен флаг Regex, то строки из настроек воспринимаются как регулярные выражения и URL (либо код страницы) проверяются на соответствие им.


Блок Тестирование сбора данных позволяет протестировать сбор данных с определенной страницы сайта. При нажатии на кнопку Тестировать происходит автоматическое сохранение всех настроек кампании.



Копирование результатов при тесте. При тестировании загрузки данных полученные результаты теперь можно сохранить в буфер обмена. До начала сбора данных вы можете проверить корректность настройки на странице с данными с сохранением результата теста.

Created with the Personal Edition of HelpNDoc: Free Kindle producer