Урок №23. Использование фильтров ссылок

В этом видео я покажу как использовать фильтры ссылок. Для лучшего восприятия информации, советую перед просмотром ознакомиться с видео пошаговой настройки интернет магазина.

В ряде случаев нужно указать Datacol, чтобы он заходил только на определенные страницы сайта либо наоборот — на определенные страницы не заходил. Задачу можно решить с помощью настройки форматов URL, однако в большинстве случаев есть более простой путь — использование фильтров ссылок.

Просмотрев это видео вы научитесь использовать фильтры ссылок. Это особенно актуально если вы хотите собирать данные не со всех собранных ссылок, а только с некоторых. Вам нужно задать параметры фильтра ссылок и на выходе вы получите только нужные данные.


Напомним, что в Datacol Вы так-же найдете уже готовые парсера:

Текст видео (если Вам проще воспринимать информацию после прочтения) »

Фильтр ссылок позволяет при сборе ссылок исключить те из них, которые содержат или не содержат определенные строки. Другими словами — не соответствующие ссылки будут проигнорированы и не будут добавлены в очередь на обработку.

Фильтр ссылок состоит из настройки Должны присутствовать, настройки Должны отсутствовать, а также флага Regex. Логика работы следующая. Если в ссылке нет НИ одной строки из списка Должны присутствовать, то ссылка игнорируется. Если в ссылке есть хотя бы одна строка из настройки Должны отсутствовать, то ссылка игнорируется. Если установлен флаг Regex, то при определении соответствия строки фильтра обрабатываются как регулярные выражения.

Приведем простой пример. Протестируем сбор ссылок в базовой кампании парсинга постов блога. Допустим, мы хотим собрать только посты, в ссылках на которые присутствует строка parser. Задаем соответствующий фильтр. Тестируем. Чтобы при этом не были исключены ссылки на последующие страницы пагинации, стоит также добавить строку page в допустимые. Можно, наоборот, отфильтровать все посты, в ссылках на которые присутствует строка parser.

Если вы владете регулярными выражениями, то все можно настраивать гораздо более гибко. В данном случае задаваемые строки как трафаретки накладываются на ссылки, чтобы определить соответствуют ли они настройкам фильтра, либо должны быть отсеяны.

После настройки фильтров не забываем сохранять внесенные изменения.