Алгоритм подбора регулярного выражения

Selector ››
Parent Previous Next

Алгоритм подбора регулярного выражения для сбора данных

Selector значительно упрощает подбор регулярных выражений для использования в Datacol. Приведем простой пример. Допустим, с данной страницы мы хотим спарсить заголовок поста:


Datacol: все парсера в одном!


Нам необходимо найти регулярное выражение, которое будет вырезать заголовок с любого поста данного блога. При этом алгоритм подбора регулярного выражения выглядит следующим образом:


1. Загружаем страницу в помощнике Datacol. Для 100-% точности подбора можно использовать опцию Загрузчик Datacol, поскольку он загружает код страницы аналогично тому, как это делает Datacol (то есть без обработки Javascript).



2.  Кликаем в браузере несколько раз по заголовку поста (то есть по тексту, который хотим спарсить), пока в исходном коде не найдется вхождение, ограниченное символами тегов:


>ВХОЖДЕНИЕ<


Обратите внимание! Если вхождение не находится, то самый простой вариант - задействовать альтернативный механизм вырезания данных с помощью Xpath.



3. Кликаем правой кнопкой мыши по выделению и в открывшемся контекстном меню выбираем пункт Выделить окружающие теги.



Таким образом, в нашем случае выделение будет содержать код:


<h1 class="title">Datacol: все парсера в одном!</h1>

Кликаем правой кнопкой мыши по выделенному коду и в открывшемся контекстном меню выбираем пункт Создать Regex как шаблон:



4. В блоке Подбор Regex вы увидите сформированное Datacol регулярное выражение, а также его исходный код и представление в браузере. Также советуем "поиграть" с настройкой Группа - тогда станет понятнее смысл скобок (...), используемых при составлении регулярного выражения.



Если количество найденных блоков равно одному, и результат подбора Regex - это именно тот текст, который вы хотели спарсить, то в стандартном случае это означает, что Datacol правильно подобрал регулярное выражение.


5. Сформированное регулярное выражение остается вставить в Datacol (в данном случае в качестве строки вырезания, поскольку оно используется для вырезания поля данных).



Обратите внимание! Если вам не удалось найти регулярное выражение для сбора нужных данных, вы можете задействовать альтернативный механизм вырезания данных с помощью Xpath.

Created with the Personal Edition of HelpNDoc: Free Web Help generator