Selector значительно упрощает подбор регулярных выражений для использования в Datacol. Приведем простой пример. Допустим, с данной страницы мы хотим спарсить заголовок поста:
Datacol: все парсера в одном!
Нам необходимо найти регулярное выражение, которое будет вырезать заголовок с любого поста данного блога. При этом алгоритм подбора регулярного выражения выглядит следующим образом:
1. Загружаем страницу в помощнике Datacol. Для 100-% точности подбора можно использовать опцию Загрузчик Datacol, поскольку он загружает код страницы аналогично тому, как это делает Datacol (то есть без обработки Javascript).
2. Кликаем в браузере несколько раз по заголовку поста (то есть по тексту, который хотим спарсить), пока в исходном коде не найдется вхождение, ограниченное символами тегов:
>ВХОЖДЕНИЕ<
Обратите внимание! Если вхождение не находится, то самый простой вариант - задействовать альтернативный механизм вырезания данных с помощью Xpath.
3. Кликаем правой кнопкой мыши по выделению и в открывшемся контекстном меню выбираем пункт Выделить окружающие теги.
Таким образом, в нашем случае выделение будет содержать код:
<h1 class="title">Datacol: все парсера в одном!</h1>
Кликаем правой кнопкой мыши по выделенному коду и в открывшемся контекстном меню выбираем пункт Создать Regex как шаблон:
4. В блоке Подбор Regex вы увидите сформированное Datacol регулярное выражение, а также его исходный код и представление в браузере. Также советуем "поиграть" с настройкой Группа - тогда станет понятнее смысл скобок (...), используемых при составлении регулярного выражения.
Если количество найденных блоков равно одному, и результат подбора Regex - это именно тот текст, который вы хотели спарсить, то в стандартном случае это означает, что Datacol правильно подобрал регулярное выражение.
5. Сформированное регулярное выражение остается вставить в Datacol (в данном случае в качестве строки вырезания, поскольку оно используется для вырезания поля данных).
Обратите внимание! Если вам не удалось найти регулярное выражение для сбора нужных данных, вы можете задействовать альтернативный механизм вырезания данных с помощью Xpath.
Created with the Personal Edition of HelpNDoc: Free Web Help generator