Продвинутый поиск контактов (email, телефоны)
Плагин D5Plugin_AdvancedContactFinder осуществляет автоматический поиск страницы с контактными данными на сайте, загружает эту страницу (если она была найдена) и производит поиск контактных данных в исходном коде страницы.
Принцип работы плагина
Алгоритм работы плагина очень простой. В виде спарсенного значения поля плагину передается исходный код страницы. В нем плагин находит первую внутреннюю ссылку, которая соответствует хотя бы одному из регулярных выражений, заданных в параметре конфигурации regexes-to-match-contact-page-link-and-anchor. Если ссылка найдена, то плагин загружает вебстраницу, на которую она указывает. Далее в исходном коде загруженной страницы происходит поиск контактов в соответствии с регулярными выражениями, указанными в параметре конфигурации regexes-to-find-contacts. В зависимости от значения параметра конфигурации save-first-contact (может быть равен 0 или 1), плагин в качестве результирующего значения возвращает либо все найденные контакты через запятую, либо только первый найденный контакт.
Важно: Требования к настройке поля
Для корректной работы плагина он должен подключаться к полю, в которое сохраняется полный исходный код страницы. Его можно сохранять с помощью регулярного выражения:
Стоимость плагина составляет 15$. Ссылка на загрузку плагина предоставляется по запросу.
Импорт плагина в Datacol
Импорт плагинов в программу подробно описан в справке (доступной из интерфейса программы):
Подключение плагина к настройке
Плагин D5Plugin_AdvancedContactFinder подключается в качестве плагина для обработки значения поля.
Конфигурация плагина D5Plugin_AdvancedContactFinder задается в соответствующей настройке.
В конфигурации задаются следующие параметры:
- regexes-to-match-contact-page-link-and-anchor — список регулярных выражений, одному из которых должен соответствовать URL ссылки на страницу, на которой будет произведен поиск контактов.
- regexes-to-find-contacts — регулярное выражение для поиска контактов в коде загруженной страницы контактов.
- save-first-contact — флаг, задающий режим сохранения только первого найденного контакта.
Пример строки конфигурации:
feedback
contacts
kontakti
</dc5par>
<dc5par type="list-string" name="regexes-to-find-contacts">[w-]+(.[w-]+)*@[w-]+(.[w-]+)+</dc5par>
<dc5par type="int" name="save-first-contact">1</dc5par>