Продвинутый поиск контактов (email, телефоны)

Плагин D5Plugin_AdvancedContactFinder осуществляет автоматический поиск страницы с контактными данными на сайте, загружает эту страницу (если она была найдена) и производит поиск контактных данных в исходном коде страницы.

Принцип работы плагина

Алгоритм работы плагина очень простой. В виде спарсенного значения поля плагину передается исходный код страницы. В нем плагин находит первую внутреннюю ссылку, которая соответствует хотя бы одному из регулярных выражений, заданных в параметре конфигурации regexes-to-match-contact-page-link-and-anchor. Если ссылка найдена, то плагин загружает вебстраницу, на которую она указывает. Далее в исходном коде загруженной страницы происходит поиск контактов в соответствии с регулярными выражениями, указанными в параметре конфигурации regexes-to-find-contacts. В зависимости от значения параметра конфигурации save-first-contact (может быть равен 0 или 1), плагин в качестве результирующего значения возвращает либо все найденные контакты через запятую, либо только первый найденный контакт.

Важно: Требования к настройке поля

Для корректной работы плагина он должен подключаться к полю, в которое сохраняется полный исходный код страницы. Его можно сохранять с помощью регулярного выражения:

^.*?$

Стоимость плагина составляет 15$. Ссылка на загрузку плагина предоставляется по запросу.

Импорт плагина в Datacol

Импорт плагинов в программу подробно описан в справке (доступной из интерфейса программы):

Подключение плагина к настройке

Плагин D5Plugin_AdvancedContactFinder подключается в качестве плагина для обработки значения поля.

Конфигурация плагина D5Plugin_AdvancedContactFinder задается в соответствующей настройке.

В конфигурации задаются следующие параметры:

  • regexes-to-match-contact-page-link-and-anchor — список регулярных выражений, одному из которых должен соответствовать URL ссылки на страницу, на которой будет произведен поиск контактов.
  • regexes-to-find-contacts — регулярное выражение для поиска контактов в коде загруженной страницы контактов.
  • save-first-contact — флаг, задающий режим сохранения только первого найденного контакта.

Пример строки конфигурации:

<dc5par type="list-string" name="regexes-to-match-contact-page-link-and-anchor">
feedback
contacts
kontakti
</dc5par>
<dc5par type="list-string" name="regexes-to-find-contacts">[w-]+(.[w-]+)*@[w-]+(.[w-]+)+</dc5par>
<dc5par type="int" name="save-first-contact">1</dc5par>