Определения тематики сайта

Плагин D5Plugin_ThemeIdentifier позволяет определять тематику сайта.

Важно: Требования к настройке поля

Для корректной работы плагина он должен подключаться к полю, в которое сохраняется полный исходный код страницы. Его можно сохранять с помощью регулярного выражения:

^.*?$

Как вариант, вместо исходного кода страницы можно сохранять значение тега title:

(.*?)

Стоимость плагина составляет 10$. Ссылка на загрузку плагина предоставляется по запросу.

Импорт плагина в Datacol

Импорт плагинов в программу подробно описан в справке (доступной из интерфейса программы):

Подключение плагина к настройке

Плагин D5Plugin_ThemeIdentifier подключается в качестве плагина для обработки значения поля. Плагин может подключаться одновременно к нескольким полям данных.

Конфигурация плагина D5Plugin_ThemeIdentifier задается в соответствующей настройке.

В конфигурации задаются следующие параметры:

  • substrings — список подстрок, наличие и количество которых проверяется для определения тематики сайта.
  • minimum — минимальное количество вхождений подстроки на странице, необходимое для того, чтобы она была актуальной в контексте определения тематики сайта.

Пример строки конфигурации:


5

интернет маркетинг
smo
seo
smm

1. В спарсенном значении поля плагин подсчитывает количество вхождений каждой из подстрок, заданных в параметре конфигурации substrings.
2. В качестве результата работы плагина сохраняется подстрока, количество вхождений которой соответствует следующим условиям:
— больше, чем количества вхождений остальных подстрок;
— больше числа, заданного в параметре конфигурации minimum.