Урок №33. Кластеризация запросов с помощью Datacol

После того, как мы научили Datacol работать с файлами, оказалось, что он может приносить еще больше пользы для наших собственных маркетологов. Рассмотрим задачу кластеризации запросов по группам. Суть ее в следующем. Мы активно изучаем свою аудиторию. Одним из наиболее ценных источников информации для нас являются отчеты Google Analytics и Яндекс метрики. В частности, отчет по ключевым словам или запросам, по которым аудитория приходит из поисковиков на наш сайт, осуществляет покупки или наоборот уходит с сайта. Однако сайт работает уже не первый год и мы получаем в отчете тысячи запросов.

Для дальнейшего анализа мы хотим предварительно расфасовать запросы по группам — другими словам “кластеризовать”. При этом интересно получить суммарные или усредненные значения параметров, таких как количество показов, CTR и тому подобное по каждому кластеру запросов.

Напомним, что в Datacol Вы так-же найдете уже готовые парсера:

Текст видео (если Вам проще воспринимать информацию после прочтения) »

Какие возможности это дает нам:
Первое. Быстро составить или расширить семантическое ядро сайта;
Второе. Отобрать запросы для контекстной рекламы;
Третье. Выделить наиболее перспективные решения или продукты, которые стоит совершенствовать.
Четвертое. Выделить фичи или товарные позиции, которые стоило бы добавить в свой ассортимент. Другими словами — найти те запросы, по которым люди из поиска приходят на сайт, но уходят ни с чем, поскольку мы просто не продаем соответствующий товар.
Думаю, если вы связаны с интернет маркетингом, вы сами дополните этот список возможностей кластеризатора.

Итак от слов к делу. Возьмем выгруженный из Google Analytics отчет (точнее его часть, извините — корпоративные секретики))).

Для обработки Datacol нам его нужно немного преобразовать. Во-первых удалим лишние листы, чтобы остался только один, где находится информация, которую нужно кластеризовать. Обратите внимание, запрос (то есть то что будет кластеризоваться) должен находиться в первой колонке. Во-вторых удалим лишние строки. Проще говоря, это все строки (кроме первой строки-заголовка), которые не содержат информации об одном отдельном запросе. В-треьих, проверим, чтобы у таблицы в файле были заголовки.

Положим отчет в папку Документы, на нашем локальном компьютере.

Теперь настроим Datacol кампанию для парсинга данных из Excel файла. Для этого создаем новую кампанию Datacol.

На этапе задания входных данных вместо ссылки на вебстраницу задаем полный локальный путь к нашему файлу. Кстати, если файл лежит в папке Документы на нашем компьютере, путь можно не задавать, а ограничиться названием файла.

Сбор ссылок отключаем. В данном случае он нам не понадобиться, ведь весь нужный контент будет взят сразу из файла.

Сбор данных также настраивать не придется. В данном случае распознавание полей данных в структуре Excel файла будет настроено автоматически с помощью специального пункта контекстного меню.

Настройка завершена. Можно закрыть мастер.

Запустим созданную кампанию. Видим, что Datacol воспроизвел таблицу, которая находилась в исходном Excel файле. Кстати, по умолчанию она сохраняется также в Excel файл, с названием, аналогичным названию новой кампании.

В файле выгрузке мы видим, что сохранилась практически та же информация, которая была в исходном файле. Теперь вопрос — как сделать, чтобы перед сохранением в файл происходила кластеризация отчета. Для этого нужно подключить плагин.

Скачаем плагин.

Добавим плагин в настройку Datacol.

Теперь нужно задать плагину правила, на основе которых он будет кластеризовать запросы.

Правила задаются в специальном формате. Если вы знакомы с C#, то вы сразу поймете о чем речь. Однако если вы даже не знакомы с C#, вы сможете задать эти правила по аналогии с приведенными примерами.

Чтобы все было просто, будем считать, что каждое правило состоит из двух строк. В первой мы задаем в кавычках название кластера. Во второй через запятую также в кавычках перечисляем строки, которые должны входить в запрос, чтобы он был приписан данному кластеру.

Заметим, что регистр роли не играет.

Мы сейчас добавили 3 правила для распознавания кластеров. Каждый из них позволяет приписать определенному кластеру запросы, в которые входит та или иная строка. В итоге мы определим запросы, которые задавали люди, искавшие нас по названию программы, запросы людей, которым скорее всего нужен мониторинг объявлений на авито, а также запросы людей, которым скорее всего нужна выгрузка яндекс маркета. На деле кластеров конечно же значительно больше, однако для тестового примера мы обойдемся этими.

Обратите внимание на несколько важных моментов:
Первое. Кластеризуется то, что находится в первой колонке. Поэтому поисковой запрос должен находиться именно в первой колонке отчета.

Второе. Данные во всех колонках кроме первой — по умолчанию суммируются. Если вы хотите, чтобы информация усреднялась (например, это актуально для таких показателей как средняя позиция, или ctr), вы можете задать это с помощью определения списка FieldsToAverage

Третье. При желании, генерацию отчета по суммам и средним можно отключить. Это делается так:

Но сейчас мы вернем все как был, ведь нам интересно увидеть отчет полностью.

Четвертое. На самом деле, строки, которые задаются для распознавания кластеров, является регулярными выражениями. Таким образом вы можете задавать не только точные вхождения, но и такие себе трафаретки, которые будут накладываться на запросы для определения, к какому кластеру они принадлежат. Благодаря им, мы могли бы наши последний кластер задать следующим образом:

Это делает возможным легко отлавливать даже те запросы, которые введены с ошибкой или опечаткой.

В общем, если вы знакомы с регулярными выржанеями, это позволит вам значительно ускорить процесс настройки кластеризатора.

Ну и наконец — протестируем настройку.

Обработка занимает какое то время. В среднем около 30-40 секунд на 5000 строк Excel файла.

Обратите внимание, результирующий отчет с расфасовкой по кластерам не отображается в результатах Datacol. Он доступен в результирующем файле.

Видим, что справа появилась колонка, в которой для ряда ключевиков были распознаны кластеры на базе введенных нами правил. Запросы, для которых кластера не распознаны — это источник для пополнения правил кластеризации. Кстати именно среди них можно обнаружить те товары или фичи, которые у вас могли бы покупать, а вы их не продаете.

Прокрутим отчет в самый низ. Видим, что под отчетом есть сводные данные. В частности для каждого кластера показаные либо суммы, либо средние значения для всех числовых параметров. Также в крайней колонке, которая называется count, приведены количества запросов, отнесенные к соответствующему кластеру.

Обратите внимание, если в результирующем файле нет информации по кластерам, возможно была допущена ошибка при редактировании плагина. Если так — смотрим лог ошибок.

Если ошибка есть, подкорректируйте код плагина, либо опубликуйте скриншот лога или текст на нашем форуме и мы подскажем в каком направлении двигаться для решения вопроса.

Итак подведем итоги.
Datacol теперь умеет выполнять еще одну очень полезную задачу. При этом у кластеризатора на базе Datacol есть три огромных плюса по сранению с другими продуктами для реализации этой задачи:
Во-первых — его легко доработать под ваши нужды. Если вы знаете c# — можете сделать это самостоятельно. Если нет — наймите программиста. С учетом наличия готового исходного кода доработка будет в среднем стоить от 5 до 20$ в зависимости от сложности задачи.
Во-вторых, кроме запросов из аналитикса и метрики, можно по аналогии работать с другими статистиками, например запросов из Wordstat или Adwords Keyword Planner, выгрузкой площадок, с которых идет трафик на ваш сайт и так далее. Например из всего трафика со сторонних сайтов вы захотите выделить только тот, который приходит с форумов или платных обзоров, чтобы узнать какой его относительный объем и насколько он хорошо конвертируется.
В-третьих — Datacol не налагает ограничений на количество обрабатываемых запросов. Если файл слишком большой, вы можете его разделить на порции от 5 до 10 тысяч строк и кластеризовать запросы сколько вам влезет (извиняюсь за жаргон)))

Если вам будет неясен общий принцип работы с плагином — вы можете обратиться к нам, специалисты поддержки подскажут правильное направление.

Если же у вас будут рекомендации по доработкам для совершенствования кластеризатора на базе Datacol, мы с радостью их рассмотрим. Предложения можно отправлять по форме обратной связи на нашем сайте.