Парсер ВКонтакте
Социальная сеть Vkontakte.ru содержить огромное количество полезной информации, которая может пригодиться в различных нишах интернет маркетинга. Однако зачастую эта информация доступна только авторизованным пользователям, поэтому далеко не все парсера справляются с ее получением. На нижеприведенном примере я покажу как с помощью Datacol можно настроить парсинг обсуждений из группы Vkontakte.
Создать парсер страниц обсуждений Vkontakte (вот пример).

Со страницы должна получаться следующая информация:
Имя пользователя, Оставленное сообщение, Время появления сообщения.

Попробовать парсер Вконтакте в работе можно после приобретения Datacol, поскольку он использует плагин DatacolVkontakte.dll, который автор предоставляет только после покупки.
Парсинг Вконтакте в Datacol реализован с помощью плагина. Проход парсера по сайту, сбор информации и ее сохранение происходит в рамках стандартного функционала Datacol. Но получение данных со страниц происходит с помощью плагина DatacolVkontakte.dll. Подключение плагина происходит на панели Навигации:

В папке, где находится плагин, должен находиться файл с данными для авторизации Vkontakte под названием datacol_vklogin.txt. Этот файл имеет следующий формат:
Плагин DatacolVkontakte.dll можно бесплатно получить у автора при покупке Datacol.
Во время тестирования сбора данных при настройке парсинга отдельных полей, вы также можете подключать вышеуказанный плагин (но обратите внимание — для того чтобы плагин использовался при работе парсера — его обязательно необходимо подключить в настройках Навигации как показано выше).

Что касается настроек парсинга, то они довольно просты. В общих настройках необходимо указать, что парсер будет использовать 1 поток при работе (чтобы Vkontakte не забанил нашего пользователя за слишком частые обращения к страницам). С той же целью избежать бана устанавливаем интервал в 5 секунд между обращениями к страницам.

В Список начальных URL вводим непосредственно набор ссылок на страницы обсуждений, которые мы собираемся парсить. Для простоты настройки — мы не будем осуществлять проход по сайту, а просто «скормим» парсеру страницы с данными. Обратите внимание, что глубину при этом следует установить в 0.

Перед сбором данных обратите внимание на настройки навигации. Здесь мы настраиваем всего лишь один формат (ведь в рамках парсинга Вконтакте у нас есть только страницы с данными, поскольку прохода по сайту мы не осуществляем). Галочка группировать поля используется по той причине, что на странице с данными, мы хотим спарсить большой набор однотипных групп данных, которые имеют фиксированный порядок: Имя автора, Сообщение, Дата.

На вкладке Сбора данных во-первых обратите внимание на значения приоритетов полей.

При включенном режиме группировки полей (он включается в настройках Навигации) приоритеты задают порядок сбора полей с данными: чем выше приоритет поля — тем ближе к началу отдельной группы данных оно должно находиться. Как вы видите на скриншоте, первым парсер ищет поле Имя автора (author), вторым поле Сообщение (message), а третим поле Дата (date).
Что касается настройки вырезания полей, то ее проще производить при помощи встроенного браузера.

Только обратите внимание, что при включенном режиме группировки полей, визуальная настройка не работает, и вырезание нужно настраивать с помощью регулярных выражений.

Если вы сопоставите вышеприведенный рисунок с настроенными правилами вырезания, вам будет довольно легко понять принцип составления регулярных выражений для вырезания каждого из полей. Уточню только, что те строки, которые перечеркнуты являются переменными, а незачеркнутые фрагменты (обведенные в красные рамки) являются постоянными элементами, к которым «привязывается» парсер для получения значений полей.
Кроме правил вырезания, на вкладке Сбор данных стоит обратить внимание на настройки замен. С помощью них мы вырезаем различных html мусор вроде (
), а также символ ; (точка с запятой), который нам может в дальнейшем помешать при сохранении данных в CSV.

На вкладке Дополнительно указываем парсеру Удалять теги из сохраненных данных.

Теперь осталось настроить Экспорт сохраненных данных.

Это легко сделать с помощью кнопки Заполнить стандартный шаблон. После ее нажатия нужно будет только подкорректировать названия полей CSV (вместо author, message и date написать соответственно Автор, Сообщение и Дата), вписать название файла для сохранения (я например выбрал vkontakte_forums) и установить кодировку для сохранения Win1251 (хотя это дело вкуса).









