Парсер email

Парсинг email обычно воспринимается, как что-то связанное со спамом. Тем не менее, парсер email можно эффективно использовать во многих контекстах и извлекать из полученных списков email пользу намного большую, чем извлекает спамер. Простой пример: сбор email-ов вебмастеров с нишевых сайтов для обмена ссылками. Если вы сеошник, то должны понимать как важен и экономически эффективен обмен ссылками.

Datacol позволяет реализовать довольно умный парсер email. Ниже вы увидите суть его реализации.

Задача »

Реализовать с помощью Datacol парсер email, который ищет email адреса по списку сайтов. При этом на каждом сайте должны просматриваться только первых 30 страниц и если email на них не найден, то парсер должен переходить к поиску на других сайтах. Парсер должен сохранять emailы в CSV файл. Возле каждого email должен быть сохранен адрес страницы, на которой он найден.

Парсер email: Результаты работы

Демонстрация »

Работу данного профиля настроек вы можете потестировать сразу после установки Datacol. Демонстрационный профиль настроек называется EmailParser. Поскольку демо версия Datacol не умеет сохранять результаты в файл, для просмотра результатов после запуска парсера необходимо перейти на вкладку Результаты.

Реализация »

На вкладке Общих настроек стоит указать, что с каждого сайта мы будем обрабатывать максимум 5 страниц (ведь главная цель — найти email админа или вебмастера сайта, а если его нет на первых 20-30 страницах, то в большинстве случаев его нет на сайте вообще).

Парсер email: Общие настройки

В начальных URL указываем сайты, на которых нужно искать email. Здесь же ограничиваем Глубину парсинга значением 1.

Парсер email: Начальные URL

Для сбора данных создаем 2 поля. Одно — для сбора email (заметьте, что это поле задано только начальной границей, значит она полностью определяет выражение, которому должно соответствовать значение поля).

Парсер email: Сбора данных - поле email

Второе поле необходимо для сохранения URL страницы, на которой найден email (из личного опыта работы с email грабберами, скажу что это очень удобно).

Парсер email: Сбора данных - спец поле URL

В настройках формата URL нужно указать парсеру собирать только внутренние ссылки (нам же не нужно, чтобы парсер кроме указанного набора сайтов, начал парсить еще какие-нибудь).

Парсер email: Навигация

Также стоит ввести правила соответствия URL формата, чтобы Datacol не тратил время на парсинг бесполезных страниц.

Парсер email: Навигация - правила соответствия

На вкладке Экспорт создаем произвольный формат экспорта. Обратите внимание, что значения, сохраняемые в CSV, для точного получения правильной структуры необходимо взять в кавычки.

Парсер email: Экспорт

Файл профиля настроек для парсера email можно просмотреть здесь. Его также можно сохранить себе на компьютер и скопировать в папку с профилями настроек Datacol (ее можно открыть нажав Ctrl+E в главном окне программы). Это на случай, если вы удалили демонстрационный профиль, который создается при установке программы.