Парсер email
Парсинг email обычно воспринимается, как что-то связанное со спамом. Тем не менее, парсер email можно эффективно использовать во многих контекстах и извлекать из полученных списков email пользу намного большую, чем извлекает спамер. Простой пример: сбор email-ов вебмастеров с нишевых сайтов для обмена ссылками. Если вы сеошник, то должны понимать как важен и экономически эффективен обмен ссылками.
Datacol позволяет реализовать довольно умный парсер email. Ниже вы увидите суть его реализации.
Реализовать с помощью Datacol парсер email, который ищет email адреса по списку сайтов. При этом на каждом сайте должны просматриваться только первых 30 страниц и если email на них не найден, то парсер должен переходить к поиску на других сайтах. Парсер должен сохранять emailы в CSV файл. Возле каждого email должен быть сохранен адрес страницы, на которой он найден.

Работу данного профиля настроек вы можете потестировать сразу после установки Datacol. Демонстрационный профиль настроек называется EmailParser. Поскольку демо версия Datacol не умеет сохранять результаты в файл, для просмотра результатов после запуска парсера необходимо перейти на вкладку Результаты.

На вкладке Общих настроек стоит указать, что с каждого сайта мы будем обрабатывать максимум 5 страниц (ведь главная цель — найти email админа или вебмастера сайта, а если его нет на первых 20-30 страницах, то в большинстве случаев его нет на сайте вообще).

В начальных URL указываем сайты, на которых нужно искать email. Здесь же ограничиваем Глубину парсинга значением 1.

Для сбора данных создаем 2 поля. Одно — для сбора email (заметьте, что это поле задано только начальной границей, значит она полностью определяет выражение, которому должно соответствовать значение поля).

Второе поле необходимо для сохранения URL страницы, на которой найден email (из личного опыта работы с email грабберами, скажу что это очень удобно).

В настройках формата URL нужно указать парсеру собирать только внутренние ссылки (нам же не нужно, чтобы парсер кроме указанного набора сайтов, начал парсить еще какие-нибудь).

Также стоит ввести правила соответствия URL формата, чтобы Datacol не тратил время на парсинг бесполезных страниц.

На вкладке Экспорт создаем произвольный формат экспорта. Обратите внимание, что значения, сохраняемые в CSV, для точного получения правильной структуры необходимо взять в кавычки.

Файл профиля настроек для парсера email можно просмотреть здесь. Его также можно сохранить себе на компьютер и скопировать в папку с профилями настроек Datacol (ее можно открыть нажав Ctrl+E в главном окне программы). Это на случай, если вы удалили демонстрационный профиль, который создается при установке программы.









