Парсер выдачи Google

Получение списка URL из выдачи Google по определенном запросу является очень актуальной задачей. Сейчас я покажу ее реализацию с помощью Datacol.

Задача »

Наша задача получить ссылки из выдачи Google по запросу «wordpress парсер» .

Выдача Google по запросу парсер.

Результаты нужно сохранить в CSV файл.

Парсер выдачи: CSV с результатами

Демонстрация »

Работу данного профиля настроек вы можете потестировать сразу после установки Datacol. Демонстрационный профиль настроек называется GoogleSerpParser.

Парсер выдачи Google

Поскольку демо версия Datacol не умеет сохранять результаты в файл, для просмотра результатов после запуска парсера необходимо перейти на вкладку Результаты.

Парсер выдачи Google: Демонстрация работы

Реализация »

Итак, приступаем к созданию парсера.
Вкладка Общие настройки:
Название парсера GoogleSerpParser;
Количество потоков: 10;
Результатов за сессию: 300 (или сколько вам нужно).

Парсер выдачи: Общие настройки

Вкладка Начальные URL:
Поскольку нам нужны URL из выдачи по запросу «wordpress парсер» , вводим соответствующий Google URL:
http://www.google.ru/search?start=1&q=%d0%bf%d0%b0%d1%80%d1%81%d0%b5%d1%80.
Значение глубины 100 (поскольку нам нужно чтобы парсер при наличии большого количества страниц выдачи все их спарсил).

Парсер выдачи: Общие настройки

Вкладка Сбор данных. Здесь создаем 2 поля. Первое непосредственно для сбора URL, второе для сохранения запроса, для которого происходит парсинг выдачи (на базе него будет формироваться имя файла, в который будут сохраняться результаты).

Парсер выдачи Google: сбор данных

Подробно ознакомиться с настройками для каждого поля можно зайдя в настройки парсера (для этого нужно дважды кликнуть на нем в главном окне программы). Сейчас я хочу только обратить внимание на то, что поле query сделано статическим, чтобы при включенном режиме группировки оно всегда бралось с одной позиции на странице и присутствовало в каждой группе данных (ведь на базе значения этого поля Datacol будет определять название файла, в который будет сохранена группа).

Вкладка Навигация.
С настройками формата URL можно ознакомиться зайдя в настройки парсера. Уточню только, что список глобальных замен дает возможность избежать собирания ссылок на страницы с одним и тем же участком выдачи (у Google сами URLы этих страниц просто отличаются значениями несущественных для нас параметров). Максимальный допустимый уровень вложенности страницы с URL данного формата делаем аналогичным допустимой глубине (поскольку нам нужно чтобы парсер при наличии большого количества страниц выдачи все их спарсил). Группировка полей включена для того, чтобы в каждой группе сохранялось значение статического поля.

Парсер выдачи Google: Навигация

Вкладка Экспорт. С настройками произвольного формата экспорта можно ознакомиться зайдя в настройки парсера. Обращу внимание на то, что название файла мы формируем на базе нашего статического поля query и строки GoogleSerpFor, а в сам файл записываем только значения поля url. В качестве папки для сохранения вводим %MYDOCS%. Благодаря этому шаблону результаты будут сохраняться в папке Мои документы в независимости от того, на каком компьютере запущен парсер.

Парсер выдачи Google: Экспорт

Файл профиля настроек для парсера выдачи Google можно просмотреть здесь. Его также можно сохранить себе на компьютер и скопировать в папку с профилями настроек Datacol (ее можно открыть нажав Ctrl+E в главном окне программы). Это на случай, если вы удалили демонстрационный профиль, который создается при установке программы.