Урок №2. Парсинг объявлений
В этом видео я покажу пример настройки кампании Datacol, которая поможет вам быстро собрать объявления с интернет сайта.
Мы пошагово разобрали процесс настройки сбора объявлений по недвижимости. Соберите все нужные данные в XLS и работайте в привычной среде, не блуждая по доске объявлений.
Напомним, что в Datacol Вы так-же найдете уже готовые парсера:
Текст видео (если Вам проще воспринимать информацию после прочтения) »
На видео будет продемонстрирована настройка кампании Datacol, благодаря которой вы быстро соберете объявления с онлайн доски. Запускаем мастер создания новой кампании.
Вводим название кампании.
Задаем входные данные.
В данном случае это ссылки на рубрики, из которых нам нужно собрать объявления. Datacol начинает обход сайта в поиске нужных данных именно с этих ссылок .
На следующем шаге мы показываем Datacol , как добраться от исходной рубрики до страниц с объявлениями. Программа как и обычный пользователь ищет необходимые данные , переходя по ссылкам на сайте. Соответственно , нам нужно проложить для Datacol маршрут , который приведет от исходной рубрики до каждого конкретного объявления.
Для этого мы будем использовать Xpath выражения. Xpath выражения — это адреса различных частей вебдокумента. Благодаря им Datacol находит нужные ссылки и данные. Для быстрого подбора Xpath выражений мы запускаем Datacol Picker.
Теперь нам нужно определиться по каким ссылкам Datacol должен будет проследовать , чтобы добраться до страниц объявлений. Естественно, в первую очередь, это ссылки на сами объявления.
Чтобы подобрать Xpath для сбора всех этих ссылок, просто кликаем по одной из них левой кнопкой мышки. Моментально в блоке Подбор Xpath появляется подобранное Xpath выражение. Оно автоматически сохраняется в список Варианты Xpath. Именно этот список будет использоваться при работе программы. Справа , в блоке ссылки , можно увидеть набор ссылок, которые соберет Datacol используя текущий Xpath.
Хорошо, теперь Datacol знает как найти ссылки на объявления. Но так мы соберем объявления только с первой страницы рубрики. Поэтому нам нужно показать Datacol как переходить на другие страницы выдачи объявлений рубрики.
Отметим, что ссылки на другие страницы рубрики (даже визуально) расположены совершенно иным образом, чем ссылки на объявления. Поэтому для них мы подбираем отдельное Xpath выражение. Для этого добавим новый вариант Xpath.
Теперь кликаем на одну из ссылок и Datacol Picker опять же автоматически подбирает нужный Xpath.
В некоторых случаях может понадобится следовать по страницам рубрики последовательно. Для этого можно вместо Xpath для получения всех доступных ссылок на другие страницы, подобрать Xpath ссылки на следующую страницу.
Вот так просто, всего в несколько кликов мыши, мы настроили проход Datacol по сайту. Осталось нажать кнопку Сохранить, чтобы подобранные Xpath выражения сохранились в конфигурации нашей новой кампании.
Теперь, когда Datacol знает как добраться до нужных данных, ему необходимо пояснить что именно требуется собирать. Для начала задаем перечень полей данных, которые мы хотим сохранять.
Для поиска полей данных мы также задаем Xpath выражения. Для этого снова запускаем Picker.
Перед началом настройки сбора данных мы переходим на одну из страниц с полным объявлением, то есть туда, где находятся интересующие нас данные.
Обратите внимание, когда Picker открыт в режиме подбора Xpath для поля данных, в нем присутствует блок Поле данных. В этом блоке отображается название поля, которое сейчас настраивается.
Итак, нам нужно подобрать Xpath выражение для сбора заголовка объявления. Для этого кликаем на заголовке левой кнопкой мышки. В блоке Подбор Xpath сразу же появляется подобранное Xpath выражение, которое автоматически сохраняется в список варианты Xpath. При нажатии кнопки Сохранить или при переходе к настройке следующего поля данных этот список будет автоматически сохранен в конфигурации текущей кампании Datacol. Заметим, что заголовок объявления автоматически выделяется красной рамкой. Правильноcть подбора Xpath подтверждает исходный Html код найденного блока. Он отображается в поле “Найденные соответствия”.
По аналогии с заголовком объявления можно подобрать Xpath выражения для сохранения остальных полей данных.
Методологию получения номеров телефонов, которые частично или полностью скрыты ссылкой “Показать телефон” мы рассмотрим в дальнейших видео.
Поле этаж является характеристикой, то есть отображается как один из параметров объекта недвижимости. Для него Xpath стоит подбирать с помощью альтернативного способа. Дело в том, что у разных объявлений, набор параметров может различаться. Таким образом, ЭТАЖ может оказаться не первым в списке. И подобранный по умолчанию Xpath укажет Datacol на другой параметр. Чтобы перестраховаться, мы задействуем метод привязки к соседним элементам. В данном случае мы знаем, что слева от значения параметра этаж расположена соответствующая надпись с названием этого параметра. К ней мы и привяжемся.
Для поля фото лучше использовать специальную опцию контекстного меню.
В ряде случаев сохранение изображений имеет свою специфику.
Когда мы дошли до последнего поля данных, остается нажать кнопку Сохранить.
Если мы хотим, чтобы фото сохранялось на локальный компьютер, нам нужно задать это в настройках соответствующего поля данных.
Таким образом мы завершили настройку сбора данных. Теперь закрываем мастер и переходим к тестированию.
Нажимаем кнопку “Запуск”.
Через некоторое время мы видим как начинают появляться результаты.
После завершении работы кампании все выгруженные данные будут сохранены в Excel файл. По умолчанию он генерируется в папке Мои документы.
Название файла соответствует названию новой кампании.
Что касается фото, то они по умолчанию сохраняются в папке Изображения на нашем компьютере.
Заметим, что формат сохранения собранной информации можно переопределить. Об этом мы расскажем в последующих видео.