Урок №15. Альтернативные входные данные

В этом видео я покажу как работать с входными данными, которые не являются ссылками. Для лучшего понимания вопроса, рекомендую предварительно посмотреть видео о парсинге анонсов и видео о парсинге с авторизацией.

В качестве альтернативных входных данных могут выступать наименования товаров, артикулы, поисковые запросы и тому подобное.

Данная видеоинструкция особенно будет полезна тем, кто хочет собирать информацию о товарах по списку наименований. Преимущество данного метода в том, что задавать и редактировать список слов удобнее, чем список ссылок. Список наименований можно скопировать прямо из прайс-листа.

Напомним, что в Datacol Вы так-же найдете уже готовые парсера:

Текст видео (если Вам проще воспринимать информацию после прочтения) »

Причин их использования несколько:
во-первых, задавать и редактировать список слов удобнее, чем список ссылок;
во-вторых, не всегда просто сформировать конечную ссылку, содержащую запрос;
в-третьих, не все сайты позволяют по прямой ссылке получить окончательный вид выдачи с нужными данными.

Для демонстрации создадим кампанию парсинга ebay, в которую на вход подается список наименований товаров. На выходе нам необходимо получить отчет с ценами этих товаров на ebay.

Выбираем Браузер в качестве загрузчика. Создадим сценарий для того, чтобы ввести наименование товара в строке поиска ebay и в результате получить страницу с описанием первого из найденных по наименованию товаров.Добавим действие для загрузки вебстраницы, на которой необходимо ввест и наименование для поиска. Протестируем действие и одновременно загрузим страницу. Далее создадим действие ввода входного значения в соответствующее поле.

Обратите внимание, что для ввода текущего входного значения используется переменная окружения input. Для вставки переменной окружения ее имя обрамляется знаками процента. Тестируем. Все хорошо!

Далее создаем действие нажатия на кнопку Search (на русскоязычных сайтах она обычно называется поиск или найти). Готово! Тестируем клик по кнопке. Выдача успешно загрузилась. Заметим, что для загрузки понадобилось какое то время, поэтому после клика по кнопке стоит добавить еще событие ожидания. Чтобы выдача наверняка прогрузилась, желательно, чтобы ожидание длилось около трех секунд.

Теперь остается перейти на страницу описания первого товара из полученной выдачи. Для этого создаем действие клика по ссылке на первый товар. По аналогии с вышеописанным, добавляем ожидание, чтобы однозначно дождаться прогрузки страницы с полезной информацией. Протестируем весь сценарий. Все отлично отработало

Есть еще один очень важный нюанс, который нужно всегда учитывать при использовании альтернативных входных данных. Блок сценария, предназначенный для получения вебстраницы из альтернативного входного значения, всегда должен содержать условие выполнения INPUT_IS_NOT_URL. Оно гарантирует, что блок будет выполняться только для входного значения, которое не является ссылкой на вебстраницу. Добавим соответствующее условие. Сценарий готов.

Ссылки нам собирать не нужно, поскольку в данном примере мы с помощью сценария из входного значения сразу получаем страницу с данными. Осталось настроить сбор данных. Закрываем мастер.

Для ускорения работы стоит отключить загрузку изображений в браузере. Готово. Переходим к тестированию. Видим, что сценарий успешно выполняется. Заметим, что наименование, собранное с ebay, содержит лишнюю подстроку Details about. Для корректировки настройки остановим парсинг.

Удалим лишнюю подстроку с помощью замен. Запустим парсинг повторно. Как видим, лишняя подстрока исчезла.

Обратите внимание, в поле URL (которое создается автоматически) сохраняется исходное входное значение. При необходимости само поле можно переименовать.

После завершении работы кампании все выгруженные данные будут сохранены в Excel файл. По умолчанию он генерируется в папке Мои документы.