Урок №21. Диагностика неполадок загрузки изображений
На данном видео мы покажем как действовать в случаях, когда не получается спарсить изображение, которое нужно загрузить на локальный компьютер. Для лучшего понимания вопроса, рекомендуем предварительно посмотреть видео о диагностике неполадок настройке, а также видео об использовании регулярных выражений.
Настроили все поля данных в кампании, но поле с фото не загружается? Посмотрев данное видео вы сможете быстро найти и исправить ошибку в настройке. Мы расскажем о нескольких методах диагностики неполадок, которые наверняка помогут вам с загрузкой изображений.
Напомним, что в Datacol Вы так-же найдете уже готовые парсера:
Для сбора контента: |
Для работы с соц. сетями: |
Для SEO: |
Текст видео (если Вам проще воспринимать информацию после прочтения) »
Рассмотрим пример. Мы запустили настройку на выполнение, однако видим, что колонка с Фото пустая. На видео о диагностике неполадок мы предлагали проверить включено ли сохранение тегов. Допустим, мы проверили, что сохранение тегов включено, однако фото все равное не парсится. В данной ситуации стоит перейтий к более детальному тестированию.
Обратите внимание, что если настройка создавалась давно, то тестовый URL может стать неактуальным в контексте текущей версии сайта. Тогда перед тестированием нужно вставить актуальный урл. Причем, на это вебстранице должны обязательно присутствовать данные, сбор которых мы тестируем. В любом случае, лучше предварительно проверить актуальность вебстраницы и наличие на ней данных в обычном браузере. Итак, страница актуальна, данные, в том числе фото, присутствуют. Запускаем тестирование.
В первую очередь, нужно проверить логи. Обратите внимание, если поле Фото не является обязательным полем, то в логах не будет отображена информация о том, что его значение не найдено. Зачем же тогда смотреть логи? Смотреть логи нужно для того, чтобы понять не произошла ли ошибка при загрузке изображений на локальный компьютер. Механизм диагностики ошибок загрузки изображений мы рассмотрим на дальнейших видео. На деле, могут быть и другие варианты лог сообщений, которые помогают понять, почему не загрузилось фото. Однако, они встречаются очень редко.
В данном случае в логах нет ни ошибки, ни каких либо сообщений, по которым можно понять, что фото было найдено, но не было загружено. Значит мы делаем вывод, что значение поля не найдено. Таким образом, нам нужно подкорректировать xpath или регулярные выражения, которые отвечают за сбор изображения.
Xpath в большинстве случаев можно подкорректировать с помощью пикера. Однако, сейчас мы рассмотрим более универсальный вариант, в частности, подберем регулярное выражение, с помощью которого Datacol будет находить фото на странице. Здесь есть четкий пошаговый алгоритм, который в 99% случаев будет актуальным.
Первый шаг — откроем страницу в пикере и скопируем ссылку на изображение в буфер обмена.
Второй шаг — откроем загруженный код страницы в Selector. Напомним, что основное преимущество селектора в контексте диагностики ошибок, заключается в том, что после тестирования в нем можно загрузить исходный код страницы именно в том виде, в котором он загружен Datacol.
Третий шаг, находим ссылку в исходном коде.
Четвертый шаг — подбираем регулярное выражение для сохранения участка, содержащего ссылку на изображение.
Пятый шаг — Переносим подобранное регулярное выражение в настройку Datacol. Повторим тестирование. Все хорошо — изображение найдено. Теперь проверим загрузилось ли оно. Загрузилось. Запускаем для теста всю компанию. Видим что теперь фото находится. Если же видим местами пустые ячейки, не стоит сразу грешить на настройку. Для начала проверим есть ли вообще изображение на этих страницах. Изображения нет, что и требовалось доказать. Если изображение на странице есть, а Datacol его не спарсил, значить верстка страницы отличается от других. Для такого типа страниц нужно подобрать еще один xpath или регулярное выражение. Чтобы это сделать повторяем вышеописанный алгоритм.