Категория: Общие понятия

Использование прокси при блокировках

Если парсишь OLX, Авито или любые другие доски объявлений, то знаешь главную опасность — бан после сотни запросов. Сперва процесс шел как по маслу, а потом — ошибка 403, таймауты, обрыв соединения.  Причина? Прокси. Он может быть медленным, «паленым», из… Читать далее »

Как собирать больше данных

Очень часто мы сталкиваемся с вопросом: “Почему парсер собрал только 500 результатов, хотя сайт показывает количество 100500?”. Давайте разберемся почему парсер собирает мало данных и что с этим можно сделать. Для начала небольшой экскурс в историю, как именно работает парсер…. Читать далее »

Полезные фишки Datacol: решение ошибки «Ваш браузер устарел» и загрузка файлов с сайта

Этим постом мы начинаем серию постов “Полезные фишки Datacol, о которых мало кто знает”, в которых расскажем о полезных настройках программы, лайфхаках по ее настройке и работе, которые наверняка Вам пригодятся при самостоятельной настройке парсеров. Как избежать ошибки “Ваш браузер… Читать далее »

Регулярные выражения (regex), которые будут вам полезны. 2-я часть

Продолжаем разбирать тему регулярных выражений. Для начала рекомендуем ознакомиться с предыдущей статьей. 1. Соберем ссылку на Youtube видео. Обычно участок с видео в коде выглядит так: <iframe src="https://www.youtube.com/embed/ХХХХХХХХХХХ" width="560" height="315" frameborder="0" allowfullscreen="allowfullscreen"></iframe> ХХХХХХХХХХХ — это код видео. Для того, чтобы… Читать далее »

Регулярные выражения (regex), которые будут вам полезны. 1-я часть

Для большинства пользователей программы Datacol регулярные выражения являются сложной и пугающей темой. Но стоит научиться ими пользоваться и настройка программы станет отнимать все меньше времени. Перед тем как приступать к практике, мы рекомендуем изучить следующие разделы онлайн справки Datacol: Теория… Читать далее »

Подбор Xpath в программе Datacol

Основы работы со сбором данных в Datacol лежат в подборе Xpath. Именно при помощи Xpath мы чаще всего собираем ссылки на товары, пагинацию, категории и нужные данные со страниц. Для проблемных сайтов можно использовать регулярные выражения, но в большинстве случаев… Читать далее »

Парсер новостей Wordpress

Автонаполнение сайта контентом с помощью парсера Если вы запустили информационный сайт или блог, то по прошествии некоторого времени становится понятно, что для успешной работы ресурса регулярно требуется новый контент. Но писать статьи самому не всегда позволяет время. Где же брать… Читать далее »

Парсер новостей для Joomla

Парсинг новостей для экономии вашего времени Автоматический сбор новостей — это довольно востребованная задача. Почему? Ответ очевиден, ведь сайт становится интересен пользователю только когда на нем достаточное количество актуального контента. Однако вручную регулярно наполнять сайт новостями — довольно трудоемкая задача,… Читать далее »

Парсер

Для чего нужен парсер? При создании сайта вы обязательно задаете себе вопрос: “Где постоянно брать контент?”. Наиболее простой вариант — это найти контент в Интернете. Однако при этом могут возникнуть такие сложности: Огромные объемы данных. Тенденции нашего времени ведут нас… Читать далее »

Купить базу данных кампаний или собрать с помощью парсера?

Купить базу данных кампаний или собрать с помощью парсера? Сайт Яндекс Карты – это огромный справочник, который содержит карты городов Украины, России и других стран. Яндекс Карты отличаются от остальных сайтов наличием актуальной информации о предприятиях. Именно поэтому сбор контактов… Читать далее »