Результат поиска
скачать демо версию
Загрузка...

Мы рады представить новые решения для парсинга на базе Datacol:

Продолжаем разбирать тему регулярных выражений. Для начала рекомендуем ознакомиться с предыдущей статьей.

1. Соберем ссылку на Youtube видео. Обычно участок с видео в коде выглядит так:

<iframe src="https://www.youtube.com/embed/ХХХХХХХХХХХ" width="560" height="315" frameborder="0" allowfullscreen="allowfullscreen"></iframe>

ХХХХХХХХХХХ — это код видео. Для того, чтобы его собрать, используем регулярку:

<iframe[^<>]*?src=['"]([^<>]*?)['"]

В итоге мы получаем ссылку на наше видео: https://www.youtube.com/embed/ХХХХХХХХХХХ

Если на странице присутствует несколько тегов iframe, то используйте следующее выражение:

<iframe[^<>]*?src=['"]([^<>]*?youtu[^<>]*?)['"]

2. Универсальный метод получения изображения. На многих сайтах применяют метатег og:image для изображения, которое будет отображаться в соцсети при добавлении ссылки на страницу. Этот метатег выглядит следующим образом:

<meta property="og:image" content="http://site.ru/image.jpg"/>

Чтобы собрать изображение используем выражение:

<meta[^<>]*?og:image['"][^<>]*?content=['"]([^<>]*?)['"]

В итоге мы получим: http://site.ru/image.jpg

3. Соберем ссылку на товар для последующей загрузки в интернет-магазин. Часто необходимо собрать часть ссылки на товар без домена и названий категорий. Например, полная ссылка: «http://site.ru/shop/category/tovar-001«, а нам необходимо получить только «tovar-001«. В этом случае устанавливаем в Datacol «Тип поля» — «Спец. поле«. Потом установим во вкладке «Спец значения» — «URL«.

URL

Добавим замену:

.*?/ - > пусто

Добавим замену

Если в конце ссылки присутствует слеш «/» — делаем две замены:

/$ -> пусто
.*?/ - > пусто

Добавим 2 замены

4. Уберем ненужные стили и классы в тегах, которые появляются при сохранении описания. Используйте следующие замены для их удаления:

<([a-z\d]{1,6})\ [^<>]*?> -> <$1>

Этот метод является универсальным, но он может удалить нужные теги. Если нужно удалить какой-то конкретный тег, тогда используйте такую замену:

<div[^<>]*?> -> <div>

Материал для статьи предоставлен сайтом bestweb4u.net, на котором можно найти много интересных материалов по тонкостям настройки Datacol.

Для большинства пользователей программы Datacol регулярные выражения являются сложной и пугающей темой. Но стоит научиться ими пользоваться и настройка программы станет отнимать все меньше времени.

Перед тем как приступать к практике, мы рекомендуем изучить следующие разделы онлайн справки Datacol: Теория и Часто используемые регулярные выражения.

А теперь можно переходить к полезной информации и советам по побору регулярок.

У регулярок есть метасимволы. Вот их перечень:

. ^ $ * + ? { } [ ] \ | ( )

Если в нашем regex присутствуют какие-то из метасимволов, его необходимо «экранировать», то есть поставить перед ним «\». К примеру, для (страница), regex будет: \(страница\)

В регулярных выражениях существуют специальные наборы символов:

Чтобы задать информацию о том, сколько раз должен повторится символ, в фигурных скобках необходимо указать количество {1}. Вы также можете указать диапазон {1,10} или {5,} — от 5-и до бесконечности.

Если вы возьмете выражение в скобки, то к нему можно будет обратиться по порядковому номеру.

Например, у Вас есть строка со следующей датой 27.03.2017. Создадим регулярное выражение:

([\d]{2})\.([\d]{2}).([\d]{4})

Давайте его разберем:
[\d]{2} — нам надо найти две цифры
[\d]{4} — нам надо найти четыре цифры

Каждое выражение мы заключили в скобки, в итоге у нас вышло три группы. Указав номер группы в настройках, вы сможете получить именно то значение, которое вас интересует.

Группа в регулярных выражениях

Вы можете использовать группы в заменах. Например, нам необходимо дату 27.03.2017 перевести в следующий формат: месяц-день-год. Наше выражение:

([\d]{2})\.([\d]{2}).([\d]{4})

В заменах группу обозначаем символом «$». Создаем замену со сменой нашего выражения на $2-$1-$3. В итоге получаем:

Группа в заменах Datacol

Регулярное выражение, которое найдет e-mail адрес:

[a-z0-9_\.-]+@[a-z0-9_-]+\.[a-zA-Z]{2,6}

Регулярное выражение, которое найдет заголовок документа (title):

<title>([^<>]*?)</title>

При поиске информации в тегах или между ними рекомендуем писать выражение [^<>]*? вместо .*? . Это поможет ускорить поиск и вы найдете именно тот участок, который вам нужен.

Регулярное выражение, которое найдет метатег description:

<meta name="description" content="([^<>]*?)">

Регулярное выражение, которое найдет метатег keywords:

<meta name=['"]keywords['"] content=['"]([^<>]*?)['"]>

Продолжаем разбирать тему регулярных выражений во 2-й части статьи.

Материал для статьи был предоставлен сайтом bestweb4u.net, на котором можно найти много познавательных материалов по тонкостям настройки Datacol.

Мы рады представить новые решения для парсинга на базе Datacol:

Недавний указ Президента Украины, наделавший столько шума в интернет сообществе Рунета изрядно усложнил работу многим жителям Украины.

Многие пользователи нашей программы находятся в Украине и чтобы немного облегчить им жизнь, мы запускаем продажу лицензий на программу Datacol в гривне. Теперь оплатить лицензию можно в терминалах, банках, через Приват24 или любым удобным способом.

Для просмотра цен в гривне на странице тарифов укажите валюту — грн. Выбирайте нужный тариф и переходите на страницу оформления заказа. Также можно выбрать нужную валюту уже на странице оформления заказа.

Теперь Datacol можно купить за гривны

После нажатия на кнопку оплаты вы перейдете на страницу платежной системы, где сможете оплатить лицензию в украинской гривне.

Желаем легкой работы, команда Datacol!

Наверное, вы слышали новости, что на территории Украины доступ ко многим сервисам может быть ограничен (почта mail.ru и yandex.ru, Одноклассники и ВКонтакте). На работу программы это не повлияло, но у украинских пользователей могут возникать проблемы со сбором информации из Вконтакте и Яндекса.

Вы можете использовать Proxy или VPN для нормальной работы программы в связи с блокировками основных ресурсов. Подробнее об использовании прокси в Datacol можно прочитать здесь. VPN позволяет получить максимальную анонимность при использовании интернета посредством смены IP-адреса. VPN поможет обойти региональные ограничения, как если бы вы физически находились в необходимой стране. Мы уже протестировали работу одного из подобных приложений. Просто установите программу HideMy.name, нажмите кнопку «Подключиться» и пользуйтесь программой Datacol в обычном режиме.

Мы рады представить новые решения для парсинга на базе Datacol:

Мы 2 раза в месяц публикуем список парсеров в разработке. Многие из них уже реализованы и добавлены в базовые настройки программы.

Ознакомьтесь с новыми решениями в разработке:

Парсер rosrabota.ru
Данная настройка собирает вакансии с сайта rosrabota.ru.

Парсер meblider.ru
Подайте на вход список нужных категорий, а Datacol соберет информацию о товарах с интернет-магазина meblider.ru.

Парсер iherb.com
Настройка получает информацию о товарах с сайта iherb.com.

Какие решения из списка мы добавим в программу зависит только от вас. Подробности читайте на странице интересующей настройки.

Задачи наших клиентов редко ограничиваются простым парсингом сайтов. Чаще всего нужно комплексное решение, которое позволит автоматизировать работу с собственным сайтом по максимуму. Мы постоянно работаем над совершенствованием наших продуктов, стремимся сделать их более удобными и полезными.

Представляем нашу текущую разработку — программный комплекс по автоматизации работы интернет магазина. Если вы следите за нашими новостями, то наверняка уже видели видео с демонстрацией автонаполнения магазинов на Opencart и Webasyst, также мы активно работаем по автоматизации магазинов на 1С Bitrix.

Настройка программного комплекса под конкретный магазин дело не простое и не дешёвое. Но наша разработка способна заменить контент-менеджера и значительно сократить ресурсы по сопровождению магазина.

С помощью программного комплекса на базе Datacol вы сможете автоматически:

Пример того, как работает программный комплекс, можно увидеть на видео:

Получить более подробную информацию и заказать автоматизацию своего магазина можно на этой странице.

Основы работы со сбором данных в Datacol лежат в подборе Xpath. Именно при помощи Xpath мы чаще всего собираем ссылки на товары, пагинацию, категории и нужные данные со страниц. Для проблемных сайтов можно использовать регулярные выражения, но в большинстве случаев можно обойтись только подбором Xpath. В этой статье мы расскажем Вам о тонкостях работы с Xpath.

ПРИМЕР 1. Нужно спарсить текст, тег которого содержит несколько классов или класс/id непостоянный.

<h1 class"product_123">Текст</h1>

Цифры в классе «product_123» будут меняться на каждой странице с товаром. В этом случае нам поможет оператор contains:

//h1[contains(@class, 'product_')]

Данный оператор будет искать вхождение, а не точное соответствие. В кавычках пишем только постоянную часть, в данном случае ‘product_’.

После знака @ не обязательно будет стоять id или class, можно использовать любой атрибут, который есть в теге.

ПРИМЕР 2. Нужно собрать информацию с тега, который НЕ содержит атрибут.

<table class="table">
<tr>
<td class="title">data1</td.
<td>data2</td>
</tr>
</table>

Нужно собрать data2 с тегов td, которые не содержат class. Справиться с этой задачей нам поможет оператор not:

//table//td[not(@class)]

он выберет все td, у которых нет атрибута class

или

//table//td[not(@class, "title")]

Данный Xpath используется если есть необходимость привязаться к конкретному классу.

ПРИМЕР 3. Чтобы получить определенный элемент из списка, нужно к xpath добавить номер элемента.

<ul>
<li>значение 1</li>
<li>значение 2</li>
<li>значение 3</li>
</ul>

Если нужно собрать второй li, Xpath будет следующим:

//ul/li[2]

Если нужен последний элемент, то Xpath будет таким:

//ul/li[last()]

ПРИМЕР 4. На сайтах очень часто можно встретить Javascript пагинацию. В данном случае Datacol позволяет собирать данные с помощью сценария. Но не всегда есть ссылка на следующую страницу. Часто присутствует только список страниц: “1 2 3 4 5 6 7 8 9 10 …”. Как в таком случае нажать на следующую?

Пример такого сайта: fedresurs.ru

Суть решения состоит в определении текущего элемента и выборе следующего. Для этого применяем конструкцию:

//li[@class="active"]/following-sibling::li[1]/a

Мы берем текущий активный элемент, в нашем случае у него class=active. Далее идет оператор following-sibling. Данный оператор выбирает теги, которые идут за текущим. li[1]/a указывает на то, что это должен быть следующий (первый) тег li с вложенным тегом a.

ПРИМЕР 5. Нужно получить тег, у которого есть определенный атрибут, к примеру атрибут target:

<div>
<div class="name">Тип1</div>
<span><a target="_blank" href="/link1.html">Значение1</a></span>
<span><a href="/link2.html">Значение2</a></span>
</div>

В данном случае нужно использовать следующий xpath:

//a/@target

Вы соберете ссылку на Значение1.

ПРИМЕР 6. Иногда попадаются сайты, у которых одни и те же данные представлены в разном виде. Например, у одного товара обычная цена, у другого акционная, которая в коде страницы прописана по другому. В данном случае в настройках поля просто укажите несколько xpath выражений, каждое с новой строки. Если Datacol не найдет первое, то перейдет ко второму, а затем перейдет к regex.

Материал для статьи был предоставлен сайтом bestweb4u.net, на котором можно найти много познавательных материалов по тонкостям настройки Datacol.

Универсальность
99% задач можно решить с помощью Datacol
Простота настройки
Настроить Datacol может любой пользователь
Различные задачи
Удобная расширяемость с помощью плагинов
Отличная поддержка
Отзывчивый саппорт и пошаговые видеоинструкции
Хорошая репутация
Datacol успешно продается с 2007 года

Парсер - это программа для автоматического сбора информации c веб-сайтов. Хотите собрать информацию о товарах интернет-магазина, контакты организаций, объявления по недвижимости, данные из соц. сети? Настройте новую кампанию с помощью мастера, нажмите кнопку Запуск и получите нужный результат.

Автоматизируйте рутинные задачи с помощью парсера Datacol!

Отзывы
forum.searchengines.ru
Приобрел Datacol – впечатления положительные. Программа убивает сразу несколько зайцев... Читать на форуме
maultalk.com (модератор)
Работоспособность программы и ее быстро действие удалось протестировать мне, скажу что программе место быть. Тестировал программу на добычу контента... Читать на форуме
bestauction.ru (администратор)
Буквально вчера приобрел этот софт, первое впечатление очень позитивное. Не требуется ни каких знаний программирования... Читать на форуме
armadaboard.com
+1 к предыдущему отзыву - софт классный и радуют постоянные добавления... Читать на форуме
gofuckbiz.com
Отличный софт, парсит все и вся. Я даже без знания регулярок, свободно парсеры создаю... Читать на форуме
Читать другие отзывы
ТОП 10 ПЛАГИНОВ
Плагин для перевода контента через Promt
Плагин для перевода контента через Google Translate
Плагин экспорта собранных данных в CMS Joomla с помощью браузера Chrome с поддержкой Javascrip
Плагин экспорта собранных данных в CMS DLE с помощью браузера Chrome с поддержкой Javascript
Плагин транслитерации значения поля
Плагин для загрузки изображений с изменением размеров
Плагин для отсеивания значений из черного списка
Плагин для определения тематики сайта
Все плагины

ООО "Интернет-Автоматизация"

71700, Украина, Запорожская область,
г.Токмак, ул.Гоголя, 103/2

Datacol VKontakte Datacol Twitter Datacol Google Plus Datacol Facebook Datacol Telegram
карта сайта
X
У вас есть вопрос?

Менеджер проектов свяжется с вами в течении 1 рабочего дня.