Результат поиска
скачать демо версию
Загрузка...

Мы 2 раза в месяц публикуем список парсеров в разработке. Многие из них уже реализованы и добавлены в базовые настройки программы.

Ознакомьтесь с новыми решениями в разработке:

Парсер rosrabota.ru
Данная настройка собирает вакансии с сайта rosrabota.ru.

Парсер meblider.ru
Подайте на вход список нужных категорий, а Datacol соберет информацию о товарах с интернет-магазина meblider.ru.

Парсер iherb.com
Настройка получает информацию о товарах с сайта iherb.com.

Какие решения из списка мы добавим в программу зависит только от вас. Подробности читайте на странице интересующей настройки.

Задачи наших клиентов редко ограничиваются простым парсингом сайтов. Чаще всего нужно комплексное решение, которое позволит автоматизировать работу с собственным сайтом по максимуму. Мы постоянно работаем над совершенствованием наших продуктов, стремимся сделать их более удобными и полезными.

Представляем нашу текущую разработку — программный комплекс по автоматизации работы интернет магазина. Если вы следите за нашими новостями, то наверняка уже видели видео с демонстрацией автонаполнения магазинов на Opencart и Webasyst, также мы активно работаем по автоматизации магазинов на 1С Bitrix.

Настройка программного комплекса под конкретный магазин дело не простое и не дешёвое. Но наша разработка способна заменить контент-менеджера и значительно сократить ресурсы по сопровождению магазина.

С помощью программного комплекса на базе Datacol вы сможете автоматически:

Пример того, как работает программный комплекс, можно увидеть на видео:

Получить более подробную информацию и заказать автоматизацию своего магазина можно на этой странице.

Основы работы со сбором данных в Datacol лежат в подборе Xpath. Именно при помощи Xpath мы чаще всего собираем ссылки на товары, пагинацию, категории и нужные данные со страниц. Для проблемных сайтов можно использовать регулярные выражения, но в большинстве случаев можно обойтись только подбором Xpath. В этой статье мы расскажем Вам о тонкостях работы с Xpath.

ПРИМЕР 1. Нужно спарсить текст, тег которого содержит несколько классов или класс/id непостоянный.

<h1 class"product_123">Текст</h1>

Цифры в классе «product_123» будут меняться на каждой странице с товаром. В этом случае нам поможет оператор contains:

//h1[contains(@class, 'product_')]

Данный оператор будет искать вхождение, а не точное соответствие. В кавычках пишем только постоянную часть, в данном случае ‘product_’.

После знака @ не обязательно будет стоять id или class, можно использовать любой атрибут, который есть в теге.

ПРИМЕР 2. Нужно собрать информацию с тега, который НЕ содержит атрибут.

<table class="table">
<tr>
<td class="title">data1</td.
<td>data2</td>
</tr>
</table>

Нужно собрать data2 с тегов td, которые не содержат class. Справиться с этой задачей нам поможет оператор not:

//table//td[not(@class)]

он выберет все td, у которых нет атрибута class

или

//table//td[not(@class, "title")]

Данный Xpath используется если есть необходимость привязаться к конкретному классу.

ПРИМЕР 3. Чтобы получить определенный элемент из списка, нужно к xpath добавить номер элемента.

<ul>
<li>значение 1</li>
<li>значение 2</li>
<li>значение 3</li>
</ul>

Если нужно собрать второй li, Xpath будет следующим:

//ul/li[2]

Если нужен последний элемент, то Xpath будет таким:

//ul/li[last()]

ПРИМЕР 4. На сайтах очень часто можно встретить Javascript пагинацию. В данном случае Datacol позволяет собирать данные с помощью сценария. Но не всегда есть ссылка на следующую страницу. Часто присутствует только список страниц: “1 2 3 4 5 6 7 8 9 10 …”. Как в таком случае нажать на следующую?

Пример такого сайта: fedresurs.ru

Суть решения состоит в определении текущего элемента и выборе следующего. Для этого применяем конструкцию:

//li[@class="active"]/following-sibling::li[1]/a

Мы берем текущий активный элемент, в нашем случае у него class=active. Далее идет оператор following-sibling. Данный оператор выбирает теги, которые идут за текущим. li[1]/a указывает на то, что это должен быть следующий (первый) тег li с вложенным тегом a.

ПРИМЕР 5. Нужно получить тег, у которого есть определенный атрибут, к примеру атрибут target:

<div>
<div class="name">Тип1</div>
<span><a target="_blank" href="/link1.html">Значение1</a></span>
<span><a href="/link2.html">Значение2</a></span>
</div>

В данном случае нужно использовать следующий xpath:

//a/@target

Вы соберете ссылку на Значение1.

ПРИМЕР 6. Иногда попадаются сайты, у которых одни и те же данные представлены в разном виде. Например, у одного товара обычная цена, у другого акционная, которая в коде страницы прописана по другому. В данном случае в настройках поля просто укажите несколько xpath выражений, каждое с новой строки. Если Datacol не найдет первое, то перейдет ко второму, а затем перейдет к regex.

Материал для статьи был предоставлен сайтом bestweb4u.net, на котором можно найти много познавательных материалов по тонкостям настройки Datacol.

Вы уже пробовали нашу новую программу по мониторингу цен конкурентов PriceTraXer?

Если вы ее не использовали только потому, что не нашли настройки для нужного вам магазина, то значит это видео мы сняли специально для вас.

Посмотрите как всего за одну минуту можно добавить настройку сбора цен для нужного сайта:

А если у вас что-то не получилось, пишите через форму обратной связи на официальном сайте программы и мы вам обязательно поможем!

Мы рады представить новые решения для парсинга на базе Datacol:

Мы каждые две недели публикуем список парсеров в разработке. Многие из них уже реализованы и добавлены в базовые настройки программы.

Ознакомьтесь с новым списком решений в разработке:

Парсер Google Maps
Данная настройка собирает информацию по заданным запросам из Google Maps.

Парсер utkonos.ru
Подайте на вход список нужных категорий, а Datacol соберет информацию о товарах с сайта utkonos.ru.

Парсер Petshop.ru
Настройка получает информацию о товарах с сайта petshop.ru.

Какие решения из списка мы добавим в функционал программы зависит только от вас. Подробности читайте на странице интересующей настройки.

Автонаполнение сайта контентом с помощью парсера

Парсер новостей WordPress

Если вы запустили информационный сайт или блог, то по прошествии некоторого времени становится понятно, что для успешной работы ресурса регулярно требуется новый контент. Но писать статьи самому не всегда позволяет время. Где же брать новый контент? В данной ситуации вы можете использовать парсер, который будет автоматически публиковать нужный контент на ваш сайт.

Парсер контента WordPress

Если основная цель вашего сайта — это предоставление информации, то он будет пользоваться интересом у пользователей только когда количество контента на нем будет внушительным. Парсер контента WordPress, настроенный в рамках программы Datacol – отличное решение для данной задачи. Благодаря парсеру вы сможете очень быстро перегнать конкурентов, увеличив количество информации на вашем ресурсе.

Парсер контента будет полезен при выполнении множества задач, перечислим наиболее популярные:

Парсер новостей WordPress

Базовый функционал программы Datacol позволит вам опубликовать собранную информацию в WordPress сайт. Публиковать можно новости, статьи, товары, информацию из соц. сетей и т. п. Выгрузку данных можно настроить почти с любого вебресурса.

Парсер позволяет сделать процесс наполнения довольно быстрым и исключает возможность появления ошибок, причиной которых является человеческий фактор. Настройка прямого экспорта контента на WordPress сайт продемонстрирована на видео.

При необходимости собранные данные можно уникализировать благодаря автопереводу и синонимизации. Данные возможности становятся доступны после подключения дополнительных плагинов.

Парсер новостей WordPress позволит сэкономить время и силы, которые вы бы потратили на ручное наполнение вашего сайта. У вас появится возможность не только автоматизировать сбор контента, но и повысить эффективность вашей работы.

Парсинг новостей для экономии вашего времени

Парсер новостей для Joomla

Автоматический сбор новостей — это довольно востребованная задача. Почему? Ответ очевиден, ведь сайт становится интересен пользователю только когда на нем достаточное количество актуального контента. Однако вручную регулярно наполнять сайт новостями — довольно трудоемкая задача, которая к тому же отнимает немало времени. Но мы живем в век высоких технологий и уже давно разработаны программы, которые могут облегчить выполнение задач связанных со сбором данных. Называются эти программы парсерами. Парсинг новостей – это прекрасное решение для задач подобного плана. С его помощью вы сможете за короткое время стать наравне с конкурентами, существенно расширив количество информации, размещенной на сайте. Собранные с помощью парсера данные можно загрузить на сайт с любым движком: Joomla, WordPress, DLE и др. В данной статье речь пойдет о CMS Joomla.

Парсер контента joomla

CMS Joomla является одной из лучших бесплатных систем управления контентом. Разработчики движка регулярно дорабатывают и обновляют систему, а также создают огромное количество дополнительных функциональных модулей.

На базе CMS Joomla можно создавать самые различные сайты. Например: одностраничные сайты, новостные сайты, интернет-магазины, корпоративные сайты, сайты объявлений и многие другие. Такое разнообразие вариантов достигается за счет большого количества всевозможных модулей, доступных в Joomla. Соответственно парсер контента Joomla может иметь множество модификаций. Причиной являются различные механизмы экспорта данных в CMS Joomla (вернее в ее версии или модули).

Парсер новостей Joomla

На сегодняшний день парсер новостей для Joomla — это решение которое по популярности не уступает парсеру новостей WordPress. Парсер новостей Joomla позволит вам создать и регулярно обновлять новостные порталы, созданные на базе данной CMS. Благодаря регулярному наполнению сайта актуальным контентом, он будет хорошо ранжироваться в поисковых системах. Хотим заметить, что новостной портал можно успешно продвигать даже используя неуникальный контент. Конечно вы можете добавить какой-то процент уникальных статей, чтобы повысить трафик, а соответственно и доход с сайта. Еще один отличный вариант для повышения уникальности контента — использовать плагин уникализации, доступный в Datacol.

В базовый функционал программы Datacol уже встроен парсер новостей, который собирает новости с сайта news.ru. Но вы можете настроить парсинг любого нужного вам новостного ресурса для дальнейшей автоматической публикации на ваш Joomla сайт. Алгоритм импорта результатов парсинга в Joomla 3.5. посредством возможностей программы Datacol показан на видео:

Парсер новостей для Joomla можно реализовать как в рамках Datacol, так и разработать индивидуальное решение, которое будет полностью отвечать вашим требованиям.

Парсер

Для чего нужен парсер?

При создании сайта вы обязательно задаете себе вопрос: “Где постоянно брать контент?”. Наиболее простой вариант — это найти контент в Интернете. Однако при этом могут возникнуть такие сложности:

Парсинг — это наиболее эффективное и простое решение для автоматизации сбора данных с веб-сайтов.

По сравнению с ручным сбором, парсер:

Типы парсеров

В зависимости от источников, с которых будет происходить сбор данных, парсеры делятся на: парсера интернет магазинов, парсера объявлений, парсера социальных сетей, парсера контактов, парсера файлов, парсера контента, парсера для SEO и т. д. Современные программы-парсера, такие как Datacol, совмещают в себе функции сбора данных со всевозможных источников и их экспорта в нужный формат. Также в Datacol существует возможность уникализировать получаемый контент с помощью плагина синонимизации. Еще одной важной функцией программы для парсинга является возможность быстрой выгрузки полученных данных на свой сайт.

Самые известные парсера

Перечислим наиболее популярные парсера, реализованные в Datacol:

Теперь вы знаете что такое парсер и сможете при необходимости им воспользоваться.

Мы каждые 2 недели публикуем список парсеров, которые планируем разрабатывать. Многие из них уже реализованы нашими разработчиками и добавлены в программу.

Ознакомьтесь с новым списком решений в разработке:

Парсер doska.zol.ru
Данная настройка собирает объявления с сельскохозяйственной онлайн-площадки doska.zol.ru

Парсер Яндекс недвижимость новостройки
Подайте на вход список нужных категорий, а Datacol соберет информацию о новостройках с сайта realty.yandex.ru.

Парсер Booking.com
Настройка получает информацию об отелях с сайта booking.com.

Парсер Novostroy-M.ru
Эта настройка собирает объявления о новостройках с сайта novostroy-m.ru.

Какие решения из данного списка мы добавим в функционал программы зависит только от вас. Подробности читайте на странице интересующей настройки.

Универсальность
99% задач можно решить с помощью Datacol
Простота настройки
Настроить Datacol может любой пользователь
Различные задачи
Удобная расширяемость с помощью плагинов
Отличная поддержка
Отзывчивый саппорт и пошаговые видеоинструкции
Хорошая репутация
Datacol успешно продается с 2007 года

Парсер - это программа для автоматического сбора информации c веб-сайтов. Хотите собрать информацию о товарах интернет-магазина, контакты организаций, объявления по недвижимости, данные из соц. сети? Настройте новую кампанию с помощью мастера, нажмите кнопку Запуск и получите нужный результат.

Автоматизируйте рутинные задачи с помощью парсера Datacol!

Отзывы
forum.searchengines.ru
Приобрел Datacol – впечатления положительные. Программа убивает сразу несколько зайцев... Читать на форуме
maultalk.com (модератор)
Работоспособность программы и ее быстро действие удалось протестировать мне, скажу что программе место быть. Тестировал программу на добычу контента... Читать на форуме
bestauction.ru (администратор)
Буквально вчера приобрел этот софт, первое впечатление очень позитивное. Не требуется ни каких знаний программирования... Читать на форуме
armadaboard.com
+1 к предыдущему отзыву - софт классный и радуют постоянные добавления... Читать на форуме
gofuckbiz.com
Отличный софт, парсит все и вся. Я даже без знания регулярок, свободно парсеры создаю... Читать на форуме
Читать другие отзывы
ТОП 10 ПЛАГИНОВ
Плагин для перевода контента через Promt
Плагин для перевода контента через Google Translate
Плагин экспорта собранных данных в CMS Joomla с помощью браузера Chrome с поддержкой Javascrip
Плагин экспорта собранных данных в CMS DLE с помощью браузера Chrome с поддержкой Javascript
Плагин транслитерации значения поля
Плагин для загрузки изображений с изменением размеров
Плагин для отсеивания значений из черного списка
Плагин для определения тематики сайта
Все плагины

ООО "Интернет-Автоматизация"

71700, Украина, Запорожская область,
г.Токмак, ул.Гоголя, 103/2

Datacol VKontakte Datacol Twitter Datacol Google Plus Datacol Facebook Datacol Telegram
карта сайта
X
У вас есть вопрос?

Менеджер проектов свяжется с вами в течении 1 рабочего дня.