Результат поиска
скачать демо версию
Загрузка...

Мы рады представить новые решения для парсинга на базе Datacol:

Наши SEO специалисты, вдохновившись обучающим курсом “Семантическое проектирование” от Игоря Рудника и Сергея Кокшарова (Devaka), решились создать собственный курс “SEO для интернет-магазинов”. Напомним, что хорошая поисковая оптимизация дает возможность получать целевой трафик дешевле многих других методов привлечения.

Зачем мы делаем курс (ведь и так уже написано много)? Все просто — мы хотим адаптировать информацию для интернет-магазинов. Чтобы ее мог быстро (в течение недели) освоить даже человек, далекий от SEO. Например, ваш контент менеджер.

Несколько ключевых вопросов, которые будут рассмотрены в курсе:

И многое другое!

А какие темы были бы интересны вам? Оставляйте пожелания в комментариях и мы постараемся включить их в программу курса.


И небольшая видеопрезентация авторов курса “Семантическое проектирование

Сегодня мы празднуем день рождения! В семействе наших продуктов пополнение — появился Crocodile Contact Parser. Принимаются поздравления, вопросы и предложения по новой программе.:)

Как вы наверняка поняли из названия, Crocodile — это парсер контактов, который собирает email, телефоны, формы обратной связи, skype на заданных сайтах.

Вам нужно только задать перечень нужных сайтов, настроить опции их сканирования и запустить программу. Все остальное Crocodile сделает сам.

Более подробно работу программы можно увидеть на этом видео:

Официальная страничка продукта на нашем сайте.

В ближайших планах расширение контактных данных, которые будет собирать программа, новые парсера, которые будут собирать списки сайтов и реализация ваших предложений и пожеланий!

Как вы помните, ранее мы начали публиковать описание парсеров, которые планируем запустить. Полезность конкретного парсера вы определяли сами, присылая нам по форме обратной связи пожелание ускорить выпуск нужного решения.

Предлагаем вам ознакомиться с новым набором решений в разработке:

Парсер otto.de
Многим наверняка будет интересно решение, которое собирает информацию из крупного немецкого интернет магазина otto.de.

Парсер 6pm.com
Еще одно решение, которое поможет собирать данные о товарах с сайта 6pm.com.

Парсер petrovich.ru
Это решение поможет быстро сориентироваться на площадке petrovich.ru. Там наверняка найдется описание и характеристики нужного вам товара.

Какое решение из этого списка будет выпущено и добавлено в базовые настройки зависит только от вас. Что для этого нужно сделать — читайте на странице интересующего вас решения.

Мы рады представить новые решения для парсинга на базе Datacol:

  • Парсер Booking.com (кампания ad-parsers/booking.com.par). Парсер Booking.com автоматически получает информацию об отелях с сайта booking.com.
  • Парсер iherb.com (кампания shop-parsers/iherb.com.par). Парсер iherb.com автоматически получает информацию о товарах с сайта iherb.com.
  • Парсер Dns-shop.ru (кампания shop-parsers/dns-shop.ru.par). Парсер Dns-shop.ru автоматически получает информацию о товарах с сайта dns-shop.ru.

Продолжаем разбирать тему регулярных выражений. Для начала рекомендуем ознакомиться с предыдущей статьей.

1. Соберем ссылку на Youtube видео. Обычно участок с видео в коде выглядит так:

<iframe src="https://www.youtube.com/embed/ХХХХХХХХХХХ" width="560" height="315" frameborder="0" allowfullscreen="allowfullscreen"></iframe>

ХХХХХХХХХХХ — это код видео. Для того, чтобы его собрать, используем регулярку:

<iframe[^<>]*?src=['"]([^<>]*?)['"]

В итоге мы получаем ссылку на наше видео: https://www.youtube.com/embed/ХХХХХХХХХХХ

Если на странице присутствует несколько тегов iframe, то используйте следующее выражение:

<iframe[^<>]*?src=['"]([^<>]*?youtu[^<>]*?)['"]

2. Универсальный метод получения изображения. На многих сайтах применяют метатег og:image для изображения, которое будет отображаться в соцсети при добавлении ссылки на страницу. Этот метатег выглядит следующим образом:

<meta property="og:image" content="http://site.ru/image.jpg"/>

Чтобы собрать изображение используем выражение:

<meta[^<>]*?og:image['"][^<>]*?content=['"]([^<>]*?)['"]

В итоге мы получим: http://site.ru/image.jpg

3. Соберем ссылку на товар для последующей загрузки в интернет-магазин. Часто необходимо собрать часть ссылки на товар без домена и названий категорий. Например, полная ссылка: «http://site.ru/shop/category/tovar-001«, а нам необходимо получить только «tovar-001«. В этом случае устанавливаем в Datacol «Тип поля» — «Спец. поле«. Потом установим во вкладке «Спец значения» — «URL«.

URL

Добавим замену:

.*?/ - > пусто

Добавим замену

Если в конце ссылки присутствует слеш «/» — делаем две замены:

/$ -> пусто
.*?/ - > пусто

Добавим 2 замены

4. Уберем ненужные стили и классы в тегах, которые появляются при сохранении описания. Используйте следующие замены для их удаления:

<([a-z\d]{1,6})\ [^<>]*?> -> <$1>

Этот метод является универсальным, но он может удалить нужные теги. Если нужно удалить какой-то конкретный тег, тогда используйте такую замену:

<div[^<>]*?> -> <div>

Материал для статьи предоставлен сайтом bestweb4u.net, на котором можно найти много интересных материалов по тонкостям настройки Datacol.

Для большинства пользователей программы Datacol регулярные выражения являются сложной и пугающей темой. Но стоит научиться ими пользоваться и настройка программы станет отнимать все меньше времени.

Перед тем как приступать к практике, мы рекомендуем изучить следующие разделы онлайн справки Datacol: Теория и Часто используемые регулярные выражения.

А теперь можно переходить к полезной информации и советам по побору регулярок.

У регулярок есть метасимволы. Вот их перечень:

. ^ $ * + ? { } [ ] \ | ( )

Если в нашем regex присутствуют какие-то из метасимволов, его необходимо «экранировать», то есть поставить перед ним «\». К примеру, для (страница), regex будет: \(страница\)

В регулярных выражениях существуют специальные наборы символов:

    \d — цифра, также можно использовать: [0-9]
    \D — НЕ цифра, также можно использовать: [^0-9]
    \s — символ whitespace, также можно использовать: [ \t\n\r\f\v]
    \S — НЕ whitespace символ, также можно использовать: [^ \t\n\r\f\v]
    \w — буква, цифра, также можно использовать: [a-zA-Z0-9_]
    \W — НЕ буква, цифра, также можно использовать: [^a-zA-Z0-9_]

Чтобы задать информацию о том, сколько раз должен повторится символ, в фигурных скобках необходимо указать количество {1}. Вы также можете указать диапазон {1,10} или {5,} — от 5-и до бесконечности.

Если вы возьмете выражение в скобки, то к нему можно будет обратиться по порядковому номеру.

Например, у Вас есть строка со следующей датой 27.03.2017. Создадим регулярное выражение:

([\d]{2})\.([\d]{2}).([\d]{4})

Давайте его разберем:
[\d]{2} — нам надо найти две цифры
[\d]{4} — нам надо найти четыре цифры

Каждое выражение мы заключили в скобки, в итоге у нас вышло три группы. Указав номер группы в настройках, вы сможете получить именно то значение, которое вас интересует.

Группа в регулярных выражениях

Вы можете использовать группы в заменах. Например, нам необходимо дату 27.03.2017 перевести в следующий формат: месяц-день-год. Наше выражение:

([\d]{2})\.([\d]{2}).([\d]{4})

В заменах группу обозначаем символом «$». Создаем замену со сменой нашего выражения на $2-$1-$3. В итоге получаем:

Группа в заменах Datacol

Регулярное выражение, которое найдет e-mail адрес:

[a-z0-9_\.-]+@[a-z0-9_-]+\.[a-zA-Z]{2,6}

Регулярное выражение, которое найдет заголовок документа (title):

<title>([^<>]*?)</title>

При поиске информации в тегах или между ними рекомендуем писать выражение [^<>]*? вместо .*? . Это поможет ускорить поиск и вы найдете именно тот участок, который вам нужен.

Регулярное выражение, которое найдет метатег description:

<meta name="description" content="([^<>]*?)">

Регулярное выражение, которое найдет метатег keywords:

<meta name=['"]keywords['"] content=['"]([^<>]*?)['"]>

Продолжаем разбирать тему регулярных выражений во 2-й части статьи.

Материал для статьи был предоставлен сайтом bestweb4u.net, на котором можно найти много познавательных материалов по тонкостям настройки Datacol.

Мы рады представить новые решения для парсинга на базе Datacol:

  • Парсер постель.рф (кампания shop-parsers/постель.рф.par). Парсер постель.рф автоматически получает информацию с онлайн ресурса постель.рф по заранее прописанным категориям.
  • Парсер citilink.ru (кампания shop-parsers/citilink.ru.par). Парсер citilink.ru автоматически получает информацию с интернет магазина citilink.ru по заранее заданным рубрикам.
  • Парсер domofond.ru (кампания ad-parsers/domofond.ru.par). Парсер domofond.ru автоматически получает данные с сайта domofond.ru по заданным ссылкам.

Недавний указ Президента Украины, наделавший столько шума в интернет сообществе Рунета изрядно усложнил работу многим жителям Украины.

Многие пользователи нашей программы находятся в Украине и чтобы немного облегчить им жизнь, мы запускаем продажу лицензий на программу Datacol в гривне. Теперь оплатить лицензию можно в терминалах, банках, через Приват24 или любым удобным способом.

Для просмотра цен в гривне на странице тарифов укажите валюту — грн. Выбирайте нужный тариф и переходите на страницу оформления заказа. Также можно выбрать нужную валюту уже на странице оформления заказа.

Теперь Datacol можно купить за гривны

После нажатия на кнопку оплаты вы перейдете на страницу платежной системы, где сможете оплатить лицензию в украинской гривне.

Желаем легкой работы, команда Datacol!

Наверное, вы слышали новости, что на территории Украины доступ ко многим сервисам может быть ограничен (почта mail.ru и yandex.ru, Одноклассники и ВКонтакте). На работу программы это не повлияло, но у украинских пользователей могут возникать проблемы со сбором информации из Вконтакте и Яндекса.

Вы можете использовать Proxy или VPN для нормальной работы программы в связи с блокировками основных ресурсов. Подробнее об использовании прокси в Datacol можно прочитать здесь. VPN позволяет получить максимальную анонимность при использовании интернета посредством смены IP-адреса. VPN поможет обойти региональные ограничения, как если бы вы физически находились в необходимой стране. Мы уже протестировали работу одного из подобных приложений. Просто установите программу HideMy.name, нажмите кнопку «Подключиться» и пользуйтесь программой Datacol в обычном режиме.

Универсальность
99% задач можно решить с помощью Datacol
Простота настройки
Настроить Datacol может любой пользователь
Различные задачи
Удобная расширяемость с помощью плагинов
Отличная поддержка
Отзывчивый саппорт и пошаговые видеоинструкции
Хорошая репутация
Datacol успешно продается с 2007 года

Парсер - это программа для автоматического сбора информации c веб-сайтов. Хотите собрать информацию о товарах интернет-магазина, контакты организаций, объявления по недвижимости, данные из соц. сети? Настройте новую кампанию с помощью мастера, нажмите кнопку Запуск и получите нужный результат.

Автоматизируйте рутинные задачи с помощью парсера Datacol!

Отзывы
forum.searchengines.ru
Приобрел Datacol – впечатления положительные. Программа убивает сразу несколько зайцев... Читать на форуме
maultalk.com (модератор)
Работоспособность программы и ее быстро действие удалось протестировать мне, скажу что программе место быть. Тестировал программу на добычу контента... Читать на форуме
bestauction.ru (администратор)
Буквально вчера приобрел этот софт, первое впечатление очень позитивное. Не требуется ни каких знаний программирования... Читать на форуме
armadaboard.com
+1 к предыдущему отзыву - софт классный и радуют постоянные добавления... Читать на форуме
gofuckbiz.com
Отличный софт, парсит все и вся. Я даже без знания регулярок, свободно парсеры создаю... Читать на форуме
Читать другие отзывы
ТОП 10 ПЛАГИНОВ
Плагин для перевода контента через Promt
Плагин для перевода контента через Google Translate
Плагин экспорта собранных данных в CMS Joomla с помощью браузера Chrome с поддержкой Javascrip
Плагин экспорта собранных данных в CMS DLE с помощью браузера Chrome с поддержкой Javascript
Плагин транслитерации значения поля
Плагин для загрузки изображений с изменением размеров
Плагин для отсеивания значений из черного списка
Плагин для определения тематики сайта
Все плагины

ООО "Интернет-Автоматизация"

71700, Украина, Запорожская область,
г.Токмак, ул.Гоголя, 103/2

Datacol VKontakte Datacol Twitter Datacol Google Plus Datacol Facebook Datacol Telegram
карта сайта
X
У вас есть вопрос?
Менеджер проектов свяжется с вами в течении 1 рабочего дня.