Базовые определения

Previous Next

Кампания парсинга - набор настроек для реализация определенной задачи парсинга (например распарсивания определенного сайта).


Ссылка (в контексте программы Datacol) - часть кода вебстраницы, ссылающаяся на другую вебстраницу этого же или другого сайта. Для определения ссылки в HTML используется тег <a>, структура которого имеет вид <a href="filename">Текст ссылки</a>, где filename — имя файла или адрес в Интернете, на который необходимо сослаться, а Текст ссылки — текст гипертекстовой ссылки, который будет непосредственно показан в HTML-документе. Например, гипертекстовая ссылка:

<a href="my_work.html">Мои работы</a> — ссылается на документ my_work.html, образуя гипертекстовую ссылку в виде слова «Мои работы»;

<a href="/photo/my_photo.html">Мой фотоальбом</a> — ссылается на файл my_photo.html, расположенный в каталоге photo корневой директории, и образует ссылку в виде текста «Мой фотоальбом»;

<a href="http://www.site.com"> — ссылается на ресурс, расположенный на удаленном сервере.


Адрес ссылки может быть как абсолютным, так и относительным. Абсолютные адреса должны начинаться с указания протокола (обычно http://) и содержать имя сайта. Относительные ссылки ведут отсчет от корня сайта или текущего документа.


Примеры ссылок показаны на скриншоте:


URL - абсолютный адрес вебстраницы, например http://web-data-extractor.net/

Referer - страница, на которой была найдена ссылка на текущую страницу.

Поля данных - информационные единицы сбора данных. Например, отдельными полями данных являются: заголовок статьи, текст статьи, категория статьи, автор, теги, дата и т.п.

Исходный код вебстраницы - код вебстраницы, отдаваемый сервером, без обработанных Javascriptов.


CSV файл - определение CSV из Wikipedia. Для наиболее эффектинвой работы с CSV, мы советуем использовать в качестве разделителя точку с запятой (;) . Удобство использования CSV заключается в том, что сохранение в него происходит очень быстро, в дальнейшем его можно просматривать и редактировать в Excel, и кроме того - если необходима дальнейшая обработка собранной информации сторонними программными комплексами, данный формат очень удобен для импорта информации.


Antigate - сервис для автоматического распознавания изображений (например телефонных номеров, когда сайты выдают их на картинке, или капч). Для использования в программе Datacol, необходимо зарегистрироваться в Antigate, пополнить баланс минимум на 1$, скопировать свой Antigate-ключ и вставить его в настройки плагина (если он таковые предусматривает).


Дамп (истории, очереди) - сохраненная в базу данных информация.


User Agent - определение из Wikipedia.

Created with the Personal Edition of HelpNDoc: Full-featured EPub generator