Основные понятия о прокси

Что такое прокси сервер — хорошо описано в Wikipedia. Попросту говоря, прокси сервер — это промежуточный компьютер, который является посредником (proxy — посредник) между Вашим компьютером (на котором в данном случае работает Datacol) и интернетом. Через него проходят все Ваши обращения (а также обращения Datacol) в Internet. Proxy их обрабатывает и передает результаты Вам (либо Datacol). Благодаря прокси можно сделать свой серфинг (а также серфинг Datacol) по интернет анонимным.

Таким образом, если у нас есть прокси сервера, то мы можем без проблем парсить сайты, которые банят парсера за частые обращения с одного IP адреса (поскольку при каждом последующем обращении к сайту Datacol использует новый прокси сервер — соответственно сайт видит запрос с нового IP).

Использование прокси в Datacol

Отметим, что Datacol поддерживает HTTP прокси. Есть два варианта использования прокси в Datacol. Во-первых, вы можете задать фиксированный список прокси. При этом для загрузки страниц сайтов прокси-сервера будут браться из этого списка. В зависимости от настроек кампании каждый следующий прокси берется случайным образом или выбирается по порядку из списка.

кликните на изображении для увеличения

Этот вариант подходит в том случае, если у вас есть список быстрых незабаненных прокси серверов (незабаненных сайтом-источником парсинга информации). Обычно это платные прокси. Обратите внимание, что лучше всего использовать анонимные прокси.

Подробнее об использовании прокси можно почитать в справке к Datacol.

кликните на изображении для увеличения

Полезную информацию о поиске и проверке бесплатных проксей привел наш покупатель Александр.

Как проверить прокси перед покупкой

Перед покупкой желательно проверить работоспособность прокси. Для этого требуем у провайдера прокси предоставить небольшой список прокси-серверов для теста. Если провайдер идет навстречу, то прокси можно протестировать следуя нижеприведенной инструкции:

1. Скачайте, разархивируйте и запустите наш внешний прокси чекер.

Запуск внешнего прокси чекера

кликните на изображении для увеличения

2. Вставьте список прокси для проверки (полученный от провайдера в качестве списка прокси-серверов для теста). Обратите внимание, если вам предоставляются прокси без авторизации, то их нужно вводить в нижеприведенном формате:

ip:port

Если же провайдер предоставил прокси с авторизацией (то есть для работы через прокси нужно вводить логин и пароль), то их нужно вводить в нижеприведенном формате:

ip:port:login:password

Формат списка прокси серверов

Кликните на изображении для увеличения

3. Установите «цель» проверки. Для этого:
3.1. Зайдите в общие настройки.

Открыть общие настройки прокси чекера

кликните на изображении для увеличения

3.2. Перейдите в браузере Google Chrome на сайт, для парсинга которого вы покупаете прокси.

3.3. Найдите на сайте характерную строку, которая в случае правильной загрузки страницы через конкретный прокси сервер будет однозначно присутствовать в исходном коде страницы. Кликните правой кнопкой мышки на этой строке и выберите пункт меню Просмотр кода элемента.

Поиск сигнатуры проверки цели для прокси чекера

кликните на изображении для увеличения

3.4. Задайте настройки Правила проверки прокси. Если вы хотите проверять прокси на валидность только для одного конкретного сайта, то вводите только одно правило. В рамках правила должны быть заданы:

  • Ссылка на страницу — URL, который должен загружаться через прокси сервер;
  • Строка поиска — строка или регулярное выражение (в зависимости от опции Строка поиска является регулярным выражением), которая должна быть найдена в исходном коде загруженной страницы, чтобы прокси считался валидным (работоспособным);
  • Тип загрузки — механизм загрузки URL. На сегодняшний день есть следующие варианты: httploader и browser.

    Httploader подразумевает загрузку, осуществляемую встроенным загрузчиком Datacol по умолчанию. Ее механизм отличается от загрузки браузером (в частности не обрабатываются Javascript и передаются несколько другие заголовки запроса), однако httploader грузит страницы быстрее.

    Browser — подразумевает загрузку, через браузер Google Chrome, осуществляемую при подключении плагина D5Plugin_Chrome. Для использования этого варианта загрузки в системе должна быть установлена последняя версия браузера Google Chrome.

  • Общие настройки прокси чекера

    кликните на изображении для увеличения

    3.5. Нажмите кнопку Сохранить. При этом заданные правила будут сохранены, а окно Общие настройки будет закрыто.

    4. Нажмите кнопку Начать проверку. При этом программа начнет проверку прокси серверов из Списка прокси для проверки на работоспособность по правилам, заданным в Общих настройках.

    5. По ходу проверки работоспособные прокси будут отображаться в Списке валидных прокси. Из списка их можно скопировать в буфер обмена (кнопка Скопировать все) или сохранить в файл (кнопка Выгрузить в Excel). Это можно сделать как в ходе проверки, так и после ее окончания.

    Отображение валидных прокси при проверке и возможные действия с ними

    кликните на изображении для увеличения

    6. Чтобы убедиться, что прокси действительно является работоспособным, можно проверить как выглядит загруженная через прокси страница в браузере. Для этого нужно выбрать конкретный прокси в Списке валидных прокси. В браузере (расположенном ниже) отобразиться вид загруженной при осуществленной проверке страницы.

    Вид загруженной при проверке страницы

    кликните на изображении для увеличения

    7. После копирования прокси в буфер обмена — их можно сразу вставить в Datacol. После этого парсинг в рамках соответствующей настройки будет производиться через прокси.

    Вставка валидных прокси в Datacol

    кликните на изображении для увеличения

Рекомендуемые прокси

По результатам тестирования отдела технической поддержки Datacol мы рекомендуем использовать при работе программы прокси сервера компании ALTVPN.

Они успешно прошли тесты и доказали высокое качество и скорость работы.

Стоимость прокси сервера зависит от страны и начинается от 100 руб/шт.

Прокси являются приватным и выдаются только одному пользователю

Подробную информацию можно получить на сайте сервиса.

ООО "Интернет-Автоматизация"

71700, Украина, Запорожская область,
г.Токмак, ул.Гоголя, 103/2

Datacol VKontakte Datacol Twitter Datacol Google Plus Datacol Facebook Datacol Telegram
карта сайта
X
У вас есть вопрос?
Менеджер проектов свяжется с вами в течении 1 рабочего дня.