Основные понятия о прокси
Что такое прокси сервер — хорошо описано в Wikipedia. Попросту говоря, прокси сервер — это промежуточный компьютер, который является посредником (proxy — посредник) между Вашим компьютером (на котором в данном случае работает Datacol) и интернетом. Через него проходят все Ваши обращения (а также обращения Datacol) в Internet. Proxy их обрабатывает и передает результаты Вам (либо Datacol). Благодаря прокси можно сделать свой серфинг (а также серфинг Datacol) по интернет анонимным.
Таким образом, если у нас есть прокси сервера, то мы можем без проблем парсить сайты, которые банят парсера за частые обращения с одного IP адреса (поскольку при каждом последующем обращении к сайту Datacol использует новый прокси сервер — соответственно сайт видит запрос с нового IP).
Использование прокси в Datacol
Отметим, что Datacol поддерживает HTTP прокси. Есть два варианта использования прокси в Datacol. Во-первых, вы можете задать фиксированный список прокси. При этом для загрузки страниц сайтов прокси-сервера будут браться из этого списка. В зависимости от настроек кампании каждый следующий прокси берется случайным образом или выбирается по порядку из списка.
Этот вариант подходит в том случае, если у вас есть список быстрых незабаненных прокси серверов (незабаненных сайтом-источником парсинга информации). Обычно это платные прокси. Обратите внимание, что лучше всего использовать анонимные прокси.
Подробнее об использовании прокси можно почитать в справке к Datacol.
Полезную информацию о поиске и проверке бесплатных проксей привел наш покупатель Александр.
Как проверить прокси перед покупкой
Перед покупкой желательно проверить работоспособность прокси. Для этого требуем у провайдера прокси предоставить небольшой список прокси-серверов для теста. Если провайдер идет навстречу, то прокси можно протестировать следуя нижеприведенной инструкции:
1. Скачайте, разархивируйте и запустите наш внешний прокси чекер.
2. Вставьте список прокси для проверки (полученный от провайдера в качестве списка прокси-серверов для теста). Обратите внимание, если вам предоставляются прокси без авторизации, то их нужно вводить в нижеприведенном формате:
ip:port
Если же провайдер предоставил прокси с авторизацией (то есть для работы через прокси нужно вводить логин и пароль), то их нужно вводить в нижеприведенном формате:
ip:port:login:password
3. Установите «цель» проверки. Для этого:
3.1. Зайдите в общие настройки.
3.2. Перейдите в браузере Google Chrome на сайт, для парсинга которого вы покупаете прокси.
3.3. Найдите на сайте характерную строку, которая в случае правильной загрузки страницы через конкретный прокси сервер будет однозначно присутствовать в исходном коде страницы. Кликните правой кнопкой мышки на этой строке и выберите пункт меню Просмотр кода элемента.
3.4. Задайте настройки Правила проверки прокси. Если вы хотите проверять прокси на валидность только для одного конкретного сайта, то вводите только одно правило. В рамках правила должны быть заданы:
- Ссылка на страницу — URL, который должен загружаться через прокси сервер;
- Строка поиска — строка или регулярное выражение (в зависимости от опции Строка поиска является регулярным выражением), которая должна быть найдена в исходном коде загруженной страницы, чтобы прокси считался валидным (работоспособным);
- Тип загрузки — механизм загрузки URL. На сегодняшний день есть следующие варианты: httploader и browser.
Httploader подразумевает загрузку, осуществляемую встроенным загрузчиком Datacol по умолчанию. Ее механизм отличается от загрузки браузером (в частности не обрабатываются Javascript и передаются несколько другие заголовки запроса), однако httploader грузит страницы быстрее.
Browser — подразумевает загрузку, через браузер Google Chrome, осуществляемую при подключении плагина D5Plugin_Chrome. Для использования этого варианта загрузки в системе должна быть установлена последняя версия браузера Google Chrome.
3.5. Нажмите кнопку Сохранить. При этом заданные правила будут сохранены, а окно Общие настройки будет закрыто.
4. Нажмите кнопку Начать проверку. При этом программа начнет проверку прокси серверов из Списка прокси для проверки на работоспособность по правилам, заданным в Общих настройках.
5. По ходу проверки работоспособные прокси будут отображаться в Списке валидных прокси. Из списка их можно скопировать в буфер обмена (кнопка Скопировать все) или сохранить в файл (кнопка Выгрузить в Excel). Это можно сделать как в ходе проверки, так и после ее окончания.
6. Чтобы убедиться, что прокси действительно является работоспособным, можно проверить как выглядит загруженная через прокси страница в браузере. Для этого нужно выбрать конкретный прокси в Списке валидных прокси. В браузере (расположенном ниже) отобразиться вид загруженной при осуществленной проверке страницы.
7. После копирования прокси в буфер обмена — их можно сразу вставить в Datacol. После этого парсинг в рамках соответствующей настройки будет производиться через прокси.
Рекомендуемые прокси
По результатам тестирования отдела технической поддержки Datacol мы рекомендуем использовать при работе программы прокси сервера компании ALTVPN.
Они успешно прошли тесты и доказали высокое качество и скорость работы.
Стоимость прокси сервера зависит от страны и начинается от 100 руб/шт.
Прокси являются приватным и выдаются только одному пользователю
Подробную информацию можно получить на сайте сервиса.