Перевод контента через Google Translate

Datacol может переводить собранные данные через Google Translate. Для этого используется плагин для обработки значения поля D5Plugin_GoogleTranslate.

Таким образом, вы можете парсить любые ресурсы с помощью Datacol, переводить собранные данные с помощью Google Translate и публиковать их в любые форматы.

Стоимость плагина составляет 15$. Вы можете купить плагин прямо сейчас.

Тестирование

Для тестирования перевода через Google Translate с помощью Datacol вы можете задействовать демо настройку, которая парсит посты блога kolchaka.net и переводит их с помощью демо версии плагина D5Plugin_GoogleTranslateDemo. Для этого выполните следующие действия:

1. Установите демо-версию программы Datacol;

Скачать Демо-версию Datacol

2. В дереве кампаний присутствует кампания processors/blog-parser-google-translate-processor.par. Откройте ее настройки и задайте конфигурацию плагина.

3. Выберите кампанию в дереве и нажмите кнопку Запуск.

Ограничения демо версии плагина »

Обратите внимание, что демо версия плагина добавляет к обработанному значению поля ссылку на официальный сайт Datacol. Кроме того, она обрезает значение поля. Это можно заметить при тестировании сбора данных.

Чтобы убрать ссылку и отключить обрезание значения поля, вы можете приобрести полную версию плагина. Чтобы использовать полную версию плагина, ее (после покупки) необходимо импортировать и подключить к настройке.

Импорт и подключение

Обратите внимание — данная информация более актуальна для полной версии плагина(которую вы можете приобрести). Что касается демо версии плагина — она уже импортирована и подключена к кампании processors/blog-parser-google-translate-processor.par в демо версии Datacol (начиная с Datacol 5.50).

Импорт плагина в Datacol

Импорт плагинов в программу подробно описан в справке (доступной из интерфейса программы):

Подключение плагина к настройке

Плагин D5Plugin_GoogleTranslate подключается в качестве плагина для обработки значения поля (чтобы переводить найденное значение поля данных через Google Translate). Плагин может подключаться одновременно к нескольким полям данных.

Конфигурация

Конфигурация плагина перевода контента через Google Translate задается в соответствующей настройке. Обратите внимание — конфигурация задается для каждого поля данных, к которому подключен плагин.

В конфигурации задаются следующие параметры:

  • source — исходный язык перевода (обозначение необходимого языка можно посмотреть непосредственно на сервисе Google Translate).
  • dest — конечный язык перевода (обозначение необходимого языка можно посмотреть непосредственно на сервисе Google Translate).
  • tags-to-encode — список тегов (каждый с новой строки) для кодирования при переводе. Содержимое данных тегов не будет переводиться. Кодирование необходимо для того, чтобы сервис при переводе не разрушал структуру тегов.
  • use-proxy — Флаг для включения и отключения использования прокси при обращении к Google Translate. Флаг может принимать значение 1 или 0 соответственно. Если флаг равен 1, то при обращении используются прокси из списка, заданного в параметре конфигурации proxies.
  • proxy-random — Флаг для включения и отключения случайного режима выбора прокси при обращении к Google Translate. Флаг может принимать значение 1 или 0 соответственно. Если флаг равен 1, то каждый следующий прокси выбирается случайным образом.
  • proxies — список прокси-серверов (каждый с новой строки) для уменьшения вероятности блокировки со стороны переводчика Google Translate. В списке могут задавать прокси с авторизацией и без нее. Соответственно, они имеют следующие форматы:
    Сервер:Порт
    Сервер:Порт:Логин:Пароль

  • attempts — количество повторных попыток перевода, если перевод завершился неудачей.
  • max-per-request — количество символов, которые могут быть переданы Google Translate в одном запросе. Данный параметр стоит оставить по умолчанию.

Пример строки конфигурации:

    <dc5par type="string" name="source">ru</dc5par>
    <dc5par type="string" name="dest">en</dc5par>
    <dc5par type="list-string" name="tags-to-encode">
        img
        a
        p
        br
        object
        span
    </dc5par>
    <dc5par type="int" name="use-proxy">0</dc5par>
    <dc5par type="int" name="proxy-random">0</dc5par>
    <dc5par type="list-string" name="proxies">
    </dc5par>
    <dc5par type="int" name="attempts">3</dc5par>
    <dc5par type="int" name="max-per-request">500</dc5par>