Перевод контента через Google Translate
Datacol может переводить собранные данные через Google Translate. Для этого используется плагин для обработки значения поля D5Plugin_GoogleTranslate.
Таким образом, вы можете парсить любые ресурсы с помощью Datacol, переводить собранные данные с помощью Google Translate и публиковать их в любые форматы.
Стоимость плагина составляет 15$. Вы можете купить плагин прямо сейчас.
Тестирование
Для тестирования перевода через Google Translate с помощью Datacol вы можете задействовать демо настройку, которая парсит посты блога kolchaka.net и переводит их с помощью демо версии плагина D5Plugin_GoogleTranslateDemo. Для этого выполните следующие действия:
1. Установите демо-версию программы Datacol;
2. В дереве кампаний присутствует кампания processors/blog-parser-google-translate-processor.par. Откройте ее настройки и задайте конфигурацию плагина.
3. Выберите кампанию в дереве и нажмите кнопку Запуск.
Ограничения демо версии плагина »
Обратите внимание, что демо версия плагина добавляет к обработанному значению поля ссылку на официальный сайт Datacol. Кроме того, она обрезает значение поля. Это можно заметить при тестировании сбора данных.
Чтобы убрать ссылку и отключить обрезание значения поля, вы можете приобрести полную версию плагина. Чтобы использовать полную версию плагина, ее (после покупки) необходимо импортировать и подключить к настройке.
Импорт и подключение
Обратите внимание — данная информация более актуальна для полной версии плагина(которую вы можете приобрести). Что касается демо версии плагина — она уже импортирована и подключена к кампании processors/blog-parser-google-translate-processor.par в демо версии Datacol (начиная с Datacol 5.50).
Импорт плагина в Datacol
Импорт плагинов в программу подробно описан в справке (доступной из интерфейса программы):
Подключение плагина к настройке
Плагин D5Plugin_GoogleTranslate подключается в качестве плагина для обработки значения поля (чтобы переводить найденное значение поля данных через Google Translate). Плагин может подключаться одновременно к нескольким полям данных.
Конфигурация
Конфигурация плагина перевода контента через Google Translate задается в соответствующей настройке. Обратите внимание — конфигурация задается для каждого поля данных, к которому подключен плагин.
В конфигурации задаются следующие параметры:
- source — исходный язык перевода (обозначение необходимого языка можно посмотреть непосредственно на сервисе Google Translate).
- dest — конечный язык перевода (обозначение необходимого языка можно посмотреть непосредственно на сервисе Google Translate).
- tags-to-encode — список тегов (каждый с новой строки) для кодирования при переводе. Содержимое данных тегов не будет переводиться. Кодирование необходимо для того, чтобы сервис при переводе не разрушал структуру тегов.
- use-proxy — Флаг для включения и отключения использования прокси при обращении к Google Translate. Флаг может принимать значение 1 или 0 соответственно. Если флаг равен 1, то при обращении используются прокси из списка, заданного в параметре конфигурации proxies.
- proxy-random — Флаг для включения и отключения случайного режима выбора прокси при обращении к Google Translate. Флаг может принимать значение 1 или 0 соответственно. Если флаг равен 1, то каждый следующий прокси выбирается случайным образом.
- proxies — список прокси-серверов (каждый с новой строки) для уменьшения вероятности блокировки со стороны переводчика Google Translate. В списке могут задавать прокси с авторизацией и без нее. Соответственно, они имеют следующие форматы:
Сервер:Порт
Сервер:Порт:Логин:Пароль - attempts — количество повторных попыток перевода, если перевод завершился неудачей.
- max-per-request — количество символов, которые могут быть переданы Google Translate в одном запросе. Данный параметр стоит оставить по умолчанию.
Пример строки конфигурации:
<dc5par type="string" name="dest">en</dc5par>
<dc5par type="list-string" name="tags-to-encode">
img
a
p
br
object
span
</dc5par>
<dc5par type="int" name="use-proxy">0</dc5par>
<dc5par type="int" name="proxy-random">0</dc5par>
<dc5par type="list-string" name="proxies">
</dc5par>
<dc5par type="int" name="attempts">3</dc5par>
<dc5par type="int" name="max-per-request">500</dc5par>