ТЗ (техзадание) на настройку или создание парсера

Чтобы мы смогли быстро оценить стоимость и сроки выполнения задачи (либо возможность ее решения в рамках Datacol), необходимо сформулировать техзадание по нижеприведенному плану и отправить нам его по форме обратной связи. Лучший вариант — сделать техзадание в Google Docs, чтобы в будущем не было неразберихи с версиями файлов ТЗ.

Важно! По поводу функционала, который вы ПОДРАЗУМЕВАЛИ, но не описали в ТЗ! »

ВАЖНО!!! Сразу уточню: мы реализуем только то, что вы описали в ТЗ. В конечном продукте вы не найдете настроек или функций, которые ПОДРАЗУМЕВАЛИСЬ ВАМИ, но не были описаны в ТЗ. Их доработку мы осуществляем ТОЛЬКО на платной основе!

Важно! По поводу корректировки настроек, плагинов, индивидуальных разработок! »

ВАЖНО!!! Любые корректировки настроек, плагинов, индивидуальных разработок (помимо исправления багов) делаются исключительно на платной основе (например при смене верстки или механизма выдачи данных на сайте источнике). Будь то настройки и плагины, присутствующие в демо версии программы, либо настройки и плагины, сделанные под заказ. Важно: плата взымается ВНЕ зависимости от того, сколько времени прошло с принятия вами работы. Принятие подразумевает проверку работы и согласие с тем, что все реализовано в рамках последней версии составленного перед работой техзадания.

1. Сайт-источник (или сайты-источники) парсинга. Другими словами — вебресурсы откуда собираются данные.

2. Пример страницы с данными (ОБЯЗАТЕЛЬНО привести ссылку на эту вебстраницу). Например, это может быть страница с товаром, объявлением или статьей (в зависимости от того, что вы парсите). Также необходимо ПОКАЗАТЬ НА СКРИНШОТЕ список полей (данных), которые необходимо сохранить. Например, это может быть название товара, цена, телефонный номер, изображение товара (или объекта недвижимости), текст описания (или статьи) и т.п. Если есть страницы, на которых данные расположены по разному, то их нужно обязательно показать.

Если какого-либо из полей нет на странице-примере, то необходимо также предоставить ссылку на страницу, где это поле присутствует. Соответственно, для этой страницы также необходимо привести скриншот, уточняющий местонахождение поля данных.

3. Алгоритм прохода сайта парсером, то есть как именно нужно парсить – весь сайт или только определенные его категории/страницы. Если парсить нужно отдельные категории — обязательно приведите ссылки на них.

4. Формат сохранения собранных данных. Его важно описать как можно точнее. Обязательно привести пример сохранения страницы с данными (из пункта 2) в данный формат. Поймите, мы можем реализовать задачу правильно ТОЛЬКО В ТОМ СЛУЧАЕ, если видим формат сохраненных данных аналогично тому, как видите его вы. Кроме того:

4.1. Если сохранение происходит в файл(ы), обязательно укажите кодировку файла(ов).
4.2. Если сохранение происходит в CSV файл, обязательно укажите кодировку файла, разделитель (обычно точка с запятой или запятая), а также список названий столбцов файла в порядке, аналогичном тому, как столбцы расположены в файле.

Вы должны предоставить файл, хотя бы с одним товаром/статьей, составленный вручную, либо автоматически (например, сделанный модулем экспорта ИЗ CMS), который ваша система гарантированно поймет и (как результат) правильно добавит товар/статью. Очень важно, чтобы в файле-примере присутствовала строка (запись), содержащая данные со страницы-примера, ссылка на которую приведена в пункте 2. Другими словами, вам необходимо показать нам, как именно должны сохраняться собранные данные в файл.

4.3. Если экспорт производится на сайт, укажите точную версию CMS (системы управления контентом, на базе которой создан сайт). Будьте готовы к тому, что в дальнейшем вам необходимо будет предоставить нам тестовый сайт, на котором мы сможем протестировать наш функционал для публикации на сайт.
4.4. Если экспорт производится в базу данных, укажите точную версию СУБД, а также подробно опишите структуру и взаимосвязи таблиц базы данных. Будьте готовы к тому, что в дальнейшем вам необходимо будет предоставить нам тестовую базу, на которой мы сможем протестировать наш функционал для сохранения данных.

Дополнительные пункты ТЗ »

5. Необходима ли загрузка картинок (либо других файлов) с источника на ваш компьютер? Если да, то в какую папку?

6. Необходима ли закачка картинок (либо других файлов) на ваш FTP сервер? Если да, то в какую директорию? Сами реквизиты FTP доступа (сервер, порт, логин, пароль) можете привести после окончательной договоренности о выполнении нами задачи.

7. Необходима ли поддержка работы с прокси (какой тип прокси будете использовать)? Есть ли у вас специфически требования к механизму использования прокси?

8. Есть ли необходимость обработки капчи сайта? Если да, то какой необходимо создать механизмы — ручная обработка или через Antigate?

9. (ВАЖНО!) Нужно ли авторизоваться на сайте перед сбором информации с него. Если да, то предоставьте авторизационные данные (обычно это логин и пароль) для теста.

10. Временной алгоритм парсинга – то есть парсинг будет производиться единожды, или сайт будет парситься регулярно с поиском обновлений. Если регулярно, то уточните расписание парсинга.

11. Дополнительные детали техзадания, которые не вошли в предыдущие пункты.