Кейс: Как AI сэкономил 100 000 € на налогах девелоперской компании

Меня зовут Саша. Я один из разработчиков Datacol. Продолжаю публиковать интересные кейсы автоматизации, созданный мной и моими коллегами. В этот раз вы узнаете про AI систему анализа документов. Ее внедрил мой приятель Олег Захарченко для австрийской девелоперской компании. Благодаря этой системе компания избежала месяцов изнурительной ручной работы и сэкономила около 100 000 € на налогах.

В чем проблема?

Итак, небольшая девелоперская компания спокойно себе работала до момента, когда пришлось подсчитывать годовую отчетность. Налоговый консультант подсказал, что можно значительно сократить налоги. «Значительно» — это около 100к евро. Для этого — всего лишь нужен перечень всех расходов с пояснениями (сколько, кому, за что). Соответственно, стали поднимать документацию. И тут оказалось, что для их самого большого объекта (строительство длилось около 2х лет) скопился буквально ШКАФ папок отчетности.

Встал чисто технический вопрос. На руках более — 2000 инвойсов за два года. Для каждого нужно было понять, к какому проекту он относится, какой контрагент задействован, наконец — какая сумма. Сначала попытались разбирать это все вручную, но сразу поняли, что работы здесь на несколько месяцев и грустно развели руками — не видать столь приятной экономии на налогах.


Решение

Мой приятель Олег (по совместительству он муж одной из сотрудниц компании) решил подать руку помощи отчаявшимся девелоперам. Пару слов об Олеге. Его супер сила — решать задачи автоматизации, которые на первый взгляд кажутся вообще нереальными. Обычно его разработчки сочетают в себе совершенно разные технологии. Например, Олег недавно создал предсказатель зеленого цвета световора по маршруту поездок в школу, куда он отвозит свою дочь в Вене. В данном решении рука об руку работают ML-модель (натренированная нейронка для прогнозирования вероятности того, что светофор включен), хардверная часть (а именно — Raspberry), и, конечно же, столь популярный сейчас n8n (насколько знаю, Олег использует его почти в каждом проекте наряду с Make).

Но вернемся к задаче девелоперов. Для хранения документов Олег сначала выбрал Dropbox. Но быстро столкнулся с проблемами интеграции: API ограничено, автоматизация через скрипты получалась костыльной. В итоге, после нескольких попыток переехал на Google Drive, и там всё заработало «как по маслу».

С OCR история была похожей. Начал с Tesseract: на чистых сканах он работал хорошо, но на смятых чеках и бледных печатях всё разваливалось. После экспериментов подключил Google Vision API — результат стал стабильным и точным.

С извлечением данных тоже не всё пошло гладко. Сначала пытался решать задачу регулярными выражениями: на простых чеках работало, но при малейшем изменении формата всё ломалось. Тогда сделал связку Python + OpenAI GPT, и модель стала уверенно доставать суммы, даты и контрагентов.

Что касается категоризации документов, добавления пояснений (например — «Чек за бензин, проект А, автомобиль ХХ1234, пробег 350 км») и экспорта в таблицы — здесь все оказалось трививальным. OpenAI API распределял документы по категориям, формировал пояснения, а Google Sheets + Excel выгрузка давали удобный результат для бухгалтерии.

Финальный Workflow

📊 Итоговый конвейер работы с документами выглядел следующим образом:

  1. Сканирование и загрузка
    Все документы — фото с телефона или сканы — автоматически попадают в Google Drive, где сразу сортируются по дате и типу.

  2. Распознавание текста (OCR)
    Документы обрабатываются через Google Vision API.

  3. Извлечение ключевых данных
    Python-скрипт с подключённым OpenAI GPT достаёт из текста суммы, даты, контрагентов, валюту и другие нужные поля.

  4. Категоризация
    Тот же OpenAI относит документы к нужным категориям: топливо, командировки, юр. услуги, аренда и т.д. (дерево категорий предварительно согласовано с руководством компании)

  5. Формирование пояснений
    Модель автоматически создаёт короткое описание для каждого документа.

  6. Сборка в таблицу
    Все данные складываются в Google Sheets в структурированном виде: дата, сумма, контрагент, категория, пояснение.

  7. Экспорт для бухгалтера
    Система автоматически формирует Excel/CSV-отчёт, который бухгалтер может сразу использовать для налоговой отчётности.


Как вы догадываетесь, когда этот «конвеер» был запущен, весь процесс обработки документации занял буквально 4-5 часов. При этом — 3/4 времени ушло именно на создание сканов). И, конечно же — руководство компании было в восторге от львиной доли сэкономленных денежных средств (как говорится — 100к евро на дороге не валяются))). А сотрудники, естественно — получили приятные финансовые бонусы.

Кстати, теперь данная система автоматизации работает постоянно. Менеджеры фотографируют документы раз в неделю, и они автоматически залетают в базу в структурированном виде.


P.S.

Мы в Datacol также решаем аналогичные задачи автоматизации обработки данных. Поэтому если у вас есть рутинные процессы, которые отнимают недели и месяцы, — скорее всего, их можно автоматизировать. Напишите нам прямо сейчас и мы это обсудим.