Запустить ИИ-проект: как считать экономику, инфраструктуру и команду

Ранее ИИ-проект начинался с поиска серверов и подбора команды, сегодня работа стартует с архитектуры и расчетов. Порог входа снизился, но выросла цена управленческих ошибок. Как считать затраты на запуск проекта, какие ресурсы нужны для старта и масштабирования и почему техническая сторона проекта начинается не с железа, а с архитектуры решения рассказал технический директор Т-Банка, преподаватель программы НИУ ВШЭ «ИИ лидеры: бизнес-лаборатория для руководителей» Александр Поломодов.

Содержание:

Почему ИИ проекты стали доступнее, но не стали проще

Технологии ИИ-стали заметно доступнее. Облачные решения позволяют стартовать быстрее и дешевле, а часть задач, которые раньше требовали полного ML (Machine Learning, машинного обучения) контура, теперь решаются за счет готовых моделей и сервисов. Однако быстрый путь к прототипу не гарантирует экономию на дистанции. По словам спикера, облако хорошо работает, пока нагрузка умеренная, но когда сервис начинают использовать по максимуму и аудитория растет, счет за облачные мощности быстро раздувается. В какой то момент дешевле купить и окупить свою инфраструктуру, чем продолжать платить за облако.

В облачной модели компания не покупает собственные серверы и инфраструктуру. Вместо этого она арендует вычислительные ресурсы через интернет и платит только за фактическое использование — по модели pay-as-you-go (оплата по мере использования). Это позволяет отказаться от крупных капитальных затрат (CAPEX) на покупку оборудования и перевести расходы в операционные (OPEX).

Дальше это видно на примере бота поддержки. Александр Поломодов показывает, что стоимость GenAI (Генеративный искусственный интеллект) решения считается от условий, в которых оно будет работать. Сколько обращений ожидается, насколько быстрый нужен ответ и где будет запущена модель. Вариантов запуска несколько. On prem («на месте», запуск внутри инфраструктуры компании), через внешнего API провайдера (прим. ред. — сервис, который дает доступ к модели по API (Application Programming Interface — «интерфейс программирования приложений») за оплату) или как self hosted LLM (модель под контролем компании, но на арендованных облачных мощностях) в облаке. Когда эти условия зафиксированы, можно переходить к расчету и понимать, во сколько обойдется сценарий.

Логика расчета начинается с того, сколько данных система отправляет в модель в одном обращении и сколько токенов на это уходит. «Мы должны с вами оценить, ну, сколько мы закидываем во входных параметрах, то есть сколько скармливаем данных, то есть сколько токенов тратим». При этом разница в числе токенов для разных языков связана с особенностями токенизации, то есть тем, как модель разбивает текст на части, и сама по себе не объясняется отдельными словами или оборотами. Дальше появляется связка с деньгами. «Как-то посчитали, в итоге получили сколько за месяц токенов мы используем. У нас получилось, что 5000 долларов в месяц мы тратим чисто на вызов API (прим. ред. — способ отправлять запросы к модели у провайдера)», то есть на платные обращения к модели через внешний сервис. Важная оговорка здесь в том, что сама по себе цифра без описания сценария и допущений ничего не говорит. Она становится осмысленной только в привязке к нагрузке, требованиям к ответу и выбранной схеме запуска.

Где проходит граница между быстрым стартом и дорогой популярностью

Порог входа снизился, потому что многое можно сделать без долгой подготовки инфраструктуры и без длинного цикла закупок. Дальше включается эффект масштабирования: чем успешнее сценарий, тем быстрее растут переменные расходы. Именно поэтому разговор про ИИ в компании быстро превращается в разговор про архитектуру и финансовую модель потребления.

В генеративных решениях стоимость и качество зависят от инженерных деталей.

Три варианта запуска ИИ-проекта

Александр Поломодов предлагает сравнить три сценария развертывания, то есть три способа запустить ИИ-решение в компании и организовать его работу на практике.

Первый сценарий – внешнее API и подписка. Компания покупает доступ к модели как к сервису и платит за потребление. Он дает быстрый запуск, минимальный порог входа и прозрачный биллинг. У этого сценария есть понятный риск – при росте нагрузки счет растет вместе с использованием, и успех может быстро стать дорогим.
Второй сценарий – аренда вычислений в облаке. Это промежуточный вариант между подпиской на внешний сервис и полным self host. Он сохраняет гибкость и снимает часть капитальных затрат, но добавляет эксплуатационную работу и требования к инженерам, которые будут отвечать за стабильность и масштабирование.

Суть проста: компания не покупает железо, а берет вычисления у провайдера и платит за время использования. «Мы можем арендовать GPU (это мощный вычислительный ресурс) в облаке. То есть вы можете не покупать железяку сами. Вы можете ее арендовать», — подчеркивает эксперт. Важная деталь в том, что такой подход часто дает гранулярность. Ресурсы можно включать и выключать по мере необходимости, а не держать их постоянно в работе. Это удобно на этапе пилота, когда нагрузка еще неустойчива и бизнес проверяет, имеет ли смысл масштабирование.

При этом у сценария есть и обратная сторона. При стабильной высокой загрузке аренда нередко обходится дороже, чем self host, но именно поэтому этот вариант и называют промежуточным. Он выигрывает там, где компании нужно быстро запуститься без закупок и при этом сохранить контроль над контуром. Ограничение тоже важно проговорить заранее, арендованное железо все равно нужно сопровождать, следить за утилизацией, мониторингом и масштабированием, а еще учитывать зависимость от того, есть ли у провайдера нужный тип ресурсов в нужном объеме именно тогда, когда он понадобится.

Третий сценарий – self host. Вы покупаете свое железо и крутите модель у себя или в коллокации. Это дороже на старте и требует зрелой инженерной дисциплины, но при стабильной высокой нагрузке может стать экономически выгоднее и дает максимум контроля над данными и безопасностью. Спикер называет порядок затрат прямо. «Если мы хотим 14B крутить, мы там попадаем уже на сумму от 100 до 200 тысяч долларов. Если хотим 32B модель крутить, она в полтора раза больше требует железа, то расходы от 200 до 350». В этой точке важно не сравнение цифр, а вывод: Self host имеет смысл только тогда, когда компания понимает нагрузку, требования к данным и уровень рисков.

И в этот момент для руководителя меняется оптика. Речь уже не о том, нужен ли ИИ, а о том, какой сценарий мы автоматизируем, сколько стоит единица результата и где проходит граница экономической целесообразности. По словам Александра Поломодова, универсального ответа не будет: «смысл примера в том, что it depends, как в архитектуре», и поэтому итоговая стоимость зависит от того, как устроены промпты, контекст и история диалога, и от того, какой именно бот вы строите.

Команда проекта: какие роли критичны именно сейчас

Часть задач, которые раньше требовали отдельной команды для обучения моделей, сегодня можно упростить. Александр формулирует это как сжатие контура: «Раньше тебе нужна была целая ML команда, данные готовить, тренировать модель, сходить за метриками. Сейчас ты просто говоришь, вот данные, сделай что-то в foundational-моделе».

Но это не означает, что проект можно делать без команды. Меняется состав компетенций: на первый план выходят постановка задачи, интеграции, контроль качества, безопасность, мониторинг и управление стоимостью. То есть роли становятся ближе к продукту и платформе, чем к исследовательской разработке.

Риски, безопасность и контроль качества как отдельный контур

Генеративные решения требуют отдельного разговора о границах и рисках. Если система взаимодействует с внутренними документами, дает ответы клиентам или помогает инженерам, то контроль качества и защита данных становятся частью архитектуры. Иначе удобный инструмент превращается в источник репутационных и регуляторных потерь.

В итоге сами технологии стали доступнее, но управленческая часть стала жестче. Выигрывает не тот, кто быстрее подключил модель, а тот, кто заранее посчитал экономику, выбрал вариант развертывания под масштаб и риски, и построил дисциплину качества и безопасности вокруг сценария. И это возвращает нас к базовой управленческой рамке: определить, какой процесс автоматизируем, по каким метрикам оцениваем результат и как меняется стоимость решения при росте нагрузки.

Факультет компьютерных наук ВШЭ запускает программу профессиональной переподготовки «ИИ лидеры: бизнес-лаборатория для руководителей»: эксперты из бигтеха, банков и кибербезопасности в формате бизнес-лаборатории помогают изучить аспекты внедрения ИИ в компании: от необходимой инфраструктуры, разработки стратегии и оценки рисков до первых пилотов и масштабирования успешных решений.

Программа создана для тех, кто верит в искусственный интеллект и заинтересован в раскрытии его пользы в своей компании: менеджеров C-level, руководителей департаментов и собственников бизнеса. Старт обучения – сентябрь 2026 г.

Автор: Александра Гуркина, исследователь Проектно-учебной лаборатории экономической журналистики НИУ ВШЭ