Open-source, on-premise или API — как выбрать модель ИИ для своей компании
Вопрос, который задают все и на который почти никто не отвечает честно
Каждую неделю я слышу один и тот же вопрос от собственников бизнеса: «Нам нужен свой сервер с ИИ? Или можно как-то проще?»
И каждую неделю я вижу, как на этот вопрос отвечают люди, которые зарабатывают на продаже серверов, или на настройке open-source моделей, или на подписке на коммерческие API. Каждый тянет одеяло на себя.
Я попробую ответить честно, как человек, который внедряет ИИ-агентов в компании разного масштаба и видит, что работает на практике, а что нет.
Три подхода к внедрению ИИ и для кого каждый из них
На рынке ИИ сейчас есть три принципиально разных подхода к использованию языковых моделей. Каждый имеет право на жизнь, но для разных компаний.
### Подход первый: open-source на своём сервере
Суть: вы покупаете или арендуете сервер с GPU, устанавливаете на него open-source модель (Qwen, Llama, Mistral) и используете её для своих задач.
Преимущества: данные никуда не уходят, всё обрабатывается внутри вашей инфраструктуры. Нет ежемесячных платежей за токены. Полный контроль над моделью, можно дообучить под свою специфику.
Реальность: сервер с GPU стоит от 500 тысяч до нескольких миллионов рублей. Нужен системный администратор, который будет его обслуживать. Нужен ML-инженер, который будет настраивать и обновлять модели. Нужен бюджет на электричество и обслуживание.
При этом качество open-source моделей на бенчмарках приблизилось к коммерческим: разрыв между лучшими open-source и проприетарными моделями сократился до 1–2% по данным отчёта Menlo Ventures. Но бенчмарки — это лабораторные условия. В реальных бизнес-задачах, где контекст длинный, терминология специфичная и ответ должен быть точным, разница ощущается сильнее.
Для кого: крупные компании с ИТ-отделами, собственной инфраструктурой и жёсткими требованиями к безопасности данных. Банки, телеком, страховые, крупное производство. Компании, у которых миллионы обращений в день и собственная инфраструктура окупается за счёт масштаба.
### Подход второй: лёгкие ML-модели для узких задач
Суть: для простых, массовых задач (классификация обращений, маршрутизация запросов, определение тематики) используются специализированные модели типа ruBERT. Они значительно легче, быстрее и дешевле, чем полноценные языковые модели.
Преимущества: молниеносная скорость отклика (миллисекунды вместо секунд). Минимальные требования к железу, работают на обычном сервере без GPU. Стоимость после настройки стремится к нулю.
Ограничения: решают только узкие, чётко определённые задачи. Не умеют генерировать текст, анализировать длинные документы, вести диалог. Это «хирургический инструмент», один инструмент для одной задачи.
Для кого: компании с высоким потоком однотипных обращений, где нужна мгновенная первичная обработка. Чат-боты первой линии, классификация входящих заявок, определение срочности.
### Подход третий: коммерческие модели через API
Суть: вы подключаете готовые модели (Claude, GPT, Gemini, Mistral) через API и платите за фактическое использование, за объём обработанной информации.
Преимущества: никаких капитальных затрат, ни серверов, ни программистов. Мгновенный старт: подключение за часы, настройка за дни. Доступ к лучшим моделям мира без необходимости их обслуживать. Масштабирование по требованию: нагрузка выросла, система автоматически справляется.
Ограничения: данные передаются на серверы провайдера (хотя все крупные провайдеры гарантируют конфиденциальность и не обучаются на ваших данных). Стоимость растёт с объёмом использования. Зависимость от внешнего провайдера.
Для кого: малый и средний бизнес. Компании на 10–500 человек, у которых нет ИТ-отделов и нет бюджетов на инфраструктуру. А также крупные компании, для задач с высокой ценой ошибки, где нужна максимальная точность.
И вот тут мы подходим к самому интересному: а что реально происходит на рынке?
Что происходит на рынке: цифры и тренды
По данным отчёта Menlo Ventures (декабрь 2025), 87% корпоративных ИИ-задач решается через проприетарные модели по API. Доля open-source в корпоративном секторе снизилась с 19% до 11% за год.
По данным исследования a16z (февраль 2026), 44% крупных предприятий используют Anthropic (Claude) в продакшене. За полгода эта доля выросла на 25%. При этом 80% предприятий уже комфортно работают напрямую с провайдерами моделей, без посредников.
Интересная деталь: стоимость моделей падает стремительно. Claude Opus (флагманская модель Anthropic) подешевела на 67% за одно поколение. GPT от OpenAI показывает аналогичную динамику.
Это означает, что экономический аргумент в пользу собственных серверов становится всё слабее. Если год назад компания с большим объёмом задач могла сэкономить, развернув модель on-premise, то сейчас при снижении цен на API на 60–80% в год порог окупаемости собственной инфраструктуры сдвигается всё выше.
Но вот что поразило меня больше всего.
Я написал руководство по ИИ-агентам для бизнеса — 88 страниц практических рекомендаций, без воды и рекламы. Можно скачать бесплатно. [Скачать →]
Комбинированный подход: как это работает на практике
Лучшие практики сегодня, комбинация. Никто не использует одну модель для всего. Это неэффективно и неоправданно дорого.
Вот как выглядит типичная архитектура у зрелой компании.
Первая линия: быстрая классификация и маршрутизация. Модель ruBERT или аналогичная, развёрнутая локально. Определяет тип обращения за миллисекунды: это жалоба, вопрос, заявка? Техническая проблема, административный вопрос, врачебный случай? Стоимость: практически ноль.
Вторая линия: генерация черновиков и рутинная обработка. Qwen, Mistral или DeepSeek через API или on-premise. Формирование черновика коммерческого предложения, резюме встречи, первичный анализ звонка. Стоимость: копейки за запрос.
Третья линия: сложные задачи с высокой ценой ошибки. Claude или GPT через API. Анализ юридического контракта, подготовка стратегической записки, глубокий разбор финансовой отчётности, диагностика качества управления. Стоимость: рубли или десятки рублей за запрос, но ошибка на таких задачах стоит миллионы, поэтому экономить здесь опасно.
Эта архитектура позволяет оптимизировать затраты: простые задачи не переплачивают за мощность, сложные не экономят на качестве.
Что я рекомендую компаниям на 20–100 человек
Если вы собственник компании малого или среднего бизнеса, ответ для вас, скорее всего, прост: третий подход. API по подписке.
Почему?
Первое: нет капитальных затрат. Сервер за 500 тысяч — это инвестиция, которая при ваших объёмах окупится через 3–5 лет. А при снижении цен на API на 60–80% в год может не окупиться никогда.
Второе: нет необходимости в технической команде. Вам не нужен ML-инженер, не нужен системный администратор для GPU-сервера. Настройку делает интегратор, дальше система работает автономно.
Третье: скорость запуска. От первого разговора до работающего ИИ-агента. Две-три недели. Не месяцы, не полгода.
Четвёртое: предсказуемая стоимость. Вы платите фиксированную подписку за каждый автоматизированный процесс. Никаких сюрпризов, никаких скрытых расходов.
При этом вам как собственнику не нужно разбираться в моделях. Чем Claude отличается от Qwen, чем GPT отличается от Mistral — это задача интегратора. Вы описываете бизнес-задачу. Интегратор подбирает модель, настраивает агента, запускает процесс. Вы видите результат.
Когда стоит задуматься о собственной инфраструктуре
Есть три ситуации, когда on-premise может быть оправдан.
Первая: регуляторные требования. Если ваша отрасль запрещает передачу данных на внешние серверы (некоторые виды банковской деятельности, оборонка, государственные структуры). Но для большинства коммерческих компаний в России таких ограничений нет.
Вторая: очень большой объём. Если вы обрабатываете миллионы запросов в день и стоимость API становится сравнимой со стоимостью содержания собственного сервера. Для компании на 20–100 человек такой объём практически невозможен.
Третья: необходимость дообучения модели. Если вашей задаче нужна модель, специально натренированная на ваших данных (медицинских, юридических, инженерных). Это сложный и дорогой процесс, который оправдан только при очень специфических требованиях.
Если ни одна из этих ситуаций не ваша, то API, ваш путь.
Ошибки, которые я вижу при выборе подхода
Первая ошибка: «Надо сначала попробовать бесплатное.» Собственник слышит про open-source, скачивает Qwen или Llama на ноутбук, пытается запустить, сталкивается с техническими сложностями, тратит недели, не получает результата и решает, что «ИИ — это хайп». На самом деле он просто выбрал не тот подход для своего масштаба.
Вторая ошибка: «Мы наймём программиста, и он всё настроит.» Программист — не ML-инженер. Настроить ИИ-агента для бизнес-задачи — это не только код. Это понимание процесса, правильная постановка задачи для модели, тестирование на реальных данных, итерации. Это компетенция интегратора, а не разработчика.
Третья ошибка: «Одна модель на всё.» Компания покупает подписку на ChatGPT и пытается решать через неё все задачи, от ответа на звонки до анализа контрактов. Это как нанять финансового директора и поручить ему отвечать на звонки. Работать будет, но стоимость неадекватная.
Если вы сейчас на этапе выбора, не повторяйте эти ошибки. Начните с задачи, а не с технологии.
Заключение: думайте о задаче, а не о модели
Выбор модели ИИ — это не технологический, а управленческий вопрос. Начинайте с задачи: что именно вы хотите автоматизировать? Какой объём? Какая цена ошибки? Какие данные обрабатываются?
От ответов на эти вопросы зависит выбор подхода, а модель подберётся сама.
Для большинства компаний малого и среднего бизнеса ответ сегодня, API по подписке. Быстро, доступно, без капитальных затрат. Интегратор подбирает модель, вы решаете задачу.
Через год или два, когда ИИ станет ещё дешевле и ещё мощнее, этот ответ может измениться. Но сейчас, начинайте с простого. Главное, начать.
Если хотите обсудить, как это может выглядеть в вашей компании, напишите мне.