DeepSeek и Xiaomi обрушили цены на ИИ-рынке и заставили США нервничать

28.05.2026, 5:37, Бизнес
Теги: Политика, Работа, Технологии

DeepSeek и Xiaomi только что сделали передовые ИИ-модели на 99% дешевле. Американские лаборатории пошли другим путем.

Последовательное снижение цен от ведущих китайских ИИ-лабораторий привело к тому, что их модели теперь стоят лишь малую долю от цены GPT-5.5 и Claude Opus.

В начале этой недели компания DeepSeek объявила, что 75-процентная скидка на модель DeepSeek V4-Pro, срок действия которой подходил к концу, теперь становится постоянной. Вслед за этим их коллеги из китайской ИИ-лаборатории Xiaomi обрушили цены на API своей модели MiMo-V2.5 — скидка для кэшированных входных данных составила до 99%. Две самые мощные ИИ-модели на рынке агрессивно подешевели, в то время как американские лаборатории двинулись в прямо противоположном направлении.

Краткий ликбез для тех, кто не является разработчиком: когда вы используете ChatGPT или Claude в браузере, вы платите фиксированную подписку — или вообще ничего. Но когда компания создает собственный продукт на базе ИИ-модели, она платит за токены (один токен — это примерно три четверти слова). Каждое отправленное сообщение, каждый сгенерированный ответ, каждый обработанный документ — всё это суммируется, и счет идет на миллионы токенов.

API — это базовая инфраструктура, которая делает всё это возможным. Она позволяет приложению, ИИ-агенту или веб-сайту использовать модель в собственной среде. Именно поэтому стоимость токенов определяет: будет ли продукт на базе ИИ экономически рентабельным, или он превратится в финансовую черную дыру.

Тарифные планы на токены — это, по сути, подписка поверх этой инфраструктуры. Вы покупаете кредиты авансом, а модель их постепенно «сжигает». Недавнее обновление биллинга от Xiaomi дает пользователям в 5–8 раз больше токенов за те же деньги. Тариф Max за $100 теперь включает 82 миллиарда токенов (раньше было всего 1,6 млрд).

Для понимания масштабов: 82 миллиарда токенов — это более 60 миллиардов слов.

Почему это реальное снижение цен, а не маркетинг

Фули Ло, руководитель команды MiMo в Xiaomi и в прошлом один из ключевых разработчиков DeepSeek (он участвовал в создании DeepSeek-V2), опубликовал техническое объяснение в соцсети X. Главный источник экономии кроется в более умном подходе к хранению и повторному использованию информации, которую ИИ уже обработал. Вместо того чтобы раз за разом выполнять одну и ту же работу, система Xiaomi способна держать в памяти гораздо больше данных одновременно — примерно в пять раз больше, чем раньше. Это означает, что ИИ требуется значительно меньше вычислительных мощностей, что снижает затраты на вычисления и хранение на 80%.

— Работая по этим новым, сниженным API-тарифам, наш движок инференса загружен почти на полную мощность, и при этом мы по-прежнему способны выходить в ноль, — пишет Ло. — Если в индустрии будет появляться больше архитектур, экономящих вычисления и KV-кэш, вкупе с улучшенной инфраструктурой инференса для снижения стоимости API, это запустит превосходный благотворный цикл на всем рынке.

Архитектура DeepSeek достигает того же результата, но другим путем. В V4 используются два чередующихся типа механизма внимания (attention): один сжимает каждые четыре токена для селективного внимания, а другой агрегирует каждые 128 токенов для удержания глобального контекста при минимальных вычислениях. При контекстном окне в один миллион токенов размер KV-кэша в V4-Pro составляет всего 10% от размера кэша предшественника, а инференс одного токена требует лишь 27% от прошлых вычислительных затрат.

В результате мы получаем модель, которая на 98% дешевле, чем GPT-5.5 Pro, при абсолютно конкурентоспособной производительности.

Ставка Кремниевой долины

Claude Opus 4.7 обходится в $5 за миллион токенов на ввод (input) и $25 за миллион на вывод (output). Компания Anthropic не стала повышать базовые расценки, но внедрила новый токенизатор, который может генерировать на 35% больше токенов на тот же объем входного текста. Так что формально цена не выросла. А вот ваш итоговый счет — может.

Модель GPT-5.5, выпущенная в конце апреля, просто удвоила стоимость вывода по сравнению с предшественником — до $30 за миллион токенов. Gemini 2.5 Pro держится на уровне $1.25 за ввод и $10 за вывод (что считается дешевым по американским меркам).

DeepSeek V4-Pro — это модель с 1,6 трлн параметров. Она предоставляет вам базу знаний гигантской нейросети за малую долю от ее реальной вычислительной стоимости. Теперь она на постоянной основе стоит $0.435 за ввод и $0.87 за вывод (за миллион токенов). И это модель, которая набрала 80.6% в бенчмарке SWE-Verified против 80.8% у Claude Opus 4.6 (к слову, этот бенчмарк измеряет способность ИИ решать реальные задачи на GitHub, а не тщательно отобранные маркетологами примеры). Разрыв в цене между моделями с практически одинаковым навыком программирования поражает: DeepSeek дешевле на выводе в 34 раза.

MiMo-V2.5-Pro от Xiaomi после новых сокращений сравнялась с этим показателем: $0.435 / $0.87 за миллион токенов. Но при попадании в кэш цена падает до микроскопических $0.0036. Для сравнения: в пересчете на токены это дешевле, чем большинство людей платят за каждый символ в обычном SMS.

DeepSeek и Xiaomi не одиноки

Эти колоссальные скидки пришлись на рынок, где китайские модели и до этого были значительно дешевле конкурентов. Модель MiniMax M2.7, которая (по данным Artificial Analysis) идет ноздря в ноздрю с Claude Opus в бенчмарках по программированию, стоит $0.30 за ввод и $1.20 за вывод миллиона токенов — это около 5% от стоимости вывода Opus 4.7.

Kimi K2.5 от Moonshot AI (76.8% в бенчмарке SWE-bench Verified) обходится в $0.60 за ввод и $2.50 за вывод. Модель GLM-5.1 от Z.AI еще в начале этого квартала обошла Claude Opus 4.6 в ключевом бенчмарке по кодингу. В начале мая, всего за 12 дней, на рынок вышли четыре передовые китайские модели — и все они стоят менее трети от цены за токен у Opus 4.7.

Разрыв между передовыми китайскими и американскими моделями во втором квартале 2026 года составляет 15–30 раз (в зависимости от того, какие модели сравнивать). И это базовая разница, без учета скидок на кэширование.

Снижение цен, произошедшее на этой неделе, еще сильнее сокращает этот разрыв для специфических рабочих нагрузок, которые реально крутятся в продакшене: ИИ-агенты со стабильными системными промптами, обработчики документов, инструменты поиска данных (RAG) — то есть всё, что постоянно обращается к кэшу. При цене $0.003625 за миллион кэшированных входных токенов затраты DeepSeek V4-Pro на обработку повторяющегося контекста фактически превращаются в статистическую погрешность.

Примечания:

О термине «инференс» (inference): Это процесс, при котором уже обученная модель обрабатывает новые данные и выдает результат (в отличие от «тренировки» / training).
О KV-кеше (Key-Value cache): Это технический механизм, используемый в трансформерных моделях. При обработке последовательности токенов модель вычисляет ключи (keys) и значения (values) для каждого токена и сохраняет их в кеш-памяти, чтобы не пересчитывать заново при генерации каждого следующего токена. Это — один из главных потребителей памяти при инференсе, и именно его оптимизация дала Xiaomi и DeepSeek столь драматическое снижение затрат.
О SWE-bench Verified: Это эталонный бенчмарк для оценки способности ИИ-моделей решать реальные задачи программирования, взятые с GitHub. В отличие от многих синтетических тестов, он измеряет практическую пользу, а не академические показатели. Разрыв между моделями с практически одинаковым результатом на этом бенчмарке — 34-кратный по цене, это убийственный аргумент в пользу китайских моделей для бизнес-применения.
О «токене»: В реальности токенизация сложнее: например, слово «невероятный» может быть разбито на два-три токена, а распространенный английский артикль «the» — это один токен.
О «кеш-попадании» (cache hit): Когда приложение многократно отправляет модели один и тот же контекст (например, системный промпт агента), модель может не обрабатывать его заново, а взять уже готовые вычисления из кеша. Именно за это Xiaomi берет $0,0036 за миллион токенов — это практически бесплатно в масштабах индустрии.
О MiniMax, Moonshot AI и Z.AI: Nри ведущие китайские ИИ-лаборатории, менее известные широкой публике, чем DeepSeek, но составляющие серьезную конкуренцию западным гигантам. И это сигнал: ценовая война идет не между двумя игроками, а между целой когортой китайских компаний и американскими мейджорами.
Об экономическом контексте: Разрыв в 15–30 крат по стоимости при сопоставимом качестве означает, что любой стартап или компания, выбирающая между американским и китайским API, принимает чисто экономическое решение — и оно почти всегда будет в пользу китайских моделей. Это меняет весь ландшафт AI-индустрии.

Рекомендации для погружения в тему:

Аналитический ресурс Artificial Analysis (artificialanalysis.ai) — независимый бенчмарк, отличный источник для сравнения моделей по качеству и стоимости.
Статья «DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model» (2024) — техническое описание архитектурных инноваций, позволивших достичь такой экономии.
Подкаст The Cognitive Revolution с Натаном Лабенцем — регулярные обсуждения экономики AI-инференса, ценовых войн и архитектурных прорывов.

Смотреть комментарии → Комментариев нет

Добавить комментарий


Имя обязательно	E-mail обязательно

Нажимая на кнопку "Отправить", я соглашаюсь c политикой обработки персональных данных. Комментарий c активными интернет-ссылками (http / www) автоматически помечается как spam