Правительство США утверждает, что лучшие китайские ИИ-модели отстают от американских. Эксперты в этом сомневаются
CAISI при Национальном институте стандартов и технологий (NIST) оценил модель DeepSeek V4 Pro с использованием закрытых бенчмарков и фильтра стоимости, и китайский ИИ уступил всем американским моделям, кроме GPT-5.4 mini.
Критики называют такую методологию «удобной».
Американский государственный институт вынес свой вердикт относительно самой мощной китайской модели ИИ: отставание составляет восемь месяцев, и чем дальше, тем этот разрыв шире. Пользователи ознакомились с методологией — и начали задавать вопросы.
CAISI (Центр инноваций в области стандартов ИИ — подразделение при NIST) опубликовал результаты оценки модели DeepSeek V4 Pro 1 мая. Вывод: флагманская модель DeepSeek с открытыми весами «отстаёт от передового рубежа примерно на 8 месяцев».
При этом CAISI называет её самой способной из китайских ИИ-моделей, которые институту доводилось оценивать на сегодняшний день.
CAISI не усредняет результаты бенчмарков, как это делают большинство оценщиков. Вместо этого институт применяет теорию ответа на задание (Item Response Theory, IRT) — статистический метод, заимствованный из области стандартизированного тестирования, — чтобы оценить скрытый потенциал каждой модели на основе того, какие задачи она решает, а какие нет. Оценка охватывает девять бенчмарков в пяти предметных областях: кибербезопасность, инженерия программного обеспечения, естественные науки, абстрактное мышление и математика.
Оценочные баллы Elo на основе IRT: GPT-5.5 — 1 260 баллов, Claude Opus 4.6 от Anthropic — 999. DeepSeek V4 Pro набирает около 800 (±28), что очень близко к показателю GPT-5.4 mini — 749. В системе CAISI DeepSeek располагается ближе к старому поколению «миниатюрных» моделей GPT, нежели к Opus.
Балльная система бенчмарков оценивает модели так же, как стандартизированные тесты оценивают студентов: не по проценту правильных ответов, а с учётом веса каждой задачи — в зависимости от того, какие из них модель решила, а какие пропустила. В результате формируется балльная оценка, имеющая смысл лишь в сравнении с другими моделями в рамках одной и той же оценочной системы. Чем больше баллов, тем модель в целом сильнее, а результат лучшей модели становится точкой отсчёта для определения уровня остальных.
Воспроизвести результаты CAISI невозможно, поскольку два из девяти бенчмарков являются закрытыми — и именно на этих двух разрыв оказывается наибольшим. Например, GPT-5.5 набрал 71% на CTF-Archive-Diamond — одном из тестов по кибербезопасности, — тогда как DeepSeek показал лишь около 32%.
На открытых бенчмарках картина выглядит иначе. GPQA-Diamond — тест на научное мышление уровня PhD, оцениваемый в процентах правильных ответов — поставил DeepSeek на 90%, всего на один процентный пункт позади Opus 4.6 (91%). На математических олимпиадных бенчмарках (OTIS-AIME-2025, PUMaC 2024, SMT 2025) DeepSeek показал 97%, 96% и 96% соответственно. На SWE-Bench Verified — тесте на исправление реальных багов из GitHub, оцениваемом в процентах решённых задач — DeepSeek набрал 74% против 81% у GPT-5.5. В собственном техническом отчёте DeepSeek утверждается, что V4 Pro сопоставима с Opus 4.6 и GPT-5.4.
Для сравнения по стоимости CAISI отфильтровал все американские модели, которые либо значительно уступали DeepSeek по производительности, либо значительно превосходили его по стоимости за токен. Единственная модель, прошедшая этот отсев, — GPT-5.4 mini. Вот и весь американский «передовой рубеж», сведённый к единственному пункту.
DeepSeek оказался дешевле на пяти из семи бенчмарков, обойдя даже самую миниатюрную и наименее способную модель ИИ от OpenAI.
Критика методологии CAISI, впрочем, не означает полного оправдания DeepSeek. Разработчик ИИ, скрывающийся под псевдонимом Ex0bit, возражает прямо: «Никакого «разрыва» нет, и никто не отстаёт на 8 месяцев. Нас троллили при каждом закрытом релизе американских компаний и кичились перед нами открытыми весами».
Индекс интеллекта Artificial Analysis v4.0 — система рейтингов, отслеживающая уровень интеллекта передовых моделей по десяти оценочным критериям — показывает, что по состоянию на май 2026 года OpenAI находится в районе 60 баллов, а DeepSeek — в районе 50 с небольшим; разрыв между ними значительно сжался по сравнению с прошлым годом.
На основании стандартизированных бенчмарков их собственная методология показывает, что разрыв на самом деле сокращается.
Когда DeepSeek впервые появился в январе 2025 года, главный вопрос звучал так: удалось ли Китаю уже догнать лидеров? Американские лаборатории бросились искать ответ. Стэнфордский индекс ИИ за 2026 год, опубликованный 13 апреля, сообщает: разрыв между Claude Opus 4.6 и китайской моделью Dola-Seed-2.0 Preview на арене-лидерборде сужается и теперь составляет всего 2,7%.
CAISI планирует в ближайшем будущем опубликовать более подробное описание методологии IRT.
Примечания:
- Об общей картине. CAISI применил закрытые бенчмарки, на которых разрыв максимален; отфильтровал все американские модели, кроме одной; и при этом на открытых тестах картина выглядит принципиально иначе.
- Item Response Theory (IRT). Теория ответа на задание — действительно уважаемый статистический аппарат, широко применяемый в психометрике (например, в тестах GRE, SAT). Однако его корректность напрямую зависит от выборки заданий. Если два из девяти бенчмарков закрыты и именно на них наблюдается наибольший разрыв — воспроизводимость и объективность оценки ставятся под вопрос. Это принципиальный методологический упрёк.
- CTF-Archive-Diamond. CTF (Capture The Flag) — формат соревнований по кибербезопасности. Результат DeepSeek в ~32% против 71% у GPT-5.5 на закрытом бенчмарке выглядит разительно. Однако без доступа к самому тесту невозможно оценить, насколько он репрезентативен и не был ли составлен с учётом специфических сильных сторон определённых моделей.
- GPQA-Diamond. Graduate-Level Google-Proof Q&A — бенчмарк, состоящий из вопросов уровня аспирантуры, на которые невозможно быстро ответить простым поиском в интернете. Один процент отставания от Opus 4.6 — весьма впечатляющий результат для модели с открытыми весами.
- Веса в ИИ (нейросетях) — это числовые коэффициенты (параметры), определяющие силу связи и важность информации между нейронами. Они хранят «опыт» и знания модели, преобразуя входные данные в результат. В процессе обучения веса оптимизируются (настраиваются) для минимизации ошибок прогнозирования.
- SWE-Bench Verified. Тест на способность модели находить и исправлять реальные ошибки в проектах на GitHub. 74% у DeepSeek против 81% у GPT-5.5 — разница существенная, но не катастрофическая. Это один из наиболее практически значимых бенчмарков, поскольку отражает реальную работу разработчика.
- Фильтр стоимости. Решение CAISI исключить все американские модели, кроме GPT-5.4 mini, — самый спорный элемент методологии. Формально фильтр выглядит логично: сравнивать сопоставимые по стоимости решения. Но фактически это означает, что институт сравнивал китайский флагман с одной из самых слабых американских моделей, а затем констатировал «отставание Китая». Логика здесь внутренне противоречива.
- Ex0bit и полемика. Позиция Ex0bit (вероятно, анонимного разработчика из экосистемы DeepSeek) отражает широко распространённую в интернет-сообществе точку зрения: открытые модели демократизируют доступ к передовым технологиям, а гонка бенчмарков — это лишь часть реальности.
- Artificial Analysis Intelligence Index. Независимый рейтинг, который, по данным статьи, показывает сближение моделей, а не расхождение. Это прямо противоречит выводу CAISI о «расширяющемся разрыве».
- Стэнфордский AI Index 2026. Разрыв в 2,7% на Arena-лидерборде между Claude Opus 4.6 и Dola-Seed-2.0 Preview (моделью, не входящей в экосистему DeepSeek, что интересно) свидетельствует о том, что конкуренция идёт на уровне статистической погрешности.
- Рекомендация читателю. Методология CAISI формально безупречна (IRT — признанный инструмент), но выбор входных данных (закрытые бенчмарки, фильтр, оставляющий одну модель) вызывает обоснованные сомнения в объективности. При оценке геополитических заявлений об ИИ всегда полезно задавать вопрос: кто проводил оценку, какие данные выбрал и что именно решил не показывать?