OpenAI выпускает GPT-5.5: быстрее, умнее — и дороже
Новейшая модель OpenAI соответствует скорости GPT-5.4, превосходя её почти по всем бенчмаркам. Она уже доступна платным пользователям ChatGPT.
OpenAI запустила GPT-5.5, позиционируя её по сути как модель, ориентированную на агентское управление компьютером. Она пишет и отлаживает код, бродит по интернету, заполняет таблицы и продолжает работать над многошаговыми задачами, не требуя, чтобы человек присматривал за каждым действием.
Релиз уже поэтапно распространяется для подписчиков Plus, Pro, Business и Enterprise через ChatGPT и Codex, сообщила OpenAI.
— Мы выпускаем GPT-5.5 — нашу самую умную и интуитивно понятную модель на сегодняшний день, — говорится в пресс-релизе. — Это следующий шаг к новому способу работать за компьютером. Особенно значительные улучшения достигнуты в области агентского программирования, управления компьютером, интеллектуальной работы и начальных этапов научных исследований — сферах, где прогресс зависит от рассуждения в контексте и совершения действий во времени.
Главный посыл от OpenAI: GPT-5.5 ощутимо умнее своей предшественницы, GPT-5.4 — и при этом не медленнее. Совпадение с GPT-5.4 по задержке на токен при реальном обслуживании при более высоких результатах по бенчмаркам — тот тип повышения эффективности, который обычно не происходит. Более крупные модели, как правило, медленнее на том же оборудовании.
На Terminal-Bench 2.0 — бенчмарке, тестирующем, как модель справляется со сложными рабочими процессами командной строки, требующими планирования и итеративного использования инструментов, — GPT-5.5 набирает 82,7%. Claude Opus 4.7 показывает 69,4%, а Gemini 3.1 Pro — 68,5%. Это не маргинальное преимущество.
На GDPval — бенчмарке, тестирующем интеллектуальную работу по 44 реальным профессиям: от финансов и юридических исследований до управления продуктами, — GPT-5.5 соответствует или превосходит профессионалов отрасли в 84,9% сравнений.
Модель также весьма неплохо программирует, как и ожидалось. На Expert-SWE — внутреннем бенчмарке для задач длительного горизонта со средним оценочным временем выполнения человеком в 20 часов, — GPT-5.5 превосходит GPT-5.4. На SWE-Bench Pro, оценивающем решение реальных проблем с GitHub, она достигает 58,6%. Claude Opus 4.7 показывает выше — 64,3%, но OpenAI утверждает, что это может объясняться тем, что «Anthropic сообщила о признаках запоминания на части задач».
Релиз выходит на рынок, который стремительно движется после бума агентного ИИ. GPT-5.4 появилась всего через два дня после GPT-5.3, а Xiaomi прошла путь от MiMo-V2-Pro до MiMo 2.5 Pro — с полноценными мультимодальными возможностями — примерно за пять недель. Разрыв между GPT-5.4 и GPT-5.5 составил около семи недель. Таков нынешний темп.
Но изменит ли эта модель что-то для повседневных пользователей, которые не всегда пишут код следующего великого продукта? Если вы на бесплатном тарифе — нет: GPT-5.5 не будет доступна бесплатным пользователям. Если вы платите за Plus по $20 в месяц — модель появляется сегодня. Мы попробовали протестировать её под нашим Pro-аккаунтом, но модель сразу не появилась.
Более важным, вероятно, является то, что GPT-5.5 делает внутри Codex — агентской среды программирования от OpenAI, — где она доказала свою повышенную мощность. «Честное слово, ощущение такое, будто работаешь с более высоким интеллектом, и возникает почти что чувство уважения», — сказал Пьетро Ширано, генеральный директор MagicPath, в цитате, распространённой OpenAI.
GPT-5.5 Pro, предназначенная для более сложной работы с повышенной точностью, поэтапно распространяется среди подписчиков Pro, Business и Enterprise в ChatGPT. На BrowseComp — бенчмарке, тестирующем способность модели отыскивать труднонаходимую информацию в интернете, — GPT-5.5 Pro набирает 90,1%, опережая Gemini 3.1 Pro с 85,9%.
Модель также является самой умной в среднем по индексу Artificial Analysis Index. GPT-5.5 демонстрирует более эффективное и полезное использование токенов, выдавая лучшие результаты в целом.
Впрочем, цены могут шокировать некоторых пользователей. API будет стоить $5 за миллион входных токенов и $30 за миллион выходных токенов при запуске, который, по словам OpenAI, произойдёт «очень скоро». GPT-5.5 Pro в API обойдётся в $30 за миллион входных токенов и $180 за миллион выходных.
Эти цифры выше, чем у GPT-5.4 — $2,50 за миллион входных токенов и $15,00 за миллион выходных, — тогда как цены на GPT-5.5 Pro остаются на уровне GPT-5.4 Pro.
Тем не менее генеральный директор OpenAI Сэм Альтман утверждал в X, что выигрыш в токен-эффективности компенсирует затраты: GPT-5.5 выполняет те же задачи в Codex с меньшим количеством токенов, а значит, запуски обходятся дешевле даже при более высокой цене за токен.
Только для сравнения: Xiaomi MiMo v2.5 Pro берёт $1 и $3 за миллион входных и выходных токенов соответственно, Minimax M2.7 — $0,30 и $1,20, а Kimi K2.5 требует $0,44 и $2,00 за миллион токенов.
Ключевые понятия:
- Агентский ИИ (agentic AI) — способность модели не просто отвечать на вопросы, а самостоятельно выполнять многошаговые задачи: писать код, управлять браузером, заполнять документы, принимать решения. Это главный тренд 2025 года.
- Токен-эффективность — количество токенов, которое модель расходует для достижения результата. Чем эффективнее модель, тем дешевле её эксплуатация при том же качестве.
- Codex — агентная среда программирования от OpenAI, позволяющая модели автономно писать, отлаживать и тестировать код.
- SWE-Bench Pro — один из самых престижных бенчмарков: модель должна исправить реальные баги в реальных проектах на GitHub.
- BrowseComp — бенчмарк, тестирующий способность модели находить редкую, труднонаходимую информацию в интернете.
- GDPval — бенчмарк, оценивающий качество работы ИИ по сравнению с профессионалами в 44 реальных профессиях.
- Artificial Analysis Index — независимый агрегированный рейтинг ИИ-моделей по совокупности показателей.
Ценовой анализ:
Разница между GPT-5.5 Pro и MiMo v2.5 Pro — 30x на входе и 60x на выходе. Это колоссальный разрыв, который ставит под сомнение утверждение Альтмана о том, что токен-эффективность «компенсирует» цену.
Темп релизов:
От GPT-5.3 до GPT-5.5 прошло около двух месяцев, от MiMo-V2-Pro до MiMo 2.5 Pro — около пяти недель. Это свидетельство жёсткой конкурентной борьбы, в которой каждая компания стремится не отстать.
Спорный момент с SWE-Bench:
OpenAI намекает, что более высокий результат Claude Opus 4.7 на SWE-Bench Pro может объясняться «запоминанием» — то есть тем, что модель могла частично запомнить решения задач из тренировочных данных. Это серьёзное обвинение, которое Anthropic не прокомментировала. В индустрии дискуссия о «contamination» (загрязнении) бенчмарков — одна из самых острых.
Прогноз:
GPT-5.5, вероятно, укрепит позиции OpenAI в корпоративном сегменте, где цена менее критична, а важны точность и надёжность. Однако для массового рынка и разработчиков, работающих в масштабе, китайские модели (MiMo, Kimi, Minimax) остаются значительно более привлекательными по соотношению цена/качество.