Claude Opus 4.8 — новая ИИ-модель стала умнее и безопаснее, но цены всё еще кусаются - Такое кино
 

Claude Opus 4.8 — новая ИИ-модель стала умнее и безопаснее, но цены всё еще кусаются

29.05.2026, 5:49, Технологии
Теги: ,

Claude Opus 4.8 от Anthropic уже здесь: ИИ стал лучше кодить и безопаснее, но гигантская цена не изменилась.

Новейшая флагманская ИИ-модель Claude Opus 4.8 от Anthropic получила улучшенное логическое мышление, более строгие настройки безопасности, но сохранила прежний ценник.

Шесть недель. Именно столько времени понадобилось Anthropic, чтобы перейти от модели Opus 4.7 к Opus 4.8.

Новая модель стала быстрее и умнее в бенчмарках, а также обзавелась набором новых функций, — однако цены не сдвинулись ни на цент: это всё те же 5 долларов за миллион токенов на ввод и 25 долларов за миллион на вывод.

Появился также «быстрый режим» (fast mode), который запускает ту же модель на скорости в 2,5 раза выше, но уже за 10 долларов на ввод и колоссальные 50 долларов на вывод за миллион токенов. В Anthropic заявляют, что этот тариф теперь в три раза дешевле, чем быстрый режим в предыдущих версиях. Это весьма изящный способ сказать, что раньше эта опция стоила просто космических денег.

SWE-bench Pro — вероятно, самый важный бенчмарк, за которым стоит следить, чтобы понять реальный уровень этой модели. Он измеряет способность ИИ решать сложные, мультиязычные задачи в области программной инженерии, взятые из реальных рабочих баз кода (оценивается процент успешно пройденных тестов).

В этом испытании Opus 4.8 достиг показателя в 69,2% (против 64,3% у Opus 4.7). Для сравнения: GPT-5.5 от OpenAI набрал 58,6%, а Gemini 3.1 Pro от Google отстал с 54,2%. Для модели из этой ценовой категории это весьма существенный скачок.

В тесте Humanity’s Last Exam («Последний экзамен человечества»), состоящем из вопросов экспертного уровня по десяткам академических дисциплин, Opus 4.8 набрал 49,8% правильных ответов без использования внешних инструментов и 57,9% с ними, опередив всех трех конкурентов. В бенчмарке OSWorld-Verified, тестирующем выполнение реальных компьютерных задач (вроде навигации по интерфейсам ПО), результат составил 83,4%, слегка обойдя Opus 4.7 (82,8%).

Единственное поражение: Terminal-Bench 2.1, который измеряет производительность ИИ при работе в командной строке. Здесь лидирует GPT-5.5 с 78,2%, тогда как Opus 4.8 набирает 74,6%. Да, это лучше, чем 66,1% у Opus 4.7, и выше, чем 70,3% у Gemini, но второе место — это в конечном счете всё равно проигрыш.

Пять способов «мыслить»

Теперь Anthropic позволяет пользователям контролировать, насколько усердно модель будет «думать». Уровень «Высокий» (High) установлен по умолчанию и отлично справляется с большинством задач. Уровень «Экстра» (или xhigh внутри Claude Code) тратит больше вычислительных мощностей на сложные проблемы. «Максимальный» (Max) — это полное погружение в глубины расчетов. А уровни «Низкий» (Low) и «Средний» (Medium) выделяют на ту же задачу меньше токенов, экономя время в обмен на легкое снижение точности.

Регулятор усилий расположен рядом с селектором моделей в claude.ai и Cowork, и доступен на всех тарифах. Anthropic утверждает, что стандартный уровень High расходует примерно столько же токенов, сколько базовый режим Opus 4.7, но выдает лучшие результаты. Это либо впечатляющая инженерная работа, либо отличный маркетинг, а вероятнее всего — и то, и другое.

При этом важно помнить: новый токенизатор Anthropic для серии Opus расходует больше токенов на каждую задачу. Поэтому пользователи неминуемо будут «сжигать» гораздо больше денег, если выберут Opus вместо Claude Sonnet — менее мощной модели, которой всё же вполне достаточно для повседневных задач и тех проблем, что не дотягивают до уровня передовой науки или сложнейшего кодинга.

Лимиты запросов в Claude Code также были повышены, чтобы компенсировать возросший расход токенов на настройках «Экстра» и «Максимум».

Почти так же безопасна, как Claude Mythos

Команда Anthropic по «выравниванию» (alignment) ИИ заявила, что Opus 4.8 «достигает новых высот в показателях просоциальных черт, таких как поддержка автономии пользователя и действие в его интересах». Если говорить конкретнее: уровень обмана и готовности ИИ сотрудничать во вредоносных целях оказался существенно ниже, чем у Opus 4.7, и почти сравнялся с показателями Claude Mythos Preview — самой жестко заблокированной и защищенной модели компании.

Opus 4.8 также в четыре раза реже, чем 4.7, пропускает ошибки в собственном коде, не помечая их.

Сравнение с Mythos требует пояснений. Mythos — это совершенно другой уровень, который Anthropic описывает как «более масштабный и интеллектуальный, чем наши модели Opus». На данный момент она существует только в виде превью и доступна лишь горстке проверенных организаций, занимающихся кибербезопасностью через Project Glasswing.

Британский Институт безопасности ИИ выяснил, что модель способна абсолютно автономно выполнить «The Last Ones» — симуляцию 32-этапной атаки на корпоративную сеть, на которую у живых специалистов «красных команд» (red teams) обычно уходит около 20 часов. Именно поэтому она пока не продается. В Anthropic обещают усилить киберзащиту и открыть доступ к моделям класса Mythos для всех «в ближайшие недели».

Еще одно сегодняшнее нововведение — динамические рабочие процессы (dynamic workflows) в Claude Code (пока в статусе исследовательского превью). Эта функция позволяет Claude самостоятельно писать скрипты оркестрации, запускать параллельных ИИ-субагентов в рамках одной сессии, проверять их результаты и составлять итоговый отчет — в точности то, что модель Hermes делает уже некоторое время. Функция доступна на тарифах Enterprise, Team и Max, и Anthropic честно предупреждает: такие процессы сжигают значительно больше токенов, чем стандартная сессия в Claude Code.

Увеличивающийся ценовой разрыв

Расценки Anthropic $5/$25 выглядят особенно странно на фоне того, что в последнее время делает Китай.

На прошлой неделе DeepSeek V4 Pro сделал свою 75-процентную скидку постоянной: $0.435 за миллион токенов на ввод и $0.87 на вывод. Модель Xiaomi MiMo V2.5 Pro работает по таким же тарифам через провайдеров вроде OpenRouter.

Быстрый режим Anthropic обходится в $10 на ввод и $50 на вывод за миллион токенов — это дороже, чем сама стандартная Opus 4.8, и примерно в 57 раз дороже (в пересчете на токены вывода), чем DeepSeek V4 Pro. Корпорации уже тратят миллионы долларов на инференс американских моделей. Дайте своим сотрудникам полный доступ к Opus, и бюджет вашего предприятия улетит в стратосферу крайне быстро.

Ответ Anthropic на этот ценовой разрыв звучит так: качество и безопасность. В бенчмарке SWE-bench Pro модель Opus 4.8 обходит обоих китайских конкурентов. А что касается безопасности (alignment), ни одна из них даже близко не подходит к заявленным показателям Anthropic.

Эти факторы имеют критическое значение в корпоративной среде, где модель, покорно выполняющая вредоносные инструкции, представляет реальную угрозу. В регулируемых отраслях, юридической практике и любых сферах, где отмазка «вроде всё выглядело нормально» не прокатит при расследовании инцидентов, безопасность решает всё. Но для всех остальных этот ценовой разрыв игнорировать крайне сложно.

Тест от Decrypt

В издании запустили быстрый кодинг-тест — задание создать 3D-игру про зомби, — чтобы посмотреть, как Claude Opus 4.8 выглядит на фоне ChatGPT и DeepSeek, своих, пожалуй, самых популярных конкурентов из США и Китая. Они выставили Opus 4.8 на стандартный «Высокий» (High), GPT-5.5 — на высокое усилие, и DeepSeek V4 Pro — тоже на высокое усилие. Три модели, один промпт, без повторных попыток.

GPT-5.5 финишировал первым. Его игра: ни визуала зомби, ни звуковых эффектов. Быстро? Да. Но мимо задания — полностью.

DeepSeek V4 Pro пришел вторым: управление мышью, настоящие персонажи-зомби, звуковые эффекты, добротная механика и чистый визуальный стиль. Никаких претензий.

Opus 4.8 потребовалось примерно втрое больше времени, чем GPT-5.5, но он выдал лучший загрузочный экран, лучший дизайн зомби, лучшую игровую механику и приличные звуковые эффекты. Медленнее всех — но результат лучший. И все же, учитывая колоссальный разрыв в цене, этого, вероятно, недостаточно, чтобы оправдать его использование вместо DeepSeek.

Все игры доступны на  профиле Decrypt на Itch.io. GPT-5.5 сгенерировал Zombie Typing, Opus — Typing Dead, а DeepSeek v4 Pro — игру без названия, которая бросает вас прямо в гущу действия.

Первый вывод: Claude Opus 4.8 кодирует лучше, чем GPT-5.5 и Opus 4.7, для такого типа задач — и за ту же цену, которую Anthropic держит со времен 4.7. Разработчики, уже платившие $5 за миллион токенов, только что получили модель получше бесплатно.

Примечания:

  1. О Decrypt и их методологии: Это ведущее издание на стыке технологий и криптомира, известное скептическим, независимым подходом. Их тестирование AI-моделей не является лабораторно-академическим, но именно этим и ценно: они моделируют реальный пользовательский сценарий. Факт, что они дали всем моделям один и тот же промпт без права на вторую попытку — это честный, почти спортивный подход.
  2. О SWE-bench Pro: Это «золотой стандарт» оценки реальных способностей AI к программированию. В отличие от многих синтетических тестов, здесь задачи берутся из реальных issues на GitHub: модель должна понять проблему, найти нужные файлы в кодовой базе и предложить исправление. Результат Opus 4.8 (69,2%) означает, что в 7 случаях из 10 модель способна решить боевую задачу без помощи человека.
  3. О Humanity’s Last Exam: Этот бенчмарк был создан как «последний экзамен человечества» специально для того, чтобы модели не могли сдать его на 100%, — вопросы пишутся экспертами из десятков научных дисциплин. Результат 57,9% — это очень серьезно. Он означает, что модель уже сейчас проходит этот тест лучше, чем половина подготовленных людей-специалистов.
  4. О Claude Mythos и Project Glasswing: Это критически важный контекст для понимания стратегии Anthropic. Mythos — модель, настолько мощная и потенциально опасная, что компания добровольно ограничила ее распространение. Тест, о котором идет речь, — это автономный взлом корпоративной сети за 20 минут, на который у живых пентестеров уходят часы. Параллель с Opus 4.8 в том, что даже флагманская публичная модель теперь приближается к уровню безопасности, ранее доступному только в закрытом контуре.
  5. О Dynamic Workflows и Hermes: Dynamic workflows — это возможность для ИИ самостоятельно управлять собственной работой: разбивать задачу на подзадачи, запускать параллельных «агентов», проверять их результаты и собирать обратно. Упоминание Hermes — отсылка к популярному Open Source-фреймворку для создания AI-агентов. Ключевой момент: Anthropic внедряет агентское поведение прямо в свой продукт, что неизбежно ведет к значительно большему расходу токенов и, соответственно, денег.
  6. О тесте Decrypt — игра про зомби: Результаты теста показательны. GPT-5.5 выиграл по скорости, но провалил задание. DeepSeek V4 Pro дал сбалансированный результат. Opus 4.8 был самым медленным, но качество его кода и дизайна оказалось выше. Однако вывод Decrypt безжалостен: при разнице в цене в 57 раз, «немного лучше» не оправдывает использование Opus для обычных задач. Это ключевой месседж.
  7. О «пропасти в цене»: Тема ценового разрыва между американскими и китайскими моделями проходит красной нитью через всю статью. $25 против $0,87 — это не просто абстрактное сравнение. Для стартапа с интенсивным использованием API это разница между «можем себе позволить» и «разоряемся за месяц». Anthropic отвечает на это аргументом о безопасности, и этот аргумент действительно работает для банков и юрфирм — но не для разработчиков-одиночек.
  8. О термине «выравнивание» (alignment): В контексте AI alignment — это процесс настройки модели так, чтобы она действовала в соответствии с человеческими ценностями и не злоупотребляла своей компетенцией. Статья подчеркивает, что Opus 4.8 по показателям «просоциального поведения» и низкой склонности к обману приближается к закрытой Mythos, и что «никто из китайских моделей и близко не подошел к этим бенчмаркам». Это сильное заявление и одновременно — защита ценового премиума.

Рекомендации:

  • Artificial Analysis (artificialanalysis.ai) — независимый сайт сравнения AI-моделей, где ценовые данные из статьи можно проверить в реальном времени.
  • SWE-bench (swebench.com) — сам репозиторий бенчмарка, где можно детально изучить методологию и результаты по всем протестированным моделям.
  • Страница проекта Itch.io Decrypt — чтобы лично поиграть в зомби-игры, сгенерированные тремя моделями, и сравнить их своими руками.
  • Документация Claude Code — если вы разработчик и хотите протестировать dynamic workflows в действии, это первоисточник.

Смотреть комментарии → Комментариев нет


Добавить комментарий

Имя обязательно

Нажимая на кнопку "Отправить", я соглашаюсь c политикой обработки персональных данных. Комментарий c активными интернет-ссылками (http / www) автоматически помечается как spam

Политика конфиденциальности - GDPR

Карта сайта →

По вопросам информационного сотрудничества, размещения рекламы и публикации объявлений пишите на адрес: rybinskonline@gmail.com

Поддержать проект:
PayPal — paypal.me/takoekino
Tether Wallet — yuri76@tether.me
WebMoney — Z399334682366

18+ © Такое кино: Самое интересное о культуре, технологиях, бизнесе и политике