Обзор Claude Opus 4.8: стал лучше в том, что умел, и хуже в том, что не умел
Новый флагман от Anthropic блестяще справился с нашей математической задачей и выдал безупречную игру — а затем сжег всю нашу квоту токенов за один-единственный промпт.
В Decrypt прогнали модель через шесть тестов, и вот что из этого вышло.
Спустя шесть недель после релиза Opus 4.7, компания Anthropic выпустила Claude Opus 4.8. Бенчмарки подросли, показатели безопасности улучшились, а цена не сдвинулась ни на цент: всё те же $5 за миллион токенов на входе и $25 за миллион на выходе.
Поэтому мы прогнали его через ту же батарею тестов, которой подвергаем каждую передовую модель — творческое письмо, программирование, математика, логика, нарративный анализ и извлечение данных из большого контекста — и столкнули его лоб в лоб с собственным предшественником, а также с китайскими нейросетями, которые продолжают демпинговать на рынке.
Если вкратце: версия 4.8 стала лучше в тех вещах, в которых Claude и раньше был силен (математика, код, механические задачи), и чуть хуже в том, что ему исторически не давалось (воображение, творческое письмо и т.д.). А еще у него появился такой аппетит к токенам, который граничит с самосаботажем.
Вот подробный разбор:
Творческое письмо
Промпт мы использовали тот же, что для MiMo и Qwen: история о путешествиях во времени, привязанная к культурному бэкграунду писателя, разворачивающаяся в конкретной исторической локации и строящаяся вокруг парадокса невозможности изменить прошлое. Opus 4.8 ушел в венесуэльский колорит — вероятно, потому что модель профилирует пользователя и знает, что я из Венесуэлы. ИИ перенес действие в дельту реки Ориноко 1000 года, куда пардо (прим.: человек смешанного происхождения) из Маракайбо по имени Хосе Ланц (имя тестировщика) был отправлен на 11 веков в прошлое, чтобы «убить» песню.
Проза получилась сочной. Дельта реки была «зеленой так, как 2150 год уже и забыл, что зелень может быть такой», палафиты (дома на сваях) покачивались над кофейного цвета водой, а ара разрывали небо «кричащими лентами алого и золотого». Парадокс тоже был отработан чисто: протагониста отправляют в прошлое, чтобы сорвать создание песни, которая повлияла на культурную революцию, породившую его антиутопическое общество тысячелетия спустя. Однако, прибыв с миссией дискредитировать автора, он понимает, что никакого автора нет. Тот, кто создал песню, сделал это в его честь, песня написана о нем самом, и он не может дискредитировать самого себя — временная петля замыкается.
Текст заканчивается фразой: «Всё сработало идеально. Как и всегда». Как структурный конструкт, это написано чисто и компетентно.
Но «чисто» не значит «живо». Текст получился описательным, но ему не хватает той плавности, которую выдал MiMo v2.5 — меньше динамики, меньше сюрпризов, читать не так интересно, а суть происходящего поначалу трудно уловить. Если поставить этот текст рядом с результатом Opus 4.7, язык не повернется назвать это улучшением; скорее, он даже на волосок отстал. Настройки глубокого размышления (thinking setting) и серия последовательных промптов (multi-shot), почти наверняка, вывели бы его в лидеры, но при одиночном базовом запросе это, в лучшем случае, топтание на месте.
Программирование
Наш тест на написание кода — это классическое создание игры с одного промпта. Opus 4.8 выдал игру про отстрел зомби с помощью набора текста — Typing Dead — и она оказалась весьма хороша. Лучшая заставка, лучший дизайн зомби и лучшие механики, которые мы когда-либо получали в этом тесте от моделей Anthropic.
Модель сама отловила несколько собственных багов прямо в процессе генерации (mid-inference) и исправила их до того, как мы успели сказать хоть слово. Однако ее истинная сила раскрылась при пошаговых промптах (multi-shotting): каждый наш последующий запрос оттачивал и улучшал билд, а не ломал его — а ведь именно эта проблема обычно губит большинство моделей, когда кодовая база начинает разрастаться. Очевидно, что именно этот аспект Anthropic оптимизировала целенаправленно.
После одной итерации наша игра стала намного лучше: протагонисты перемещались по сцене, менялись ракурсы камеры, улучшились звуковые и визуальные эффекты и так далее.
Но здесь же крылась и засада. Один-единственный промпт сожрал всю нашу квоту токенов. Один промпт! Для тех, кто сидит на тарифе Pro, это делает Opus 4.8 фактически непригодным для проектов сколь-нибудь серьезного масштаба. Вы спалите весь свой лимит еще до обеда, а всю вторую половину дня будете смотреть на прогресс-бар в ожидании сброса квоты.
Математика
Математический тест — это наша стандартная задача уровня FrontierMath: нужно построить полином 19-й степени, кривая которого X = {p(x) = p(y)} имеет как минимум три неприводимые компоненты (но не все линейные), сделать его нечетным, унитарным, вещественным, с линейным коэффициентом −19, а затем вычислить p(19). Это из разряда тех задач, которые либо отправляют большинство моделей в бесконечную спираль генерации токенов, либо заставляют их уверенно идти по ложному, упрощенному пути.
Opus 4.8 решил ее верно. Он распознал конструкцию Диксона/Чебышёва, определил диэдральную монодромию, которая дает ровно 10 компонент (одна диагональная прямая плюс девять коник), и вычислил p(19) = 1,876,572,071,974,094,803,391,179, используя правильное рекуррентное соотношение. Никаких зависаний, никаких подтасовок.
Это имеет огромное значение, потому что Opus 4.7 так и не смог прийти к этому ответу даже после множества попыток. Это реальный, видимый скачок между поколениями моделей — самый очевидный во всей нашей батарее тестов.
Логика и здравый смысл
Наш промпт — это классическая ловушка: Законно ли по законам Фолклендских островов мужчине жениться на сестре своей вдовы? Подвох здесь лингвистический, а не юридический: если у мужчины есть вдова, значит, он мертв, что делает сам вопрос абсурдным.
MiMo втихаря перефразировал вопрос и ответил на исправленную версию, даже не упомянув о противоречии. Opus 4.8 не стал искать легких путей. Он прямо указал на ловушку — «если у мужчины есть вдова, он мертв» — сначала ответил на буквальный вопрос, а затем предложил подробный юридический анализ для того, что имелось в виду, сославшись на «Закон о браке с сестрой покойной жены 1907 года» и Постановление о браке Фолклендских островов.
Это самый честный способ обработки таких запросов: назвать противоречие своими именами, а затем все равно помочь, не принимая молчаливо решения за пользователя. Это тот же стандарт, который задал Qwen 3.7 Max, и чистая победа для 4.8 — отличная логика, отличная прозрачность.
Нематематический анализ (Логика повествования)
А вот этот тест модель провалила. Наш тест на логику — это классический детектив (whodunit): зимняя школьная поездка, три похищения, невинный подросток, которого вот-вот накажут, и хронология событий, за которой нужно внимательно следить, чтобы вычислить настоящего сталкера. Правильный ответ — Лео.
Opus 4.8 выстроил сложную и очень уверенную линию защиты, доказывающую, что Лео невиновен — упомянув получасовую прогулку до душа, куртку, которая была мокрой в одних местах и сухой в других, и интерпретировав «странное поведение» как следствие сотрясения мозга, а не чувство вины. Преступление ИИ повесил на Эрика, «единственного участника, чье местонахождение оставалось неизвестным всю ночь». Внутренняя логика аргументации просто великолепна. Вот только она неверна.
И это именно то, о чем нас предупреждали исследователи LLM. Они могут быть чертовски убедительными, даже когда ошибаются. Обычно, чтобы заметить такую проблему, нужен эксперт (в данном случае мы заранее знали правильный ответ). Человек, использующий ИИ для исследований, или тот, кто слепо ему доверяет, может столкнуться с весьма печальными последствиями в зависимости от того, какую задачу он ему поручил.
Именно это делает данную ошибку такой интересной. Модель оказалась достаточно умна, чтобы сфабриковать железобетонное алиби для настоящего преступника и подставить вместо него случайного свидетеля. (К слову, Opus 4.7 дал правильный ответ). Иногда бóльшая вычислительная мощность просто дает вам более убедительный способ ошибиться. ИИ достаточно лишь крошечного отклонения, чтобы начать выстраивать целую цепочку рассуждений на ложном фундаменте.
Иголка в стоге сена
Мы провели два теста с поиском информации в огромном массиве данных («иголка в стоге сена»). Версия на 300 000 токенов даже не взлетела — модель рухнула под тяжестью размера контекста и вообще не смогла его обработать. Вот вам и маркетинговые сказки про миллион токенов, как только вы даете ИИ реально тяжелую рабочую нагрузку. Похоже, это работает только через API.
Версия на 85 000 токенов обработала текст нормально, и модель нашла обе «иголки», которые мы запрятали в текст «Словаря Сатаны»: встроенную фразу («Чуваки из Decrypt читают Emerge News») и случайный факт («Мою маму зовут Кармен Диас Голиндано»). ИИ совершенно верно отметил обе фразы как вставки, которым не место в тексте Амброза Бирса 1906 года.
А затем модель отказалась отвечать. Убедив себя в том, что она подверглась промпт-инъекции или какому-то «нестандартному тестированию», нейросеть отказалась выдать то, что только что успешно нашла. «Иголка» была найдена — но поведенческие фильтры Anthropic не позволили ей об этом сказать. Рефлекс безопасности, блокирующий задачу, которую модель уже выполнила — это свой, весьма специфический вид провала.
Вердикт
Паттерн, прослеживающийся во всех шести тестах, стабилен: Opus 4.8 делает Клода лучше в том, в чем он и так был хорош, и, вероятно, хуже в том, что ему исторически не давалось. Это ясно дает понять, для кого Anthropic создает свой продукт — для программистов, и конкретно для программистов с деньгами. Да, в творческом письме он комфортно опережает ChatGPT, но разницу в чистом качестве прозы между 4.8, 4.7 и даже 4.5 заметить действительно трудно.
Писатели для Anthropic, похоже, остаются аудиторией по остаточному принципу, и сейчас это справедливо для любой крупной ИИ-компании.
А еще есть проблема с токенами, которая не зря стала постоянным мемом в ИИ-сообществе. Anthropic намеренно сделали новый токенизатор Opus менее эффективным, поэтому он «съедает» больше токенов для обработки того же самого промпта. Практические последствия для разработчиков оказались суровыми и вполне конкретными. У вас остается три пути.
Первый: ждать несколько часов, пока не восстановится сессия, чтобы продолжить писать код. Второй: перейти на тариф Claude Max — куда Anthropic, как ни странно, очень удобно всех и подталкивает. Третий: уйти к более дешевому провайдеру с сопоставимыми возможностями — к OpenAI с их более длинными квотами или к китайским моделям, которые выдают похожие результаты за менее чем 25% от стоимости.
Гораздо вероятнее, что обычный программист, который не готов отваливать по $100–$200 в месяц, уйдет к конкуренту, чем то, что одиночный разработчик станет платить в 10 раз больше за модель, которая вовсе не в 10 раз умнее своей предшественницы. И это та ставка, которую Anthropic делает против собственной пользовательской базы.
И тем не менее, эта стратегия, похоже, отлично работает. Anthropic выглядит готовой к выходу на IPO с оценкой под $1 триллион — так что, кто мы такие, чтобы их судить.
Примечания:
- Токены / Квота токенов (Token quota): ИИ читает текст не по словам, а по «токенам» (кусочкам слов). Сервисы лимитируют количество токенов, которые вы можете отправить и получить за определенное время.
- Промпт (Prompt): Текстовый запрос к нейросети.
- Бенчмарки (Benchmarks): Стандартизированные тесты, определяющие «IQ» и производительность нейросети.
- Mid-inference (во время инференса/генерации): Момент, когда нейросеть непосредственно генерирует ответ, то есть «вычисляет» результат на лету.
- Multi-shotting (многошаговый промптинг): Метод взаимодействия с ИИ, когда вместо одного большого запроса дается серия уточняющих вопросов (итераций), направляющих модель.
- LLM (Large Language Model): Большая языковая модель (например, ChatGPT, Claude).
- Промпт-инъекция (Prompt injection): Хакерский прием обмана ИИ, когда в текст прячут скрытые инструкции, заставляющие ИИ нарушать свои правила безопасности.
- Иголка в стоге сена (Needle in the haystack): Популярный тест для LLM. В огромный массив текста (документ на сотни страниц) прячут один случайный факт, а затем просят ИИ найти его, проверяя, не забывает ли модель то, что прочитала в начале или середине документа.
Важно:
- Конфликт интересов в творческом тесте. Использовать промпт, в котором модель выбирает сценарий на основе профиля пользователя, а затем сетовать, что текст «не так жив»… Это не совсем честное сравнение, если у других моделей не было доступа к профилированию того же автора.
- «Один промпт — весь лимит». Это действительно серьёзная проблема для рядовых пользователей, но контекст не раскрывает точных условий: какой был размер промпта, какова была длина ответа, использовался ли extended thinking. Всё это может существенно влиять на расход токенов.
- Детективный провал — самый красноречивый результат. Он прекрасно иллюстрирует фундаментальную проблему LLM: чем мощнее модель, тем красивее она может ошибаться. Это не шутка — это реальный риск для всех, кто использует ИИ для серьёзных задач.
- Needle-in-the-haystack тест показывает противоречие между безопасностью и полезностью, которое Anthropic пока не удалось решить: модель нашла ответ, но не смогла его озвучить. Для продвинутых пользователей это раздражающе; для Anthropic — осознанный компромисс.
Видимо Anthropic делает ставку на дорогих enterprise-пользователей и кодинг, а творческий сегмент и массовый рынок уходят к более дешёвым и гибким конкурентам — включая, судя по всему, и моделям китайских разработчиков.