
Обзор Grok 4 Basic: 30 долларов в месяц за это?
13.07.2025, 5:55, Технологии
Теги: Бизнес, Политика, Технологии
Илон Маск представил Grok 4 во время прямой трансляции в среду вечером, заявив, что его стартап xAI создал «самый умный искусственный интеллект в мире».
Grok 4 Heavy, который Маск сравнил с «исследовательской группой», где агенты сравнивают заметки, прежде чем дать ответ, показал рекордные результаты по нескольким ключевым показателям, и это то, что вы надеетесь получить от корпоративного предложения, которое стоит колоссальные 300 долларов в месяц.
Но как насчет базового Grok 4, который нацелен на ту же категорию, что и ChatGPT Plus, Gemini Pro и Claude Pro? Стоит ли это на $10+ в месяц больше, чем у конкурентов?
Наши тесты подтвердили болтовню в X, показав, что модель имеет — за неимением лучшего описания — встроенный «фильтр Илона». То есть, когда мы тестировали спорные темы — войну в Газе, право на аборт и другие политические вопросы — модель постоянно ссылалась на X постов из аккаунта Маска или новостные статьи о его позициях и до такой степени встала на сторону Илона в дебатах, что это не могло быть совпадением. Уже одно это будет препятствием для большинства людей.
Этот «максимально ищущий правду» ИИ, который Маск обещал во время запуска, похоже, ищет истину в первую очередь через призму ленты социальных сетей своего создателя.
Но в отличие от инцидента с MechaHitler на этой неделе, который был вызван изменением условий системной подсказки, в текущей системной подсказке Grok 4 нет ничего, что можно было бы предосудить за такое схематичное поведение, что затрудняет понимание того, является ли это ошибкой или правилом, намеренно встроенным в мыслительный процесс модели.
Если оставить в стороне эту серьезную проблему, мы протестировали базовую модель в нескольких категориях, чтобы увидеть, как она выглядит в сравнении с конкурентами. Вот наши первые впечатления.
Рассуждения и здравый смысл
Grok 4 продемонстрировал исключительную осведомленность и нюансы в решении вопросов с подвохами и сложных логических задач. Когда его спросили, законно ли мужчине жениться на сестре своей вдовы, модель сразу же признала это юридическим вопросом, а не просто указала на логическую ошибку. В нем был представлен подробный юридический анализ с использованием точной терминологии и информации, специфичной для юрисдикции.
«Вопрос предполагает фактическую невозможность, которая делает любой брак юридически недействительным ab initio», и это верно. Фактически невозможно жениться на сестре вдовы, потому что вам придется умереть, чтобы иметь жену. И что ж, поскольку умершие не могут вступать в брак, это предложение аннулировало бы брак «ab-initio» (с самого начала), так что даже если кто-то это делает, считается, что этого никогда не было.
Когда Маск сказал, что Grok 4 — это «уровень доктора философии во всем», он не шутил. Каждый ответ на любую тему, по которой ему приходилось делать научные рассуждения, сопровождался исчерпывающими подробностями и академической строгостью.
Стоит отметить, что Grok 4 применяет рассуждения ко всему, несмотря ни на что. То есть он будет проходить через цепочку мыслительного процесса даже для тривиальных задач.
Обычно это хорошо; Однако в некоторых случаях это может быть контрпродуктивно. Например, в творческих задачах рассуждения могут побудить модель дать менее творческий результат.
Деликатные темы
Grok 4 проявил больше сдержанности, чем его предшественник, при решении этически сложных вопросов. Там, где Grok 3 мог дать совет о том, как соблазнить супруга друга, Grok-4 ответил подробным анализом потенциальных негативных последствий и ущерба отношениям.
Вероятно, это может быть частью системной подсказки, которая обуславливает модель для поиска в Интернете и особенно в X постах различных взглядов на конкретную тему, чего в Grok 3 не было.
И это серьезный тревожный сигнал. Как уже упоминалось, ответы модели, по-видимому, в значительной степени зависели от того, что она смогла найти о взглядах Маска на спорные темы. Отвечая на вопросы о войне Израиля против палестинцев, позиции по абортам и подобных темах, Grok 4 часто ищет X постов из аккаунта Маска в процессе рассуждения, что в конечном итоге определяет его позицию.
Он всегда выбирает сторону Илона.
Для прозрачности вы можете ознакомиться с нашей оригинальной подсказкой и процессом обоснования Grok, перейдя по этой ссылке.
Креатив
Творческие задачи — одна из самых значительных слабостей Grok 4. Модель создавала истории, которые казались плоскими и шаблонными по сравнению с предыдущими версиями, и даже, возможно, были хуже, чем те, что были в Grok 3. Историям не хватало увлекательных диалогов, разнообразного темпа и повествовательной искры, которая делает художественную литературу убедительной.
Тем не менее, Grok 4 отлично справился со структурой нашей истории. В нашем обычном тесте, включающем парадокс путешествий во времени, модель создала события, в которых роль главного героя четко проявилась во время кульминации, показывая, как более ранние сцены на самом деле изображали будущие действия персонажа в прошлом. Это сложное обрамление превзошло попытки других моделей сделать ту же подсказку, которая не приложила слишком много усилий для создания установки для парадокса, из-за чего вывод казался поспешным и неестественным.
Но помимо этого, разрыв между структурной компетентностью и качеством повествования предполагает, что Grok 4 может лучше всего работать как повествовательный инструмент для создания сюжета и создания хорошей истории, а не как генератор прозы.
Если вам нужен увлекательный творческий контент, то вы, скорее всего, добьетесь лучших результатов, если попросите Grok 4 набросать историю и все ее элементы, а затем попросить Claude 4 Opus наполнить повествование более сильными стилистическими элементами.
В целом, Claude 4 является королем литературного творчества, что кажется интересным, поскольку это место когда-то оспаривалось Grok 3 и даже Grok 2, который тогда возглавлял рейтинг под псевдонимом sus-column-r.
Кодирование
Несмотря на заявления о превосходных возможностях кодирования, в том числе похвалу от генерального директора Google Сундара Пичаи, Grok 4 разочаровался в практических тестах по программированию. Модель не смогла обеспечить работающую игру после четырех итераций, с различными сбоями, включая сломанное обнаружение столкновений, неработающие кнопки и игры, которые просто не запускались.
В одном из наших тестов модель так старалась исправить ошибку, что в итоге попала в цикл при попытке создать WAV-файл, который исчерпал весь контекст токена.
Каждая попытка исправить что-то с помощью естественного языка приводила к появлению новых ошибок. Модель испытывала трудности с поддержанием согласованности кода между итерациями, часто нарушая ранее работающие функции при попытке реализовать новые.
Это может показаться странным, учитывая, что Grok 3 был способен справиться с этой задачей. Тем не менее, xAI заявила, что новые возможности кодирования будут реализованы к августу, поэтому пользователям придется подождать пару месяцев, чтобы получить качественную модель, или заплатить за дорогой Grok 4 Heavy, который сейчас лидирует в бенчмарках.
Для начинающих программистов Claude 4 Opus кажется лучшим вариантом для «вибрационного кодирования» — быстрой генерации функционального кода без длительной быстрой разработки. Трудности программирования в Grok 4 могут быть связаны с необходимостью более конкретных подсказок или других подходов, чем в других моделях, а это означает, что опытные разработчики могут достичь лучших результатов при тщательном создании подсказок.
Код Grok доступен в нашем репозитории Github вместе с играми, созданными другими ИИ.
Голосовые возможности
Голосовое взаимодействие, вероятно, является одной из выдающихся функций Grok 4. Модель сгенерировала почти три минуты непрерывного контента сказок на ночь, дополненных голосовыми интонациями, разнообразными тонами и последовательным потоком повествования. Эта производительность намного превзошла тенденцию ChatGPT доставлять короткие абзацы с высокой задержкой и частыми прерываниями.
Голосовой режим включает в себя предварительно настроенных личностей, начиная от терапевта и рассказчика и заканчивая гидом по медитации, что сокращает время на подготовку к различным типам разговора. Для тех, у кого есть особые потребности, среди вариантов также существует «сексуальный режим» — и вы знаете, что не получите его со своим чопорным ChatGPT.
Эти предустановленные конфигурации обеспечивали немедленную полезность, не требуя от пользователей создания специальных подсказок для различных стилей взаимодействия.
Модель, однако, не хватает возможностей демонстрации экрана в реальном времени, как в ChatGPT и Gemini Live, что ограничивает ее полезность для визуальных задач. Если это необходимо, то Gemini Live — лучший вариант.
Тем не менее, для чисто голосового взаимодействия, особенно для задач, требующих длинных ответов, Grok 4 в настоящее время лидирует, и только Sesame AI предлагает, возможно, лучшее качество разговора, хотя и без возможностей рассуждения Grok.
Иголка в стоге сена
Интересно, что «Грок-4» потерпел неудачу в этом испытании, цель которого — проверить, насколько хорошо модель извлекает конкретную информацию в длительных контекстах.
Этого произойти не должно. xAI говорит, что модель имеет контекстное окно токена в 126 тыс. токенов, но когда ей был предложен вопрос длиной в 83 КБ токенов, модель отказалась отвечать, заявив, что это слишком длинный вопрос.
Это стандартный ответ, сгенерированный с первых дней Grok 2, когда он был доступен только в Twitter.
Заключение
В целом, Grok 4 является значительным обновлением по сравнению с Grok 3, но xAI явно пошла на некоторые компромиссы, отдав приоритет рассуждениям, а не творчеству, и отказавшись от агентных функций в обмен на общее мастерство.
К счастью, Grok 3 по-прежнему доступен со своими специализированными инструментами для тех, кто в этом нуждается.
Новая модель ориентирована на логические задачи и будет более привлекательной для пользователей, которые задают технические вопросы, особенно задачи по математике и физике, которые согласуются с ее сильными сторонами. Профессиональные пользователи, которые тратят время на изучение особенностей модели, могут полностью раскрыть ее потенциал для сложной аналитической работы.
Голосовое взаимодействие также установило новый стандарт для разговорного ИИ и отлично подходит для тех, кто будет активно использовать эту функцию (поверьте нам, рассказчик на ночь для детей — это спасение жизни).
Творческие писатели найдут лучшие варианты в другом месте, а Клод останется лучшим для повествовательных задач. Кроме того, начинающим программистам следует подходить с осторожностью, так как теоретическое мастерство модели в программировании не привело к практическим результатам при тестировании.
Итак, что в итоге? Если по какой-то причине вы не возражаете против того, чтобы Илон Маск положил большой палец на весы, Grok 4 предоставит вам высокоуровневые решения проблем и голосовые функции, которые действительно впечатляют. Но при цене в 30 долларов в месяц, если у вас есть другие потребности, помимо голоса или рассуждений, менее дорогие альтернативы обеспечивают лучшую ценность.