Лучшие модели искусственного интеллекта сыграют друг с другом в прямом эфире шахматного турнира

05.08.2025, 2:48, Технологии
Теги: Развлечения, Спорт

Сегодня Google запустит шахматный турнир, в котором ведущие модели искусственного интеллекта будут соревноваться друг с другом в прямом испытании машинного мышления.

Это следует за заявлениями Илона Маска в понедельник о том, что его чат-бот Grok демонстрирует «выдающиеся способности к рассуждению».

Мероприятие стартует в рамках новой игровой арены Kaggle Gaming Arena, платформы для тестирования агентов ИИ общего назначения в реальных конкурентных средах.

На первом турнире будут ежедневные шахматные матчи между версиями шести ведущих языковых моделей: ChatGPT, Gemini, Claude, Grok, Deepseek и Kimi.

В отличие от стандартных тестов производительности, этот формат выставляет стратегию ИИ на всеобщее обозрение, оценивая, как модели думают, адаптируются и восстанавливаются под давлением, говорится в заявлении Google.

Google надеется, что конкуренты выявят различия в способностях к рассуждению, которые другие бенчмарки не могут обнаружить. Соревнование следует за другими игровыми бенчмарками, используемыми Google для тестирования рассуждений ИИ, включая игры от Atari, AlphaGo и AlphaStar.

— Сегодня мы объявили о запуске @Kaggle Game Arena — новой платформы для бенчмаркинга, где модели и агенты ИИ могут соревноваться лицом к лицу в стратегических играх, начиная с шахмат. Почему игры, спросите вы? Игры идеально подходят для оценки ИИ, потому что они помогают нам понять, как модели справляются с…
— Google AI (@GoogleAI) 4 августа 2025 г.

— Заявки ранжируются с использованием байесовской системы оценки навыков, которая регулярно обновляется, обеспечивая строгую долгосрочную оценку, — говорится в сообщении Google.

Байесовская система использует вероятность для обновления рейтинга мастерства игрока с течением времени на основе результатов в сравнении с другими соперниками.

Первые шахматные матчи пройдут между o4 mini от OpenAI и DeepSeek-R1, Gemini 2.5 Pro и Claude Opus 4, Kimi K2 Inspire от Moonshot AI и o3 от OpenAI, а также Grok 4 против Gemini 2.5 Flash.

— Представляем Kaggle Game Arena: новую открытую платформу, на которой лучшие модели искусственного интеллекта соревнуются в сложных стратегических играх в потоковых матчах. Мы прокладываем новые рубежи для надежной оценки ИИ, и все начинается с шахмат — классического испытательного полигона для системного интеллекта.
— Kaggle (@kaggle) 4 августа, 2025

Шахматы долгое время служили испытательным полигоном для искусственного интеллекта.

В историческом матче в 1997 году команда IBM Deep Blue победила российского гроссмейстера и бывшего чемпиона мира по шахматам Гарри Каспарова. Новый турнир Google опирается на эту традицию, но теперь с языковыми моделями.

Матчи будут транслироваться в прямом эфире на YouTube. В каждом раунде проводится серия до двух побед, победители которой проходят через сетку после одного поражения. Две лучшие модели сойдутся в финальном матче за золотую медаль.

— Игры идеально подходят для оценки искусственного интеллекта, потому что они помогают нам понять, как модели решают сложные логические задачи, — пишет Google на X. — Многие игры являются прокси для реальных навыков и могут проверить способности модели в таких областях, как стратегическое планирование, адаптация и память.

Зрители смогут увидеть, почему каждая модель стоит за каждым движением. По словам Google, эта прозрачность имеет решающее значение для оценки того, действительно ли модели продумывают проблемы или просто имитируют обучающие данные.

Тем не менее, на доске обсуждений Kaggle Game Arena остаются вопросы о том, как поведут себя LLM после начала игр.

— Что именно произойдет, если модель продолжит предлагать незаконные ходы после того, как все разрешенные переосмысления будут исчерпаны? — спросил один из пользователей. — Он сразу проигрывает игру, пропускает ход или каким-то образом дисквалифицирован?

— Это действительно заставляет меня задуматься, видим ли мы здесь истинные рассуждения или просто догадки, основанные на шаблонах? — спросил другой.

Google заявила, что планирует расширить игровую арену Kaggle за пределы шахмат в будущих соревнованиях. На данный момент этот первый турнир послужит публичным стресс-тестом на то, насколько хорошо самые передовые модели современности могут справляться с принятием стратегических решений в режиме реального времени.

— Игры всегда были полезным испытательным полигоном для искусственного интеллекта, включая нашу собственную работу над AlphaGo и AlphaZero», — написал соучредитель и генеральный директор Google DeepMind Демис Хассабис на X. «Мы рады видеть прогресс, который будет способствовать этому тесту по мере того, как мы добавляем больше игр и испытаний на Arena — мы ожидаем увидеть быстрое улучшение!

Смотреть комментарии → Комментариев нет

Добавить комментарий


Имя обязательно	E-mail обязательно

Нажимая на кнопку "Отправить", я соглашаюсь c политикой обработки персональных данных. Комментарий c активными интернет-ссылками (http / www) автоматически помечается как spam