Новый ИИ-агент от Google DeepMind учится, адаптируется и играет в игры, как человек
Google DeepMind представила SIMA 2 — ИИ-агента с функцией рассуждения, созданного для трёхмерных миров.
В компании заявляют, что это ещё один шаг на пути к сильному искусственному интеллекту (AGI).
Google DeepMind представила SIMA 2 — нового ИИ-агента, который, по словам компании, ведёт себя как «компаньон» в виртуальных мирах. С запуском SIMA 2 DeepMind стремится выйти за рамки простых действий на экране и приблизиться к созданию ИИ, способного планировать, объяснять свои действия и учиться на собственном опыте.
— Это значительный шаг в направлении общего искусственного интеллекта (AGI), имеющий важные последствия для будущего робототехники и воплощения ИИ в физическом мире в целом, — сообщила компания на своем сайте.
Первая версия SIMA (масштабируемый обучаемый мультимировой агент), выпущенная в марте 2024 года, освоила сотни базовых навыков, наблюдая за происходящим на экране и используя виртуальные клавиатуру и мышь. Новая версия, по словам Google, делает следующий шаг, позволяя ИИ думать самостоятельно.
Цитата из поста Google DeepMind в X (ранее Twitter) от 13 ноября 2025 года:
SIMA 2 — наш самый способный ИИ-агент для виртуальных 3D-миров. Работая на базе Gemini, он выходит за рамки простого следования инструкциям: он способен думать, понимать и действовать в интерактивных средах. А это значит, что с ним можно общаться с помощью текста, голоса и даже изображений. Вот как это работает…
В Google заявили, что благодаря использованию ИИ-модели Gemini, SIMA может интерпретировать высокоуровневые цели, проговаривать шаги, которые он намерен предпринять, и взаимодействовать в играх с таким уровнем рассуждения, который был недостижим для исходной системы.
DeepMind сообщает об улучшенном обобщении навыков в различных виртуальных средах и о том, что SIMA 2 выполняет более длинные и сложные задачи, включая логические запросы, команды, заданные нарисованными на экране набросками, и даже эмодзи.
— Благодаря этой способности производительность SIMA 2 значительно приблизилась к человеческому уровню в широком спектре задач, — пишет Google, отмечая, что показатель успешного выполнения задач у SIMA 2 составил 65% по сравнению с 31% у SIMA 1.
Система также интерпретировала инструкции и действовала в совершенно новых 3D-мирах, сгенерированных Genie 3 — другим проектом DeepMind, выпущенным в прошлом году, который создаёт интерактивные среды из одного изображения или текстового запроса. SIMA 2 ориентировался в пространстве, понимал цели и предпринимал осмысленные действия в мирах, с которыми столкнулся впервые за несколько мгновений до тестирования.
— SIMA 2 теперь гораздо лучше справляется с выполнением детальных инструкций, даже в мирах, которые он никогда раньше не видел, — пишет Google. — Он может переносить изученные концепции, такие как «добыча ресурсов» в одной игре, и применять их к «сбору урожая» в другой, проводя аналогии между схожими задачами.
Исследователи рассказали, что после обучения на примерах, продемонстрированных человеком, агент переключился на самостоятельную игру. Он использовал метод проб и ошибок и обратную связь от Gemini для создания новых данных об опыте, включая обучающий цикл, в котором SIMA 2 сам генерировал задачи, пытался их выполнить, а затем передавал данные о своей траектории обратно в следующую версию модели.
Хотя Google приветствует SIMA 2 как шаг вперёд для искусственного интеллекта, исследование также выявило пробелы, которые ещё предстоит устранить. Среди них — трудности с очень длинными, многоэтапными задачами, ограниченный объём памяти и проблемы с визуальной интерпретацией, характерные для ИИ-систем, работающих в 3D.
Тем не менее в DeepMind заявили, что платформа служит испытательным полигоном для навыков, которые в конечном итоге могут быть перенесены в робототехнику и системы навигации.
— Наше исследование SIMA 2 открывает убедительный путь к применению в робототехнике и является ещё одним шагом к созданию AGI в реальном мире, — заключили в компании.