Tencent улучшает тестирование креативных моделей ИИ с помощью нового бенчмарка - Такое кино
 

Tencent улучшает тестирование креативных моделей ИИ с помощью нового бенчмарка

10.07.2025, 5:40, Технологии
Теги: ,

Компания Tencent представила новый бенчмарк ArtifactsBench, который призван решить текущие проблемы с тестированием креативных моделей искусственного интеллекта.

Вы когда-нибудь просили ИИ создать что-то вроде простой веб-страницы или диаграммы и получали что-то, что работает, но имеет плохой пользовательский опыт? Кнопки могут быть расположены не в том месте, цвета могут конфликтовать, а анимация может казаться неуклюжей. Это распространенная проблема, и она подчеркивает огромную трудность в мире разработки искусственного интеллекта: как научить машину иметь хороший вкус?

В течение долгого времени мы тестировали модели ИИ на их способность писать функционально корректный код. Эти тесты могли подтвердить, что код будет выполняться, но они были совершенно «слепы к визуальной точности и интерактивной целостности, которые определяют современный пользовательский опыт».

Именно для решения этой проблемы и был разработан ArtifactsBench. Это не столько тест, сколько автоматизированный арт-критик кода, созданного искусственным интеллектом

— Очень рад представить #ArtifactsBench! Мы устраняем разрыв между визуальными и интерактивными функциями в оценке генерации кода. В нашем бенчмарке используется новый автоматизированный мультимодальный конвейер для оценки LLM по 1 825 различным задачам. MLLM-as-Judge оценивает визуальные артефакты, достигая рейтинга 94,4 процента, — Хуньюань (@TencentHunyuan) 9 июля 2025 г.

Итак, как работает бенчмарк искусственного интеллекта Tencent? Во-первых, ИИ получает творческую задачу из каталога из более чем 1800 задач, от создания визуализации данных и веб-приложений до создания интерактивных мини-игр.

Как только ИИ генерирует код, ArtifactsBench приступает к работе. Он автоматически собирает и запускает код в безопасной среде для песочницы.

Чтобы увидеть, как ведет себя приложение, оно делает серию скриншотов с течением времени. Это позволяет ему проверять такие вещи, как анимация, изменения состояния после нажатия кнопки и другие динамические отзывы пользователей.

Наконец, он передает все эти доказательства — исходный запрос, код ИИ и скриншоты — мультимодальному LLM (MLLM), который выступает в качестве судьи.

Этот судья MLLM не просто высказывает расплывчатое мнение, а вместо этого использует подробный контрольный список для каждой задачи, чтобы оценить результат по десяти различным показателям. Оценка включает в себя функциональность, пользовательский опыт и даже эстетическое качество. Это гарантирует, что оценка будет справедливой, последовательной и тщательной.

Большой вопрос заключается в том, действительно ли этот автоматизированный судья обладает хорошим вкусом? Результаты показывают, что да.

Когда рейтинги ArtifactsBench сравнивались с WebDev Arena, платформой золотого стандарта, где реальные люди голосуют за лучшие творения искусственного интеллекта, они совпали с постоянством 94,4%. Это огромный скачок по сравнению со старыми автоматизированными тестами, которые обеспечивали стабильность только около 69,4%.

Кроме того, суждения фреймворка показали более чем 90% согласия с профессиональными разработчиками-людьми.

Tencent оценивает креативность лучших моделей искусственного интеллекта с помощью своего нового бенчмарка
Когда Tencent испытала более 30 лучших в мире моделей искусственного интеллекта, таблица лидеров стала показательной. В то время как лучшие коммерческие модели от Google (Gemini-2.5-Pro) и Anthropic (Claude 4.0-Sonnet) взяли на себя лидерство, тесты позволили сделать захватывающий вывод.

Вы можете подумать, что ИИ, специализирующийся на написании кода, будет лучшим в этих задачах. Но все было наоборот. Исследование показало, что «целостные возможности универсальных моделей часто превосходят возможности специализированных».

Модель общего назначения, Qwen-2.5-Instruct, фактически превзошла своих более специализированных братьев и сестер, Qwen-2.5-coder (модель, специфичная для кода) и Qwen2.5-VL (модель, специализирующаяся на зрении).

Исследователи считают, что это связано с тем, что создание отличного визуального приложения — это не только кодирование или визуальное понимание по отдельности, но и сочетание навыков.

— Здравое рассуждение, тонкое следование инструкциям и неявное чувство эстетики дизайна, — выделяют исследователи в качестве примера жизненно важные навыки. Это те виды всесторонних, почти человеческих способностей, которые начинают развиваться в лучших универсальных моделях.

Tencent надеется, что ее бенчмарк ArtifactsBench сможет надежно оценить эти качества и, таким образом, измерить будущий прогресс в способности ИИ создавать вещи, которые не только функциональны, но и то, что пользователи действительно хотят использовать.


Смотреть комментарии → Комментариев нет


Добавить комментарий

Имя обязательно

Нажимая на кнопку "Отправить", я соглашаюсь c политикой обработки персональных данных. Комментарий c активными интернет-ссылками (http / www) автоматически помечается как spam

Политика конфиденциальности - GDPR

Карта сайта →

По вопросам информационного сотрудничества, размещения рекламы и публикации объявлений пишите на адрес: [email protected]

Поддержать проект:

PayPal - [email protected]; Payeer: P1124519143; WebMoney – Z399334682366, E296477880853, X100503068090

18+ © 2025 Такое кино: Самое интересное про кино, телевидение, культуру и технологии