Xiaomi MiMo 2.5 Pro умеет видеть, слышать и действовать — всё в одной модели
Через пять недель после того, как MiMo-V2-Pro потрясла мир ИИ, Xiaomi возвращается с моделью, добавляющей глаза и уши — по цене вдвое ниже.
Xiaomi только что запустила новое семейство ИИ-моделей. Опять…
Несколько недель назад компания выпустила MiMo-V2-Pro — триллионпараметровую модель, которая тихcircулировала на OpenRouter под псевдонимом «Hunter Alpha», прежде чем Xiaomi раскрыла её личность. Из анонимной она мгновенно стала моделью высшего эшелона. Мы её протестировали — и она впечатлила.
Теперь Xiaomi возвращается с MiMo-V2.5 и MiMo-V2.5-Pro — двухмодельным семейством, добавляющим то, чего у предыдущего поколения никогда не было в едином пакете: глаза, уши и способность обрабатывать видео. К тому же компания планирует в ближайшем будущем открыть исходный код моделей.
V2-Pro работала только с текстом и кодом. Мультимодальные возможности существовали в_sibling-модели MiMo-V2-Omni, но это был отдельный продукт с более низкими бенчмарковыми показателями. MiMo-V2.5 объединяет всё в одной модели — быстрее, мощнее, с нативным пониманием изображений, видео и аудио, встроенным изначально.
Это важнее, чем может показаться для обычных пользователей. Например, теперь можно загрузить фотографию холодильника и попросить предложить рецепты на ужин. Скинуть видеоурок — и получить пошаговую запись. Записать совещание — и извлечь из него список задач. Всё в одном месте, без необходимости жонглировать отдельными инструментами и моделями с разными ценовыми стратегиями.
Xiaomi утверждает, что MiMo-V2.5-Pro представляет «существенный скачок от MiMo-V2-Pro в области общих агентских возможностей, сложной программной инженерии и задач длительного горизонта», и заявляет, что модель теперь соответствует передовым моделям уровня Claude Opus 4.6 и GPT-5.4 по большинству бенчмарков по программированию и агентским задачам. Цифры в основном это подтверждают — хотя некоторые разрывы заметны на более сложных задачах рассуждения.
Базовая и профессиональная модели служат разным целям. MiMo-V2.5-Pro — тяжёлая артиллерия. Xiaomi утверждает, что она способна «автономно выполнять профессиональные задачи, включающие более 1000 вызовов инструментов, — работу, которая заняла бы у экспертов-людей несколько дней». Это для разработчиков, запускающих сложные многошаговые автоматизированные рабочие процессы. Скорость генерации — 60–80 токенов в секунду, стоимость — $1,00 на входе / $3,00 на выходе за миллион токенов.
MiMo-V2.5 — версия для повседневного использования. Быстрее (100–150 токенов в секунду), дешевле ($0,40 на входе / $2,00 на выходе) и поддерживает все модальности — изображения, аудио и видео, которые Pro-версия пропускает. Обе модели обладают контекстным окном в 1 миллион токенов, что позволяет удерживать примерно 750 тысяч слов в одном разговоре.
На SWE-bench Pro — бенчмарке по программированию, где модели исправляют реальные баги в реальных кодовых базах стартапов, оцениваемом в виде процента успешных решений из 100, — MiMo-V2.5-Pro решает 57,2% задач. Это почти на вершине рейтинга; средняя модель справляется примерно с 25%. Похожая картина на τ3-bench и ClawEval, где модель оказывается в нескольких очках от Claude Opus 4.6 и GPT-5.4. Разрыв обнаруживается на Humanity’s Last Exam — полосе препятствий из задач уровня аспирантуры по десяткам академических дисциплин: MiMo набирает 48,0% против 58,7% у GPT-5.4 — разрыв в 10 очков, который сложно скрыть.
Где модель по-настоящему выделяется — так это в эффективности использования токенов. Xiaomi утверждает, что MiMo-V2.5-Pro расходует на 42% меньше токенов, чем Kimi K2.6 при эквивалентных результатах бенчмарков, а MiMo-V2.5 использует почти вдвое меньше токенов, чем Muse Spark, при сопоставимых результатах. Для всех, кто эксплуатирует модели в масштабе — разработчиков, обрабатывающих тысячи запросов ежедневно, — эта разница оборачивается реальными деньгами.
По мультимодальным задачам результаты MiMo-V2.5 ставят её на один уровень с GPT-5.4 и Gemini 3.1 Pro и довольно близко к стандартам Opus 4.6.
С декабря 2025 года Xiaomi провела три крупных релиза моделей: сначала вышел эффективный MiMo-V2-Flash, затем в марте — тройка V2-Pro/Omni/TTS, а сегодня — серия V2.5. Компания объявила об инвестициях в ИИ не менее $8,7 миллиарда на ближайшие три года — это было озвучено генеральным директором Лэй Цзюнем на следующий день после запуска V2-Pro, а текущая частота релизов говорит о том, что бюджет уже в работе.
Контекст также помогает объяснить скорость. По данным Digital Applied, на начало апреля модели Xiaomi обеспечивали примерно 21% всего трафика на OpenRouter — рост более чем на 42% за последние 7 дней. Когда ваша предыдущая модель становится одной из самых востребованных на крупнейшей в мире ИИ-платформе маршрутизации, у вас есть и ресурсы, и давление, чтобы быстро итерировать.
Это, вероятно, было связано с бумом агентского ИИ-инструмента Hermes и его партнёрством с Xiaomi, предоставлявшим пользователям бесплатный доступ к MiMo v2 Pro на ограниченный период. Этот период уже закрыт, но ажиотажа хватило, чтобы ввести Xiaomi в игру.
Те, кто хочет использовать Hermes бесплатно, теперь могут протестировать новый Step 3.5 flash через Nous API или воспользоваться OpenRouter с бесплатными моделями, но более ограниченным использованием.
Ценообразование по токен-планам также обновилось. MiMo-V2.5 работает по базовой кредитной ставке 1x; MiMo-V2.5-Pro — по ставке 2x. Xiaomi больше не взимает дополнительную наценку за использование полного контекстного окна в 1 миллион токенов, что заметно удешевляет анализ длинных документов. Существующие пользователи также получают полный сброс кредитов в качестве бонуса к запуску.
Компания заявляет, что модель доступна в её AI Studio. Мы попытались получить доступ туда сразу после запуска — безуспешно. Однако модель уже работает через API Xiaomi MiMo — именно там большинство разработчиков будут её использовать в реальности.
Компания сообщает, что уже обучает следующее поколение моделей — с «более глубоким рассуждением, более плотной интеграцией с инструментами и более богатой привязкой к реальному миру». При текущей скорости Xiaomi это объявление, вероятно, ближе, чем вы думаете.
Ключевые понятия:
- Токен — минимальная единица текста, обрабатываемая ИИ-моделью. Один токен ≈ ¾ слова на английском; ≈ 1–2 символа на китайском.
- Контекстное окно (context window) — максимальный объём текста, который модель может «видеть» за один раз. 1 миллион токенов ≈ 750 000 слов ≈ несколько книг среднего размера.
- Агентские возможности (agentic capabilities) — способность модели автономно выполнять многошаговые задачи, используя инструменты, взаимодействуя с вебом, принимая решения.
- SWE-bench Pro — один из самых престижных бенчмарков: модель должна исправить реальные баги в реальных проектах на GitHub.
- Humanity’s Last Exam — бенчмарк, состоящий из задач уровня аспирантуры/постдока по математике, физике, химии, биологии и другим дисциплинам. Считается одним из самых сложных тестов.
- OpenRouter — платформа-маршрутизатор, предоставляющая доступ к множеству ИИ-моделей через единый API.
- Токен-эффективность — количество токенов, которое модель расходует для достижения того же результата. Чем меньше — тем дешевле эксплуатация.
Конкурентная среда:
- Claude Opus 4.6 — текущая флагманская модель от Anthropic.
- GPT-5.4 — текущая флагманская модель от OpenAI.
- Gemini 3.1 Pro — текущая флагманская модель от Google.
- Kimi K2.6 — модель от Moonshot AI (Китай), один из главных конкурентов Qwen и MiMo.
- Muse Spark — модель от китайской компании.
Контекст Xiaomi в ИИ:
Xiaomi исторически известна как производитель смартфонов и бытовой электроники, но в последние годы активно инвестирует в ИИ. Стратегия компании — создание «умной экосистемы» от смартфонов до автомобилей (Xiaomi SU7), в которой ИИ-модели играют центральную роль. Объявленные $8,7 млрд инвестиций — одна из крупнейших программ в китайском частном секторе.