Идеальный реализм, но сплошная цензура: тестируем новую нейросеть от Microsoft

20.03.2026, 5:49, Технологии
Теги: Бизнес, Интернет, Работа, Развлечения

Новый ИИ-генератор от Microsoft предлагает впечатляющий реализм и отличную отрисовку текста, но жесткая цензура и генерация только квадратных (1:1) изображений пока тянут его на дно.

Microsoft втайне разработала собственный генератор изображений. Представленная в четверг командой AI Superintelligence, модель MAI-Image-2 уже взлетела на третью строчку в рейтинге Arena.ai, уступив лишь алгоритмам от Google и OpenAI. Это делает Microsoft полноправным игроком на рынке, который компания ранее полностью доверяла своим партнерам.

И над этим стоит задуматься. Microsoft платила миллиарды долларов OpenAI за поддержку работы Copilot и Bing Image Creator. Создание собственного конкурирующего визуального ИИ — весьма любопытный стратегический шаг.

Сейчас MAI-Image-2 доступна в тестовой среде MAI Playground, а в Copilot и Bing Image Creator она будет внедряться постепенно. Доступ по API пока открыт только для избранных корпоративных клиентов, но вскоре нейросеть появится и на платформе Microsoft Foundry.

Разработчики утверждают, что создавали модель, тесно общаясь с фотографами, дизайнерами и визуальными сторителерами. Результатом этих бесед стали три ключевых улучшения: повышенный фотореализм, более точная генерация текста прямо на картинках и расширенные возможности для детального, креативного построения сцен. Другой вопрос — превратило ли всё это нейросеть в действительно полезный инструмент?

Тестируем MAI-Image-2

Первое, что бросается в глаза при открытии MAI Playground — его сдержанность. Интерфейс минималистичный и чистый, визуально напоминающий нечто среднее между Claude и Hume. Здесь нет ни перегруженности панелей инструментов, как в Midjourney, ни формата чат-бота, как у Gemini.

Сами сгенерированные изображения действительно хороши. Фотореализм — сильная сторона новой модели: она отлично понимает естественное освещение, текстуры поверхностей и пространственные связи. Да, она не дотягивает до уровня гугловской Nano Banana Pro (которая не просто так возглавляет рейтинги), но в некоторых тестах на реалистичность MAI-Image-2 подбирается к лидеру на удивление близко.

Очевидно, что более точные промпты раскрывают потенциал нейросети еще лучше: наши первоначальные результаты заметно улучшились, как только мы начали детальнее прописывать описания.

Модель успешно справлялась даже со сложными, сюрреалистичными сценами, нарушающими законы логики. Она обошла конкурентов в прорисовке деталей: пропорциях тел, расположении конечностей, ощущении глубины и позиционировании объектов в пространстве. Например, изображение собаки, едущей на велосипеде посреди океана, пожалуй, стало самым точным из всех, что мы когда-либо получали в тестах «с первого запроса» (zero-shot).

Генерация текста — настоящая гордость алгоритма. MAI-Image-2 справилась со сложной типографикой гораздо стабильнее, чем мы ожидали. Крупные блоки текста на картинках, плакаты, вывески — всё это создается без типичной для большинства нейросетей «тарабарщины» и искажений букв. Мы даже протестировали ее на многоязычность: нейросеть смогла сгенерировать несколько китайских иероглифов (ханьцзы). И хотя точность была неидеальной, сам факт того, что она попыталась и частично справилась с задачей, заслуживает внимания.

Модель отлично улавливает художественные стили, без труда переключаясь между фотореализмом, эстетикой графического дизайна и иллюстрациями. Она внимательно считывает промпты, включая стилистические указания, и выдает связный, логичный результат. Это весьма универсальный инструмент для широкого спектра визуальных задач.

А теперь о грустном

В MAI-Image-2 встроены агрессивные фильтры цензуры — они жестче, чем в Google Imagen или DALL-E от OpenAI. Мы запустили наш стандартный тест: попросили нарисовать мультяшного паука, преследующего женщину, и получили категорический отказ. Повторимся: это просто мультяшный рисунок паука. Модерация контента здесь выкручена на такой уровень, который сведет с ума любого, кто работает на стыке жанров, рисует хоррор-иллюстрации или создает хоть сколько-нибудь напряженные сцены.

Лимиты на использование столь же суровы. Каждая генерация запускает 30-секундный «кулдаун» (ожидание). А после создания 15 изображений вы получаете блокировку на 24 часа. Для любительских экспериментов это терпимо, но для любого профессионального рабочего процесса в родном интерфейсе — это полный провал.

Кроме того, доступно только одно разрешение: 1:1. Никаких альбомных, портретных или пользовательских форматов. На дворе 2026 год, и это существенное ограничение — особенно для создания контента в соцсетях, куда Microsoft, по всей видимости, и планирует интегрировать эту модель через Copilot.

Кстати, о Copilot: MAI-Image-2 там пока нет. Процесс внедрения идет, но на сегодняшний день в продукте, где эта нейросеть нужнее всего, она отсутствует.

И еще один недостаток: это исключительно инструмент формата «текст-в-картинку». Здесь нет функций преобразования «изображение-в-изображение», локальной перерисовки (inpainting), дорисовывания фона (outpainting) или поддержки референсных картинок. Пользователям, ожидающим функционала редактирования на уровне Adobe Firefly или Midjourney, продукт покажется сырым и недоделанным.

Вердикт

MAI-Image-2 работает даже лучше, чем можно судить по ее месту в рейтингах. В наших практических тестах она превзошла GPT-Image по качеству изображения и отрисовке текста, что весьма любопытно, учитывая, что GPT-Image стоит выше нее в таблице лидеров Arena.ai. Бенчмарки не всегда отражают реальную картину.

Стратегическая логика создания этой модели ясна. Microsoft лицензировала визуальные ИИ-модели OpenAI для Copilot, одновременно спонсируя крупнейшего конкурента OpenAI — компанию Anthropic. Наличие собственной мощной модели снижает зависимость от партнеров, сокращает расходы при масштабировании и дает Microsoft продукт, который можно улучшать, ни у кого не спрашивая разрешения. С этой точки зрения MAI-Image-2 вовсе не обязательно обходить Nano Banana. Ей просто нужно быть «достаточно хорошей» — и она с этим справляется.

Проблема кроется в продуктовых ограничениях. Лимиты на генерацию, строгая политика контента, вывод только в формате 1:1, отсутствие функций редактирования — всё это ставит крест на полноценном практическом применении нейросети. Столь способная модель заслуживает соответствующей инфраструктуры.

MAI-Image-2 — это прочный технический фундамент, скованный консервативными решениями разработчиков. Как только Microsoft ослабит хватку и снимет ограничения, эта модель станет серьезным конкурентом на рынке. А пока — это лишь многообещающий тизер того, во что в будущем могут превратиться визуальные ИИ-технологии Microsoft.

Примечания:

Контекст отношений Microsoft и OpenAI — Microsoft инвестировала в OpenAI в общей сложности около 13 млрд долларов и долгое время позиционировала себя как дистрибьютора технологий OpenAI, а не как самостоятельного разработчика генеративного ИИ. Выпуск MAI-Image-2 — сигнал сдвига стратегии: компания, очевидно, стремится диверсифицировать зависимость от единственного поставщика. Это особенно актуально на фоне перехода OpenAI к коммерческой структуре, который может изменить условия партнёрства.
Arena.ai — открытая платформа для слепого сравнения генеративных моделей (по принципу Elo-рейтинга в шахматах). Пользователи оценивают результаты, не зная, какая модель их произвела, что делает рейтинг относительно объективным. Третье место в этом рейтинге для дебютной модели — результат весьма впечатляющий.
Упоминание Anthropic заслуживает пояснения. Microsoft действительно инвестировала в Anthropic (создателей Claude) — компанию, основанную бывшими сотрудниками OpenAI и являющуюся одним из главных её конкурентов. Это создаёт необычную ситуацию, при которой Microsoft одновременно финансирует и соперничающие между собой ИИ-компании, и собственные разработки.
Практический совет для тех, кто захочет попробовать: учитывая лимит в 15 изображений за 24 часа, имеет смысл заранее продумать и прописать промпты, а не экспериментировать наугад. Начните с конкретных, детализированных описаний — по данным тестов, модель лучше реагирует именно на них.
Термины:
- Инпейнтинг (inpainting) — замена или редактирование выделенной области внутри существующего изображения.
- Аутпейнтинг (outpainting) — расширение изображения за пределы его исходных границ.
- Zero-shot — генерация результата с первой попытки, без предварительной «настройки» модели примерами.
- Промпт — текстовое описание-инструкция, на основе которого модель создаёт изображение.

Смотреть комментарии → Комментариев нет

Добавить комментарий


Имя обязательно	E-mail обязательно

Нажимая на кнопку "Отправить", я соглашаюсь c политикой обработки персональных данных. Комментарий c активными интернет-ссылками (http / www) автоматически помечается как spam