GPT Image 2 от OpenAI против Nano Banana 2 от Google
Какая передовая ИИ-модель генерации изображений наиболее эффективна для получения безупречных результатов?
OpenAI недавно запустила GPT Image 2 с той степенной сдержанностью, которая свойственна людям, знающим, что результаты заговорят сами за себя. Никакой кейнот-презентации. Никакого хайп-цикла. Только страница модели — преимущественно галерея, — и результат на Image Arena, поставивший её на 242 балла выше любой другой модели, доступной на данный момент, — самый значительный отрыв за всю историю лидерборда.
Момент был выбран не случайно. Когда мы в последний раз оценивали верхний эшелон ИИ-генерации изображений, корону только что завоевала Google Nano Banana 2, и мы выставили её против ByteDance Seedream 5 Lite в состязании из семи категорий. Seedream достойно держалась по цене и пространственной точности. Nano Banana 2 победила по скорости и отрисовке текста. А потом в комнату вошла OpenAI.
GPT Image 2 — идентификатор модели gpt-image-2, работающий на архитектурной основе GPT-5.4, — это первая модель изображений OpenAI со встроенным в архитектуру нативным «рассуждением». Прежде чем что-либо нарисовать, она исследует, планирует и рационально продумывает структуру изображения.
Заодно OpenAI отправила в отставку DALL-E 3 и GPT Image 1.5 — обе будут отключены 12 мая. Это не обновление. Это замена.
Мы провели тот же самый тестовый фреймворк из семи категорий, что использовали в сравнении Nano Banana и Seedream, чтобы понять, что на самом деле изменилось — и способен ли нынешний чемпион Google удержать общий титул.
Что предлагает GPT Image 2
Главная фича — текст. OpenAI заявляет примерно 99-процентную посимвольную точность для латиницы, китайских, японских и корейских иероглифов (CJK), хинди и бенгальского письма. Это не скромное улучшение по сравнению с предыдущими моделями — отображение текста исторически было той самой штукой, которая делала ИИ-генераторы изображений похожими на игрушки: искажённые вывески, бессмысленные шрифты, буквы, наплывающие друг на друга.
GPT Image 2, судя по всему, эту проблему почти полностью решила.
Модель поддерживает разрешение до 4K и генерирует до восьми когерентных изображений с одного промпта, с сохранением целостности персонажей и объектов по всему пакету. Это последнее — пакетная согласованность — новый примитив для производственных пайплайнов. Издатели детских книг и агентства, запускающие мультиформатные кампании, теперь имеют инструмент, которого до этого момента не существовало.
Доступ — многоуровневый. Instant Mode даёт базовый скачок качества всем пользователям ChatGPT, включая бесплатный тариф. Thinking Mode — где модель рассуждает, ищет информацию в интернете и проверяет себя перед генерацией, — ограничен подписчиками Plus, Pro и Business. Официальный API откроется для разработчиков в начале мая.
А пока прямой доступ осуществляется через ChatGPT или сторонние прокси по цене примерно $0,01–$0,03 за изображение. Токен-ориентированные расценки API у OpenAI — $8 за миллион входных токенов и $30 за миллион выходных токенов изображений — что несколько дешевле, чем $60 за миллион выходных токенов у Nano Banana 2 на сопоставимых разрешениях.
Тестирование GPT Image 2 против Nano Banana 2: кто побеждает?
Реализм: тест «архитектор на крыше»
Промпт требовал кинематографический портрет 32-летней женщины-архитектора на закате, с ограничениями по цвету пальто, типу очков, рулону синьки в правой руке, освещению «золотого часа», симуляции глубины резкости 50 мм, плёночной зернистости и вертикальному соотношению сторон 4:5. Каждый элемент был независимым ограничением, которое могло провалиться.
GPT Image 2 выдала впечатляющий результат по сравнению с предшественницей, однако взгляд героини обладает тем типичным «ИИ-настроением», которое иногда легко заметить. Боке городского горизонта повело себя как настоящий 50 мм f/1.8. Ткань тренча обрела тактильный вес. Кожа показала естественную текстуру веснушек с реалистичным подповерхностным рассеиванием — вместо гладкого синтетического финиша, характерного для диффузионных моделей, натренированных на «красивых» датасетах. Синька в правой руке — как и требовалось.
Nano Banana 2 выдала компетентный портрет, который воспринимается как составной. Закат на оттенок-другой перенасыщен для реального «золотого часа». Кожа тоже очень естественна для данного разрешения, но взгляд героини выглядит более подлинным и живым. При этом плёночной зернистости нет, а в руках у неё несколько листов синьки вместо одного рулона. Само изображение очень похоже на результаты предыдущих тестов — это показывает, что модели недостаёт креативности при задании разных ограничений.
Победитель: Nano Banana 2
Искусство и живопись: тест «ренессансный астроном»
Этот промпт требовал изображение в духе Рембрандта с тремя конкурирующими источниками света — тёплой свечой, холодным лунным светом и зелёной биолюминесцентной банкой, — которые должны были корректно смешиваться в пространстве загромождённой каменной обсерватории. Также требовались: конкретный список предметов на столе, кот с одной белой лапой и видимая фактура масляного мазка.
GPT Image 2 справилась с физикой света верно. Каждый источник отбрасывает собственную цветовую температуру на поверхности. Бархатный халат бахромится на манжетах, череп используется как подпорка для книг, фолиант содержит нечто, что можно интерпретировать как рукописный текст, а чёрный кот с белой лапой вырисовывается силуэтом на фоне кометного неба. Вся сцена читается как реальная масляная живопись, а не рендер.
Однако GPT Image 2 проявила один изъян, который может оказаться её проклятьем до выхода следующей модели: когда задано слишком много параметров, модель перешарпливает изображение и генерирует множество артефактов, серьёзно снижающих качество. Это, вероятно, эквивалент пресловутого «пис-фильтра» GPT Image 1, только для нового поколения.
Nano Banana 2 создала нечто красивое — но не в том жанре. Результат оказался ближе к качественной иллюстрации в духе фэнтезийных карточных игр, чем к масляной живописи. Картина плоская, текст фолианта содержит настоящие буквы, но не читаемый шрифт, а у кота две белые лапы вместо одной. Сцена пересвечена, но источники света представлены верно.
Победитель: GPT Image 2
Иллюстрация: тест «аниме-медиум»
Вот здесь Nano Banana 2 наносит ответный удар с полной силой. Промпт запрашивал ключевой арт в стиле аниме-студии Ufotable — создавшей «Истребителя демонов» и Fate/Zero, — с конкретными техническими требованиями: цел-шейдинг с вариацией веса контурных линий, тело, постепенно растворяющееся в энергию, подповерхностное свечение кожи, девятихвостый лис-кицунэ, каллиграфия талисманов-офуда читаемыми кандзи и живописный сумеречный фон в духе Макото Синкая в фиолетовых, янтарных и розовых тонах.
Nano Banana 2 выдала то, что, возможно, является лучшим отдельным результатом за все семь категорий. У цел-шейдинга корректная вариация веса чернильного контура. Хвосты светящиеся и отчётливо присутствуют. Кандзи на офуда узнаваемы. Сумеречный градиент точен. Композиция читается как настоящий театральный постер.
GPT Image 2, для сравнения, произвела аниме-пастиш. Чистые контуры, корректный эффект энергетического растворения, хорошее боке от лепестков сакуры — но фирменное подповерхностное свечение кожи Ufotable отсутствует, а девятихвостый кицунэ сведён к единственному физическому хвосту-компаньону и ещё нескольким хвостам, выглядящим иначе.
Опять же — на этом изображении перешарпливание и артефакты бросаются в глаза, и изображение визуально неприятно.
Победитель: Nano Banana 2
Леттеринг и понимание стиля: тест «дизайн подписи»
Обеим моделям были показаны референсные образцы от профессионального сервиса леттеринга — витиеватый рукописный стиль подписи с контролируемой сложностью — и предложено создать подпись для «José Lanz» в той же эстетике: абстрактной, но читаемой.
GPT Image 2 выдала чистое, текучее рукописное начертание с корректными петлями восходящих элементов, отрендеренное на фактурной бумаге с эффектом тиснёной высокой печати. Подпись совершенно читаема как «José Lanz», при этом стилизована. Критика: модель сыграла осторожно. Референсный материал более энергично запутан, чем то, что выдала GPT. Но это готовый результат, который можно использовать, — и он должным образом имитирует референс.
Nano Banana 2 попыталась соответствовать витиеватой сложности и выдала нечитаемые каракули. Привлекательность референса — в контролируемом хаосе: петлях, которые выглядят дикими, но разрешаются в читаемые буквенные формы. Gemini выдала дикость и потеряла читаемость. Она также воспроизвела водяной знак сервиса, что является проблемой с точки зрения интеллектуальной собственности в любом профессиональном контексте.
Победитель: GPT Image 2 — с большим отрывом
Пространственное мышление: тест «стимпанк-панорама»
Это сложный композиционный промпт с инструкциями по расположению различных объектов в конкретных местах: огромный стимпанковский город в виде башни с часами с трёхчетвертного воздушного ракурса, с пятью слоями глубины, градиентом атмосферной дымки и шестью конкретными читаемыми текстовыми элементами, распределёнными по всей сцене, — включая четыре циферблата, каждый из которых показывает разное время римскими цифрами.
Nano Banana 2 чуть-чуть вырывается вперёд. Её воздушная геометрия убедительнее — вид на три четверти действительно читается как три четверти, а не как наклонённый фронтальный вид. Пять слоёв глубины отчётливо разделены, атмосферная дымка корректно усиливается с расстоянием, а текстура мокрой булыжной мостовой и газеты превосходна. Элементы представлены верно, текст читаем — но не все строки появились на сцене.
GPT Image 2 верно воспроизвела все шесть текстовых элементов и все циферблаты — но слои глубины частично схлопываются на среднем плане, а башня с часами показала четверо часов с разным временем. При этом тексты модель отобразила точнее: например, на гаргулье виден документ с надписью «Sector 7: Condemned», которую Nano Banana Pro не воспроизвела.
Опять же — большое количество параметров, которые нужно учитывать, судя по всему, ухудшило качество изображения, вызвав эффект перешарпливания — примерно как при использовании LoRA в Stable Diffusion со слишком высоким весом присутствия.
Победитель: Nano Banana 2
Плотность леттеринга: тест «скобяная лавка Келлермана»
Самый суровый тест на воспроизведение текста: суровый городской перекрёсток в два часа ночи, где каждая поверхность несёт читаемый текст — старинная вывеска-призрак, граффити хромированными «пузырьковыми» буквами, виниловая надпись на витрине, концертный постер со штрих-кодом, надорванный нижний слой с проглядывающей надписью, тиснёные металлические буквы навеса, рукописный текст на картоне, трафаретная надпись на бордюре и заклеенная стикерами телефонная будка с конкретным текстом, включая «ANSWERS TO MOCHI».
GPT Image 2 продемонстрировала почти безупречное воспроизведение элементов. Каждый указанный текстовый элемент присутствовал и был читаем. Исчезающая тень и текстура облупившейся краски вывески-призрака — исключительны. Цветовой оттенок натриевых ламп был точен — тот самый специфический зелёно-янтарный цвет реальных натриевых уличных фонарей, а не обобщённый янтарный. Мокрые асфальтовые отражения убедительны.
Nano Banana 2 также показала сильный результат, но потеряла часть конкретики. Граффити «STILL HERE» использовало контурные пузырьковые буквы вместо хромированной заливки. Надорванный слой постера получился лишь частичным. Цвет натриевых ламп оказался более обобщённым. Несколько элементов из промпта не пережили рендер. И всё же визуально это было более приятное изображение, чем то, что выдала GPT Image 2, — из-за её дефекта перешарпливания.
Победитель: GPT Image 2 — за следование промпту
Агентское исследование: тест «биткоин-таймлайн»
Эта категория тестирует нечто иное — не качество рендеринга, а редакционное суждение и информационную архитектуру. Обе модели способны активировать агента для поиска и исследования перед отрисовкой изображения — так что мы сравнили обе.
Промпт запрашивал широкоформатную историю биткоина в стиле детского рисунка — с жёсткой планкой качества по точности информации.
GPT Image 2 подошла к задаче как к заказу на инфографику. Результат использует горизонтальный таймлайн с цветовыми маркерами годов, слотами для иллюстраций сверху и пояснительным текстом под каждым событием. Даты конкретны: 31 октября 2008 года — white paper; 3 января 2009 года — genesis block; 22 мая 2010 года — Pizza Day. Запись о Mt. Gox корректно указывает потерянные 850 000 BTC. События равномерно распределены от 2008 до 2024 года.
Результат Nano Banana 2 очаровательнее — метафора извилистой дороги для волатильного пути биткоина по-настоящему остроумна, — но заголовок от первого лица «Мой биткоин-таймлайн» странноват для информационного материала. Секция 2020–2024 визуально перегружена, а плотность информации неравномерна по эпохам.
Вердикт: ничья. Nano Banana визуально приятнее, но GPT Image 2 содержит больше информации.
Редактирование изображений: тест «редизайн гостиной»
Этот тест измеряет нечто отличное от чистой генерации: насколько хорошо модель считывает существующее пространство и трансформирует его, оставаясь привязанной к конкретной комнате. Это ближе к тому, что требуется от приложения для виртуального стейджинга или от инструмента архитектора по интерьерам.
Промпт: Вот фото моей гостиной. Сделай её более современной и минималистичной. Замени пол на белый мраморный, используй зеркала в согласованном стиле для оформления передней стены и сделай общую эстетику современной и более приятной глазу.
Результат GPT Image 2 немедленно узнаваем как та же самая комната. Дверь на прежнем месте. Умный замок на месте. Расположение настенных картин, подвесное растение, полка — всё сохранено.
Дизайнерские решения модели также действительно хороши для заданного промпта: она заменила разномастную композицию из зеркал на подсвеченный триптих, создающий фокусную стену, и тёплое светодиодное свечение за панелями — это реальный приём из дизайна интерьеров. Отражения в зеркалах действительно совпадают с референсами — интересная реализация.
При этом модель не реализовала изменения пола.
Результат Gemini выглядит реалистичнее за счёт освещения, но состоит в более хаотических отношениях с исходником. Инструкцию «используй зеркала» она восприняла буквально до абсурда и наставила зеркала на зеркала. Смешение стилей рам (где золото, где латунь, разные формы) также прямо противоречит инструкции «в согласованном стиле».
Похоже, модель наложила слой inpainting на участки, которые пометила как редактируемые. Перспектива тоже слегка поплыла.
Победитель: GPT Image 2 — за сделанный выбор. Проще по отдельности итерационно менять элементы, чем объяснять Gemini, как изменить всё, что она сама же и создала.
Вердикт
GPT Image 2 побеждает в большинстве категорий: реализм, классическая живопись, каллиграфическая подпись, редактирование изображений и плотность леттеринга. Nano Banana 2 выигрывает в аниме-иллюстрации, пространственной композиции и структурированном информационном дизайне. При этом она — самая стабильная модель, когда речь идёт о длинных промптах.
В целом, пока вы даёте ChatGPT достаточно творческой свободы, чтобы не спровоцировать эффект перешарпливания, результаты будут эстетически приятны, реалистичны и сильны в работе с текстом. Однако модели настолько близки по качеству, что грамотная стратегия промптинга может склонить чашу весов в пользу каждой из них.
Возможно, GPT Image 2 — самая простая модель для старта «с чистого листа», но Nano Banana 2 при правильной технике промптинга и последовательных итерациях способна выдавать выдающиеся результаты, которые могут выглядеть более профессионально и отполированно — в зависимости от конкретного сценария использования.
Дополнения и примечания:
-
«Нативное рассуждение» (native reasoning) — в контексте модели изображений это означает, что система не просто «переводит текст в картинку», а сначала выстраивает внутреннюю модель того, что она будет рисовать: расположение объектов, освещение, перспективу, взаимодействие предметов. В GPT Image 2 это реализовано через backbone GPT-5.4, который по сути «думает» о композиции до того, как запустить генерацию. Отсюда и разделение на Instant Mode («быстро нарисовала») и Thinking Mode («подумала, погуглила, проверила себя и нарисовала»).
- «Пис-фильтр» (piss filter) — ироничное прозвище визуального дефекта, характерного для предыдущего поколения моделей OpenAI (GPT Image 1): изображения приобретали неестественный желтовато-коричневый оттенок, напоминающий цвет старой мочи. Термин пришёл из геймерского сленга (так называли моду на жёлто-коричневые цветокоррекции в играх конца 2000-х). Автор предполагает, что «перешарпливание» — аналогичное родовое проклятье уже нового поколения моделей.
- «Вывеска-призрак» (ghost sign) — специфический термин из городской типографики: старая, выцветшая рекламная роспись на кирпичной стене здания, оставшаяся от давно исчезнувшего бизнеса. В американских городах это часть визуального ландшафта. Требование отрисовать ghost sign с читаемым текстом и правильной текстурой облупившейся краски — один из самых технически сложных элементов теста.
- Image Arena и отрыв в 242 очка — Image Arena — это система попарных сравнений (human preference scoring), где люди голосуют, какое из двух изображений лучше. Отрыв в 242 пункта — беспрецедентный: обычно лидеры сменяют друг друга с преимуществом в 10–30 очков. Это объясняет, почему OpenAI не стала проводить презентацию: цифры были настолько красноречивы, что маркетинг был излишен.
- Ufotable — японская аниме-студия, чей визуальный стиль — один из самых трудно воспроизводимых. Их техника совмещает цифровую анимацию с имитацией традиционной живописи; их цел-шейдинг — с узнаваемой вариацией толщины контура и характерным подповерхностным свечением кожи персонажей. Именно в этой категории Nano Banana 2 одержала самую убедительную победу, подтвердив, что Google лучше понимает японскую анимационную эстетику.
- Цена токенов — на первый взгляд, $30 за миллион токенов у OpenAI против $60 у Google — двукратная экономия. Но в ИИ-изображениях количество токенов на изображение растёт с разрешением и сложностью, и при высоких разрешениях разница может нивелироваться. Автор корректно не объявляет однозначного ценового победителя.
- Пакетная согласованность (batch consistency) — способность сгенерировать не просто 8 похожих картинок, а 8 картинок, где персонаж выглядит одинаково, освещение идентично, стиль не плывёт. Для издательств детских книг (одна белка на 32 страницах должна выглядеть как одна и та же белка) и рекламных кампаний (бренд-персонаж в разных форматах) это критичное свойство, которого не было у предыдущего поколения моделей.
- Thinking Mode, веб-поиск и биткоин-тест — функция, когда модель перед рисованием выходит в интернет, проверяет факты и только потом генерирует, — потенциально решает проблему «галлюцинаций в картинках». Биткоин-тест показал разницу в подходах: GPT Image 2 «отнеслась к заданию как к инфографике на заказ» (сухо, точно), а Nano Banana 2 — «скорее как к иллюстрации» (очаровательно, но со странным выбором заголовка). Это принципиальный водораздел: нужна ли креативность там, где требуется точность?
- Рекомендация: если вы работаете с ИИ-генерацией изображений, главный практический вывод из статьи — разные модели являются лучшими в разных доменах. Для универсальной работы «с нуля» удобнее GPT Image 2 (особенно если важны текст и промпт-соответствие); для аниме, стилизации и сложной пространственной композиции — Nano Banana 2. Кроме того, авторы вскрыли важный баг GPT Image 2 — перешарпливание при перегруженном промпте, — и знание этого бага позволяет его обходить: давать модели больше свободы, не перечисляя десятки жёстких ограничений. Для практиков: оптимальная стратегия — держать под рукой обе и выбирать под задачу. Для интересующихся трендами: рост рассуждающих моделей в мире изображений означает, что ИИ перестаёт быть «станком для картинок» и становится «младшим арт-директором», чьи решения можно и нужно проверять.