
Google расширяет возможности Gemini AI Image
27.08.2025, 6:21, Технологии
Теги: Бизнес, Интернет
Во вторник Google запустил Gemini 2.5 Flash Image, представив новую модель искусственного интеллекта, которая генерирует и редактирует изображения с большей точностью и согласованностью символов, чем предыдущие инструменты, пытаясь сократить разрыв с ChatGPT от OpenAI.
Стремление технологического гиганта интегрировать расширенное редактирование изображений в Gemini отражает более широкое стремление платформ искусственного интеллекта включить генерацию изображений в качестве обязательной функции. Новый инструмент, теперь доступный во всех приложениях и платформах Gemini, позволяет пользователям редактировать визуальные эффекты с использованием естественного языка, выполняя сложные задачи, такие как изменение позы или объединение нескольких изображений, без искажения лиц или сцен.
В сообщении в блоге Google говорится, что модель позволяет пользователям «размещать одного и того же персонажа в разных средах, [и] демонстрировать один и тот же продукт с разных сторон… и все это при сохранении темы».
Nano Banana здесь → Gemini-2.5-flash-image-preview
— Генерация и редактирование изображений SOTA
— невероятная постоянство персонажа
— Молниеносно
доступно в предварительном просмотре в AI Studio и Gemini API
— Google AI Studio (@googleaistudio) 26 августа 2025 г.
Модель впервые появилась под псевдонимом «nano-banana» на краудсорсинговом тестовом сайте LMArena, где она привлекла внимание своим бесшовным редактированием. Во вторник Google подтвердила, что стоит за этим инструментом.
В Google заявили, что система может объединять несколько изображений, поддерживать согласованность персонажей для повествования или брендинга, а также интегрировать «мировые знания» для интерпретации диаграмм или комбинирования справочных материалов — и все это в рамках одной подсказки.
Модель стоит 30 долларов за миллион выходных токенов — около четырех центов за изображение — в Google Cloud. Он также распространяется через OpenRouter и fal.ai.
OpenAI представила модель GPT-4o в мае 2024 года и добавила генерацию изображений в марте 2025 года, что помогло увеличить использование ChatGPT до 700 миллионов активных пользователей в неделю. Google сообщил о 400 миллионах активных пользователей Gemini в месяц в августе 2025 года, что указывает на еженедельное использование, которое значительно отстает от OpenAI.
Google заявила, что все выходные данные будут включать невидимый водяной знак SynthID и тег метаданных, чтобы пометить их как созданные искусственным интеллектом, чтобы решить проблемы, связанные с неправомерным использованием и подлинностью.