
Tencent Hunyuan Video-Foley предлагает реалистичное звучание в ИИ видео
28.08.2025, 11:41, Технологии
Теги: Кино, Развлечения, Телевидение
Команда из лаборатории Hunyuan компании Tencent создала новый искусственный интеллект «Hunyuan Video-Foley», который, наконец, обеспечивает реалистичное звучание в сгенерированном видео.
Он предназначен для прослушивания видео и создания высококачественного саундтрека, который идеально синхронизируется с действием на экране.
Вы когда-нибудь смотрели видео, созданное искусственным интеллектом, и чувствовали, что чего-то не хватает? Визуальные эффекты могут быть ошеломляющими, но они часто имеют жуткую тишину, которая разрушает чары. В киноиндустрии звук, который наполняет эту тишину – шелест листьев, раскаты грома, звон стакана – называется Foley art, и это кропотливое ремесло, выполненное специалистами.
Соответствие такому уровню детализации является огромной проблемой для ИИ. В течение многих лет автоматизированные системы изо всех сил пытались создать правдоподобные звуки для видео.
Одной из главных причин, по которой модели «видео-аудио» (V2A) часто не дотягивали в области звука, было то, что исследователи называют «дисбалансом модальности». По сути, ИИ больше слушал текстовые подсказки, чем смотрел реальное видео.
Например, если вы дадите модели видео оживленного пляжа с гуляющими людьми и летающими чайками, но в текстовой подсказке будет указано только «шум океанских волн», вы, скорее всего, просто получите шум волн. ИИ будет полностью игнорировать шаги на песке и крики птиц, из-за чего сцена будет казаться безжизненной.
Вдобавок ко всему, качество звука часто было на низком уровне, и просто не хватало высококачественного видео со звуком для эффективного обучения моделей.
Команда Tencent в Хуньюане подошла к решению этих проблем с трех разных точек зрения:
— Tencent поняла, что ИИ нуждается в более качественном образовании, поэтому они создали огромную библиотеку видео, аудио и текстовых описаний на 100 000 часов, на основе которой он мог бы учиться. Они создали автоматизированный конвейер, который отфильтровывал некачественный контент из Интернета, избавляясь от клипов с длительной тишиной или сжатого, нечеткого звука, гарантируя, что ИИ обучается на наилучшем возможном материале.
— Они разработали более интеллектуальную архитектуру для искусственного интеллекта. Думайте об этом как о том, чтобы научить модель правильно выполнять несколько задач одновременно. Система сначала уделяет невероятно пристальное внимание визуально-звуковой связи, чтобы правильно рассчитать время — например, сопоставить стук шагов с точным моментом, когда обувь ударяется о тротуар. После того, как он зафиксировал время, он включает текстовую подсказку, чтобы понять общее настроение и контекст сцены. Такой двойной подход гарантирует, что конкретные детали видео никогда не будут упущены из виду.
— Чтобы гарантировать высокое качество звука, они использовали стратегию обучения под названием Representation Alignment (REPA). Это все равно, что опытный звукорежиссер постоянно смотрит через плечо ИИ во время его обучения. Он сравнивает работу искусственного интеллекта с функциями предварительно обученной аудиомодели профессионального уровня, чтобы направить его на создание более чистого, насыщенного и стабильного звука.
Сегодня мы объявляем о выпуске HunyuanVideo-Foley с открытым исходным кодом, нашей новой комплексной платформы Text-Video-to-Audio (TV2A) для создания высококачественного звука. 🚀
Когда Tencent протестировала Hunyuan Video-Foley в сравнении с другими ведущими моделями искусственного интеллекта, результаты звука были ясны. Дело было не только в том, что компьютерные метрики были лучше; Слушатели-люди неизменно оценивали его результат как более качественный, лучше соответствующий видео и более точно рассчитанный по времени.
По всем направлениям искусственный интеллект улучшил звук в соответствии с действием на экране, как с точки зрения контента, так и времени. Результаты нескольких наборов оценочных данных подтверждают это:
Работа Tencent помогает сократить разрыв между бесшумным видео с искусственным интеллектом и захватывающим просмотром с качественным звуком. Он привносит магию искусства Foley в мир автоматизированного создания контента, что может стать мощной возможностью для кинематографистов, аниматоров и создателей контента во всем мире.