
Китайский видеоинструмент Kling 2.1 с искусственным интеллектом за 9 долларов добавляет аудио… но сможет ли он превзойти Veo 3 от Google за 250 долларов?
23.06.2025, 11:50, Технологии
Теги: Кино, Телевидение, Технологии
Китайская платформа коротких видео Kuaishou добавила функцию генерации звука в Kling 2.1, свой инструмент для создания видео на основе искусственного интеллекта, что позволяет пользователям создавать клипы с синхронизированными звуковыми эффектами, такими как шаги, осадки и окружающий шум.
Функция, которая была запущена на прошлой неделе, доступна в режиме Kling «изображение в видео», где пользователи загружают неподвижное изображение, а платформа анимирует его с помощью движения и звука, сгенерированных искусственным интеллектом.
Время противопоставляет Kling Veo 3 от Google, который был запущен с интегрированными аудиовозможностями с первого дня.
Первые пользователи X высоко оценили бесшовную аудиовизуальную синхронизацию Kling, а создатель Роберто Никсон назвал ее «одной из самых полезных моделей на рынке» для создания генеративного видеоконтента.
Эта функция бесплатна во время первоначального развертывания, доступна через веб-сайт и мобильное приложение Kling.
Kling 2.1 генерирует 5-10-секундные клипы с разрешением до 1080p, используя то, что компания описывает как «3D-механизмы пространственно-временного внимания» для синхронизации звуков с визуальными эффектами.
В настоящее время инструмент создает только звуковые эффекты — без диалогов или музыки — и воспроизводит что-то похожее на звук на языке Юго-Восточной Азии, когда используется текст — очень тональный и совершенно неразборчивый. Но одного этого недостаточно, чтобы сделать Google бесспорным королем генеративного видео.
Цена создания
Ценовой разрыв между двумя платформами оказывается огромным.
Аудиофункция Kling 2.1 совместима только со стандартной версией, а не с более дорогой версией Master. Тем не менее, при текущих темпах пользователи могут создавать более 20 видео на Kling для каждого отдельного творения Veo 3.
Например, используя кредитную систему Freepik, одно поколение с Google Veo 3 в настоящее время продается за 4 000 кредитов (при обычной цене 8 000 кредитов за видео), в то время как Kling 2.1 стоит 300 кредитов за видео.
Модель Google работает исключительно через подписку Ultra за 250 долларов в месяц. Kling доступен на своем официальном сайте, предлагая несколько бесплатных поколений с подпиской от 9 долларов в месяц.
Даже с учетом текущих рекламных цен Google, Veo 3 остается в десять раз дороже, чем Kling.
Для создателей, которые знают, что создание видео включает в себя множество проб и ошибок, с частотой неудач, которая разочаровывает даже терпеливых пользователей, экономика Kling делает эксперименты возможными.
Тарифный план Premium от Kling открывает разрешение 1080p, улучшая общее качество видео при сохранении преимущества в стоимости.
Возможности аудио
Но вы получаете то, за что платите. Veo 3 предлагает сложную генерацию звука, точно синтезируя речь и сопоставляя сложные звуковые элементы с визуальными сценами.
Его понимание пространственного аудио и контекстуальных звуков значительно превосходило предложения Kling.
Хотя Kling 2.1 не может конкурировать, справедливости ради, он стремился к чему-то другому: окружающим звукам и фоновым эффектам — ни диалогов, ни музыки. Так что забудьте пока об этих вирусных уличных интервью с искусственным интеллектом. Попытки создать аудио приводят к речевой тарабарщине.
Новая способность платформы добавлять эффекты к существующим немым видео дает ей преимущество, с которым Veo 3 не мог сравниться.
Пользователи могут загружать готовые видео и достраивать их с помощью соответствующих звуковых ландшафтов, что модель Google не поддерживает. Странно, но Veo может создавать видео, но не может их редактировать.
Пользователи могут загрузить фотографию и речь или диалог отдельно, а модель снимет видео, в котором объекты взаимодействуют естественно, как будто они разговаривают друг с другом в соответствии с загруженным аудио.
Соотношение поколений двадцать к одному означало, что создатели могли экспериментировать с различными подходами к звуку на Kling, в то время как пользователям Veo 3 приходилось оттачивать свой звуковой дизайн за меньшее количество попыток.
Для любителей и тех, кто изучает генеративное видео, подход Клинга предлагает больше возможностей для проб и ошибок.
Но профессиональные создатели, которым нужна точная аудиовизуальная синхронизация и диалоги, найдут сложный звуковой движок Veo 3 достойным внимания.
Качество генерации видео
Тестирование качества видео дало неожиданные результаты. В тестовой сцене, где женщина убегает от гигантского паука, стандартная версия Kling 2.1 превзошла как Veo 3, так и собственную версию Master.
Стандартная модель точно передавала динамику сцены, демонстрируя плавное движение и правильное направленное движение. Veo 3 необъяснимым образом заставил женщину бежать к пауку, а не убегать от него.
Версия Master обычно обеспечивает более четкое и четкое изображение, но стандартная версия продемонстрировала превосходное понимание сцены и более плавное движение.
Это странно, поскольку более высокое разрешение всегда должно приводить к лучшим результатам, но, возможно, проблема сводилась к проблемам с техникой или просто невезению в генерации.
Тем не менее, стандарт Kling 2.1 с поколениями 1080p — отличная модель, которая не уступает Google Veo 3.
Рабочие процессы платформы и ограничения
Ограничения платформы по-разному влияют на рабочий процесс каждого инструмента. Функция аудио в Kling 2.1 работает только с преобразованием изображения в видео, а не с преобразованием текста в видео, которое остается эксклюзивным для версии Master без поддержки звука — да, это странно, но это то, что есть.
Лучшим решением является использование Kolors, генератора изображений Kuaishou, для создания начальных кадров перед преобразованием их в видео с синхронизированным звуком. Kolors создает высокореалистичные изображения, которые служат отличной отправной точкой для создания видео.
Тем не менее, вы можете обнаружить, что такие модели, как Reve, MidJourney, Recraft, Flux и даже ChatGPT, легче подсказать.
Veo 3 использовал противоположный подход, предлагая только генерацию текста в видео без какой-либо опции преобразования изображения в видео.
Это вынуждает пользователей полностью полагаться на оперативную разработку, не имея возможности управлять начальным визуальным рядом.
Решение Google также кажется особенно странным, учитывая, что предыдущая версия Veo 2 на самом деле поддерживает преобразование изображения в видео через отдельную платформу Flow.
Отсутствие визуального контроля означает, что пользователям приходится создавать видео вслепую, надеясь, что их текстовые подсказки выдадут желаемые стартовые кадры.
Подходы к модерации контента
Модерация контента выявила противоположные философии. Veo 3 использует агрессивную фильтрацию по ключевым словам и постгенерацию проверок, блокируя контент, нарушающий политику Google.
Система помечает потенциально проблемные запросы перед генерацией и анализирует готовые видео на предмет нарушений политики.
Kling применяет более либеральные ограничения, разрешая контент, который Veo будет полностью блокировать.
Однако обучающие данные модели, естественно, исключали откровенный контент — модель генерирует фигуры без анатомических деталей и насилие без крови.
Таким образом, пользователи могут создавать определенные типы контента, которые обходят фильтры по ключевым словам, сохраняя при этом границы безопасности.
Обе платформы возвращают кредиты, когда цензура после поколения блокирует видео, но более легкое прикосновение Kling(а) дает больше творческой свободы в пределах границ.
Выводы
Veo 3 все еще может быть королем, но Kling 2.1 определенно близок к популисту с миссией свержения монархии.
Его аудиофункция довольно революционна, если учесть, что это инструмент за 9 долларов, конкурирующий с подпиской за 250 долларов.
Атмосферные звуки работают, дождь звучит как дождь, шаги в большинстве случаев соответствуют движению, и вы можете создать двадцать попыток, пока пользователи Veo тщательно разрабатывают свой единственный выстрел.
Эта функция модернизации, когда вы добавляете звук к готовым видео, — это то, чего Google не предлагает, и она действительно полезна для спасения беззвучных клипов.
Все будет выглядеть совершенно иначе, если ваша основная цель – речь. Тарабарщина Kling(а) никого не обманет.
Для такого рода специфических требований Google Veo 3 является очевидным и единственным выбором…