SoundHound наделяет свой ИИ силой зрения - Такое кино
 

SoundHound наделяет свой ИИ силой зрения

12.08.2025, 16:30, Технологии
Теги: ,

SoundHound AI, уже являющийся крупным игроком в области голосовых помощников, теперь дает своей технологии пару глаз.

Представьте себе, что вы проезжаете мимо достопримечательности и, не доставая телефон, спрашиваете свою машину: «Что это за здание?» и получаете мгновенный ответ. Это то, что создает компания.

С запуском Vision AI новая система SoundHound сочетает в себе зрение и звук, создавая гораздо более интеллектуальный и естественный способ взаимодействия с технологиями. Идея состоит в том, чтобы имитировать то, как мы, люди, действуем; Мы не просто слушаем кого-то, мы также видим его жесты и то, на что он смотрит.

Привнося такое же контекстуальное понимание в искусственный интеллект, SoundHound надеется сгладить неуклюжий и часто разочаровывающий опыт, который мы имеем со многими современными умными устройствами. Компания нацелена на реальные приложения, где это объединенное чувство может иметь огромное значение, будь то в вашем следующем автомобиле, в ресторане или в заводском цеху.

Кейван Мохаджер, генеральный директор SoundHound AI, сказал:

— В SoundHound мы считаем, что будущее искусственного интеллекта не просто мультимодальное — он глубоко интегрирован, быстро реагирует и создан для реального воздействия. С помощью Vision AI мы расширяем наше лидерство в области голосового и разговорного ИИ, чтобы переосмыслить то, как люди взаимодействуют с продуктами и услугами, предлагаемыми и используемыми предприятиями.

Итак, как это работает? Vision AI берет прямую трансляцию с камеры и объединяет ее с голосовой технологией компании, которая уже превосходно понимает естественную речь. Обрабатывая то, что она видит и слышит в одно и то же время, система может уловить истинные намерения пользователя так, как это никогда не смог бы сделать простой голосовой помощник.

Представьте себе механика в умных очках, который может просто посмотреть на деталь двигателя и попросить инструкции, получая мгновенные визуальные и звуковые указания, даже не откладывая свои инструменты. В магазине сотрудник может сканировать полки, просто глядя на них, чтобы получить инвентаризацию в режиме реального времени. Для остальных из нас это может означать киоск для автомобилистов, который визуально подтверждает наш заказ на экране в тот момент, когда мы его произносим.

Одной из самых больших технических проблем при создании такой системы является обеспечение идеальной синхронизации аудио и визуальных элементов. Любая задержка разрушила бы иллюзию естественного разговора.

Пранав Сингх, вице-президент по разработкам SoundHound AI, прокомментировал:

— С помощью Vision AI мы объединяем визуальное распознавание и разговорный интеллект в единый синхронизированный поток. Каждый кадр, каждое высказывание, каждое намерение интерпретируются в одной и той же экосистеме, что обеспечивает более быстрое и естественное взаимодействие с пользователем, которое масштабируется на всех поверхностях — от киосков до встроенных устройств. Это инновация на пересечении интеллекта и исполнения, создающая искусственный интеллект, который видит то, что вы видите, слышит то, что вы говорите, и реагирует в момент.

Для компаний, внедряющих эту технологию, обещание состоит в том, чтобы обеспечить более быстрое обслуживание, меньше ошибок и более довольных клиентов. Речь идет об устранении трения и о том, чтобы технологии воспринимались не как инструмент, с которым вы должны работать, а как партнер, который помогает вам выполнять свои задачи.

Эта новая визуальная возможность — не единственное обновление, которое внедряет SoundHound. Компания также недавно улучшила «мозг» своей системы с помощью нового обновления Amelia 7.1. Это усовершенствование делает агентов ИИ быстрее, точнее и дает компаниям больше контроля и прозрачности в своей работе.

Сочетая изображение и звук, SoundHound стремится приблизить нас к миру, где взаимодействие с искусственным интеллектом кажется таким же простым и интуитивно понятным, как разговор с другим человеком.


Смотреть комментарии → Комментариев нет


Добавить комментарий

Имя обязательно

Нажимая на кнопку "Отправить", я соглашаюсь c политикой обработки персональных данных. Комментарий c активными интернет-ссылками (http / www) автоматически помечается как spam

ПОСЛЕДНЕЕ

30.03 / Зрители платят больше: как Netflix и другие стриминги утроили свои доходы за пять лет

30.03 / Disney и платформа Comixit! объединяются, чтобы заставить детей снова читать

30.03 / Огненные шары, Спанч Боб и мертвые авианосцы: как нейросети превратили войну США и Ирана в видеоигру?

29.03 / Конец человеческой литературы — смогут ли издатели когда-нибудь отличить текст ИИ от рукописи автора?

29.03 / Империя порно осталась без короля. Что будет с OnlyFans после смерти её владельца?

29.03 / Секс, Трамп и нейросети: как девушки в форме стали главным оружием политической пропаганды

28.03 / Нейросети против Орсона Уэллса — этично ли переснимать шедевры кино без согласия авторов?

26.03 / Как ИИ-актриса Тилли Норвуд довела Голливуд до паники и угроз убийством

25.03 / Сэм Альтман отключает рубильник: почему OpenAI убила нейросеть Sora и потеряла $1 млрд от Disney

22.03 / Слезы, танцы и новый альбом: репортаж с первого за 4 года концерта BTS

Политика конфиденциальности - GDPR

Карта сайта →

По вопросам информационного сотрудничества, размещения рекламы и публикации объявлений пишите на адрес: rybinskonline@gmail.com

Поддержать проект:

PayPal – paypal.me/takoekino
WebMoney – Z399334682366, E296477880853, X100503068090

18+ © Такое кино: Самое интересное о культуре, технологиях, бизнесе и политике