
SoundHound наделяет свой ИИ силой зрения
12.08.2025, 16:30, Технологии
Теги: Технологии, Транспорт
SoundHound AI, уже являющийся крупным игроком в области голосовых помощников, теперь дает своей технологии пару глаз.
Представьте себе, что вы проезжаете мимо достопримечательности и, не доставая телефон, спрашиваете свою машину: «Что это за здание?» и получаете мгновенный ответ. Это то, что создает компания.
С запуском Vision AI новая система SoundHound сочетает в себе зрение и звук, создавая гораздо более интеллектуальный и естественный способ взаимодействия с технологиями. Идея состоит в том, чтобы имитировать то, как мы, люди, действуем; Мы не просто слушаем кого-то, мы также видим его жесты и то, на что он смотрит.
Привнося такое же контекстуальное понимание в искусственный интеллект, SoundHound надеется сгладить неуклюжий и часто разочаровывающий опыт, который мы имеем со многими современными умными устройствами. Компания нацелена на реальные приложения, где это объединенное чувство может иметь огромное значение, будь то в вашем следующем автомобиле, в ресторане или в заводском цеху.
Кейван Мохаджер, генеральный директор SoundHound AI, сказал:
— В SoundHound мы считаем, что будущее искусственного интеллекта не просто мультимодальное — он глубоко интегрирован, быстро реагирует и создан для реального воздействия. С помощью Vision AI мы расширяем наше лидерство в области голосового и разговорного ИИ, чтобы переосмыслить то, как люди взаимодействуют с продуктами и услугами, предлагаемыми и используемыми предприятиями.
Итак, как это работает? Vision AI берет прямую трансляцию с камеры и объединяет ее с голосовой технологией компании, которая уже превосходно понимает естественную речь. Обрабатывая то, что она видит и слышит в одно и то же время, система может уловить истинные намерения пользователя так, как это никогда не смог бы сделать простой голосовой помощник.
Представьте себе механика в умных очках, который может просто посмотреть на деталь двигателя и попросить инструкции, получая мгновенные визуальные и звуковые указания, даже не откладывая свои инструменты. В магазине сотрудник может сканировать полки, просто глядя на них, чтобы получить инвентаризацию в режиме реального времени. Для остальных из нас это может означать киоск для автомобилистов, который визуально подтверждает наш заказ на экране в тот момент, когда мы его произносим.
Одной из самых больших технических проблем при создании такой системы является обеспечение идеальной синхронизации аудио и визуальных элементов. Любая задержка разрушила бы иллюзию естественного разговора.
Пранав Сингх, вице-президент по разработкам SoundHound AI, прокомментировал:
— С помощью Vision AI мы объединяем визуальное распознавание и разговорный интеллект в единый синхронизированный поток. Каждый кадр, каждое высказывание, каждое намерение интерпретируются в одной и той же экосистеме, что обеспечивает более быстрое и естественное взаимодействие с пользователем, которое масштабируется на всех поверхностях — от киосков до встроенных устройств. Это инновация на пересечении интеллекта и исполнения, создающая искусственный интеллект, который видит то, что вы видите, слышит то, что вы говорите, и реагирует в момент.
Для компаний, внедряющих эту технологию, обещание состоит в том, чтобы обеспечить более быстрое обслуживание, меньше ошибок и более довольных клиентов. Речь идет об устранении трения и о том, чтобы технологии воспринимались не как инструмент, с которым вы должны работать, а как партнер, который помогает вам выполнять свои задачи.
Эта новая визуальная возможность — не единственное обновление, которое внедряет SoundHound. Компания также недавно улучшила «мозг» своей системы с помощью нового обновления Amelia 7.1. Это усовершенствование делает агентов ИИ быстрее, точнее и дает компаниям больше контроля и прозрачности в своей работе.
Сочетая изображение и звук, SoundHound стремится приблизить нас к миру, где взаимодействие с искусственным интеллектом кажется таким же простым и интуитивно понятным, как разговор с другим человеком.