mar 3 février 2026
AccueilIntelligence artificielleSoundHound AI lance Vision AI : une nouvelle ère de l'intelligence artificielle

SoundHound AI lance Vision AI : une nouvelle ère de l’intelligence artificielle

Date:

Ceci pourrait vous plaire




Arcane Visions - Thème astral

SoundHound AI, déjà un acteur majeur des assistants vocaux, donne désormais à sa technologie une paire d’yeux.

Imaginez passer devant un monument et, sans sortir votre téléphone, demander à votre voiture : « Quel est ce bâtiment là-bas ? » et obtenir une réponse instantanée. C’est ce que SoundHound AI est en train de créer.

Avec le lancement de Vision AI, le nouveau système de SoundHound combine la vue et le son pour créer une manière beaucoup plus intelligente et naturelle d’interagir avec la technologie. L’idée est de reproduire le fonctionnement humain ; nous n’écoutons pas seulement quelqu’un, nous voyons aussi leurs gestes et ce qu’ils regardent.

En apportant cette même compréhension contextuelle à l’IA, SoundHound espère simplifier l’expérience souvent maladroite et frustrante que nous avons avec de nombreux appareils intelligents d’aujourd’hui. La société vise des applications du monde réel où ce sens combiné pourrait faire une énorme différence, que ce soit dans votre prochaine voiture, au drive du restaurant, ou sur une chaîne de production.

Keyvan Mohajer, PDG de SoundHound AI, a déclaré : « Chez SoundHound, nous croyons que l’avenir de l’IA n’est pas seulement multimodal, mais profondément intégré, réactif et conçu pour avoir un impact réel dans le monde.

« Avec Vision AI, nous étendons notre leadership en matière de voix et d’IA conversationnelle pour redéfinir la manière dont les humains interagissent avec les produits et services proposés et utilisés par les entreprises. »

Alors, comment ça marche ? Vision AI prend un flux en direct d’une caméra et le fusionne avec la technologie vocale de l’entreprise, qui excelle déjà dans la compréhension du langage naturel. En traitant ce qu’il voit et ce qu’il entend exactement en même temps, le système peut comprendre l’intention réelle de l’utilisateur d’une manière qu’un simple assistant vocal ne pourrait jamais faire.

Imaginez un mécanicien portant des lunettes intelligentes qui peut simplement regarder une pièce de moteur et demander des instructions, recevant un guidage visuel et audio instantané sans jamais poser ses outils. Dans un magasin, un employé pourrait scanner les étagères en les regardant pour obtenir un inventaire en temps réel. Pour le reste d’entre nous, cela pourrait signifier un kiosque au drive qui confirme visuellement notre commande à l’écran au moment où nous la passons.

Un des plus grands problèmes techniques dans la création d’un tel système est de s’assurer que les éléments audio et visuel sont parfaitement synchronisés. Tout décalage briserait l’illusion d’une conversation naturelle.

Pranav Singh, VP de l’Ingénierie chez SoundHound AI, a commenté : « Avec Vision AI, nous fusionnons la reconnaissance visuelle et l’intelligence conversationnelle dans un flux unique et synchronisé. Chaque image, chaque énoncé, chaque intention est interprété dans le même écosystème, garantissant des expériences utilisateur plus rapides et plus naturelles qui s’adaptent sur différentes surfaces, des kiosques aux appareils intégrés.

« Il s’agit d’une innovation à l’intersection de l’intelligence et de l’exécution, offrant une IA qui voit ce que vous voyez, entend ce que vous dites, et répond sur-le-champ. »

Pour les entreprises adoptant cette technologie, la promesse est de fournir un service plus rapide, moins d’erreurs et des clients plus satisfaits. Il s’agit de supprimer les frictions et de faire en sorte que la technologie ne soit pas seulement un outil que vous devez utiliser, mais un partenaire qui vous aide à accomplir des tâches.

Cette nouvelle capacité visuelle n’est pas la seule mise à jour que SoundHound déploie. La société a également récemment amélioré le « cerveau » de son système avec une nouvelle mise à jour, Amelia 7.1. Cette amélioration rend ses agents IA plus rapides, plus précis, et donne aux entreprises plus de contrôle et de transparence sur leur fonctionnement.

En combinant la vue et le son, SoundHound vise à nous rapprocher d’un monde où interagir avec l’IA est aussi facile et intuitif que parler à une autre personne.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici