Les modèles vision-langage (VLM) révolutionnent la robotique autonome en combinant la compréhension du langage des grands modèles de langage (LLM) avec les capacités visuelles des transformateurs de vision (ViTs). En intégrant texte et images dans un même espace d’incrustation, ces modèles permettent aux robots de traiter des informations multimodales complexes et de fournir des réponses structurées.
NVIDIA a développé ces technologies pour qu’elles puissent s’adapter à diverses tâches de vision en ajustant simplement des déclencheurs ou en optimisant certains paramètres. Connectés à des sources de données en direct, ces modèles sont capables d’agir de manière autonome, améliorant ainsi la performance des robots dans des environnements variés.
Dans un article précédent, NVIDIA a montré que les LLM et VLM peuvent fonctionner sur des appareils Jetson Orin, ouvrant la voie à de nouvelles capacités telles que la détection d’objets, la génération de texte et le sous-titrage vidéo. Cependant, des défis importants restent à relever, notamment la gestion des grandes quantités de données contextuelles et la capacité de raisonnement à long terme dans des environnements robotiques.
Pour répondre à ces enjeux, le projet ReMEmbR de NVIDIA associe LLM, VLM et génération augmentée par récupération (RAG). Ce projet open-source permet aux robots de raisonner et d’agir en fonction de leur mémoire sémantique, facilitant leur déploiement sur plusieurs jours. En utilisant des bases de données vectorielles, ReMEmbR permet aux robots de répondre à des questions et de naviguer de façon autonome dans des environnements complexes.
Cas d’Utilisation : ReMEmbR et Isaac ROS
Pour démontrer la puissance de ReMEmbR, NVIDIA a créé un exemple avec le robot Nova Carter et NVIDIA Isaac ROS. Dans cette démonstration, le robot guide les utilisateurs à travers un espace de bureau en répondant à des commandes vocales telles que « Où se trouve l’ascenseur ? ». Le système construit une carte de l’environnement, stocke des données visuelles et les utilise pour naviguer et accomplir des tâches.
L’intégration de la reconnaissance vocale via WhisperTRT optimise l’interaction utilisateur-robot, rendant l’ensemble du système plus intuitif et facile à utiliser.
Une Nouvelle Ère pour la Robotique Autonome
L’utilisation des modèles vision-langage en robotique ouvre de nouvelles perspectives pour les robots autonomes de prochaine génération. Grâce aux avancées de NVIDIA en matière d’intelligence artificielle et de plateformes comme Jetson Orin, ces robots deviennent plus intelligents, adaptables et performants, avec des applications dans de nombreux secteurs.
Les développeurs peuvent commencer à expérimenter ces technologies en explorant les ressources proposées par NVIDIA, comme le code open-source de ReMEmbR, et en participant à la communauté des développeurs.
Plus d’information : https://developer.nvidia.com/blog/using-generative-ai-to-enable-robots-to-reason-and-act-with-remembr/