sam 28 septembre 2024
AccueilRobotiqueReMEmbR : Vers une mémoire augmentée pour les robots Robotique Autonome avec...

ReMEmbR : Vers une mémoire augmentée pour les robots Robotique Autonome avec ReMEmbR « Robotique vocale : intégration de la reconnaissance vocale pour une interaction naturelle » « Révolution digitale : les nouvelles tendances à suivre » « Les bienfaits insoupçonnés du thé vert »

Date:

Autres billets

« Optimom 5D: la révolution de la vision 3D »

Teledyne e2v, une entreprise du groupe Teledyne Technologies,...

Révolution robotique: PickGPT et l’IA générative

Découvrez l'innovation de Sereact, une entreprise basée en Allemagne...

Révolution médicale: Mendaera lève 73M pour son robot chirurgical

Mendaera Inc. a récemment annoncé la clôture d'une levée...
spot_img

Découvrez cet article en l’écoutant.

Les modèles vision-langage, ou VLM, combinent la puissante compréhension du langage des grands modèles de langage fondamentaux avec les capacités visuelles des transformateurs de vision (ViTs) en projetant du texte et des images dans le même espace d’incrustation. Ils peuvent prendre des données multimodales non structurées, raisonner dessus et renvoyer la sortie sous une forme structurée.

En s’appuyant sur une base solide, NVIDIA estime qu’ils peuvent être facilement adaptés à différentes tâches liées à la vision en fournissant de nouveaux déclencheurs ou un ajustement fin efficace des paramètres.

Ils peuvent également être intégrés à des sources de données en direct et des outils pour demander plus d’informations s’ils ne connaissent pas la réponse ou agir quand ils le font. Les grands modèles de langage (LLMs) et les VLMs peuvent agir comme des agents, raisonner sur les données pour aider les robots à effectuer des tâches significatives qui pourraient être difficiles à définir.

Dans un précédent article, « Faire vivre l’IA générative avec NVIDIA Jetson », nous avons démontré que vous pouvez exécuter des LLMs et des VLMs sur des appareils NVIDIA Jetson Orin, permettant une multitude de nouvelles capacités comme la détection d’objets sans entraînement, le sous-titrage vidéo et la génération de texte sur des appareils périphériques.

Mais comment pouvez-vous appliquer ces avancées à la perception et à l’autonomie en robotique ? Quels sont les défis auxquels vous êtes confrontés lorsque vous déployez ces modèles sur le terrain ?

Dans cet article, nous discutons de ReMEmbR, un projet qui combine LLMs, VLMs et génération augmentée par récupération (RAG) pour permettre aux robots de raisonner et d’agir en fonction de ce qu’ils voient lors d’un déploiement à long terme, sur une durée de plusieurs heures à plusieurs jours.

La phase de construction de la mémoire de ReMEmbR utilise les VLMs et les bases de données vectorielles pour construire efficacement une mémoire sémantique à long terme. Ensuite, la phase de requête de ReMEmbR utilise un agent LLM pour raisonner sur cette mémoire. Il est entièrement open source et fonctionne sur l’appareil.

ReMEmbR aborde de nombreux défis rencontrés lors de l’utilisation de LLMs et de VLMs dans une application robotique : comment gérer de grands contextes, comment raisonner sur une mémoire spatiale, comment construire un agent basé sur des déclencheurs pour interroger plus de données jusqu’à ce qu’une question de l’utilisateur soit répondue.

Pour aller encore plus loin, nous avons également construit un exemple d’utilisation de ReMEmbR sur un vrai robot. Nous l’avons fait en utilisant Nova Carter et NVIDIA Isaac ROS, et nous partageons le code et les étapes que nous avons suivies. Lorsque le LLM interroge ensuite la base de données pour trouver des escaliers à l’intérieur, il trouve l’ascenseur comme réponse suffisante et la renvoie à l’utilisateur comme réponse à sa question.

Pour démontrer comment ReMEmbR peut être intégré dans un vrai robot, nous avons construit une démo en utilisant ReMEmbR avec NVIDIA Isaac ROS et Nova Carter. Isaac ROS, basé sur le framework logiciel open-source ROS 2, est une collection de packages de calcul accéléré et de modèles d’IA, apportant l’accélération NVIDIA aux développeurs ROS partout.

Dans la démo, le robot répond aux questions et guide les personnes dans un environnement de bureau. Pour démystifier le processus de construction de l’application, nous voulions partager les étapes que nous avons suivies :

1. Créer une carte de grille d’occupation
2. Exécuter le constructeur de mémoire
3. Exécuter l’agent ReMEmbR
4. Ajouter la reconnaissance vocale

La première étape que nous avons suivie était de créer une carte de l’environnement. Pour construire la base de données vectorielle, ReMEmbR a besoin d’accéder aux images de la caméra monoculaire ainsi qu’aux informations de localisation globale (pose).

Selon votre environnement ou plate-forme, l’obtention des informations de pose globale peut être difficile. Heureusement, cela est simple lors de l’utilisation de Nova Carter.

Nova Carter, alimenté par l’architecture de référence Nova Orin, est une plate-forme de développement robotique complète qui accélère le développement et le déploiement de robots mobiles autonomes de prochaine génération (AMRs). Il peut être équipé d’un lidar 3D pour générer des cartes métriques précises et globalement cohérentes.

En suivant la documentation d’Isaac ROS, nous avons rapidement construit une carte d’occupation en téléopérant le robot. Cette carte est ensuite utilisée pour la localisation lors de la construction de la base de données ReMEmbR et pour la planification de trajet et la navigation pour le déploiement final du robot.

Après avoir créé la carte de l’environnement, la deuxième étape était de remplir la base de données vectorielle utilisée par ReMEmbR. Pour cela, nous avons téléopéré le robot, tout en exécutant AMCL pour la localisation globale. Pour plus d’informations sur la façon de faire cela avec Nova Carter, consultez le Tutoriel : Navigation autonome avec Isaac Perceptor et Nav2.

Avec la localisation s’exécutant en arrière-plan, nous avons lancé deux nœuds ROS supplémentaires spécifiques à la phase de construction de la mémoire.

Le premier nœud ROS exécute le modèle VILA pour générer des légendes pour les images de la caméra du robot. Ce nœud s’exécute sur l’appareil, donc même si le réseau est intermittent, nous pouvions toujours construire une base de données fiable.

L’exécution de ce nœud sur Jetson est facilitée avec NanoLLM pour la quantification et l’inférence. Cette bibliothèque, ainsi que de nombreuses autres, est présentée dans le Jetson AI Lab. Il y a même un package ROS récemment publié (ros2_nanollm) pour intégrer facilement les modèles NanoLLM avec une application ROS.

Le deuxième nœud ROS s’abonne aux légendes générées par VILA, ainsi qu’à la pose globale estimée par le nœud AMCL. Il construit des plongements textuels pour les légendes et stocke la pose, le texte, les plongements et les horodatages dans la base de données vectorielle.

Après avoir rempli la base de données vectorielle, l’agent ReMEmbR avait tout ce dont il avait besoin pour répondre aux requêtes des utilisateurs et produire des actions significatives.

La troisième étape était de lancer la démo en direct. Pour rendre la mémoire du robot statique, nous avons désactivé les nœuds de légendage d’image et de construction de mémoire et activé le nœud de l’agent ReMEmbR.

Comme détaillé précédemment, l’agent ReMEmbR est responsable de prendre une requête de l’utilisateur, d’interroger la base de données vectorielle et de déterminer l’action appropriée que le robot devrait prendre. Dans ce cas, l’action est une pose de destination correspondant à la requête de l’utilisateur.

Nous avons ensuite testé le système de bout en bout en tapant manuellement des requêtes utilisateur :

– « Emmène-moi à l’ascenseur le plus proche »
– « Emmène-moi quelque part où je peux prendre une collation »

L’agent ReMEmbR détermine la meilleure pose de destination et la publie sur le sujet /goal_pose. Le planificateur de trajectoire génère ensuite un chemin global pour le robot à suivre afin de naviguer vers cet objectif.

Intégration de la reconnaissance vocale

Dans une application réelle, les utilisateurs n’auront probablement pas accès à un terminal pour entrer des requêtes et auront besoin d’un moyen intuitif d’interagir avec le robot. Pour cela, nous avons poussé l’application un peu plus loin en intégrant la reconnaissance vocale pour générer les requêtes pour l’agent.

Sur les plates-formes Jetson Orin, l’intégration de la reconnaissance vocale est simple. Nous avons accompli cela en écrivant un nœud ROS qui enveloppe le projet WhisperTRT récemment publié. WhisperTRT optimise le modèle Whisper d’OpenAI avec NVIDIA TensorRT, permettant une inférence à faible latence sur NVIDIA Jetson AGX Orin et NVIDIA Jetson Orin Nano.

Le nœud ROS WhisperTRT accède directement au microphone en utilisant PyAudio et publie la reconnaissance vocale sur le sujet de la parole.

Tout réuni

Avec tous les composants combinés, nous avons créé notre démo complète du robot.

Pour commencer

Nous espérons que ce post vous inspire à explorer l’IA générative dans le domaine de la robotique. Pour en savoir plus sur les contenus présentés dans ce post, essayez le code ReMEmBr et commencez à construire vos propres applications de robotique IA générative, consultez les ressources suivantes :

Inscrivez-vous au Programme Développeur NVIDIA pour rester informé des ressources supplémentaires et des architectures de référence pour soutenir vos objectifs de développement.

Pour plus d’informations, explorez notre documentation et rejoignez la communauté de robotique sur nos forums développeurs et chaînes YouTube. Suivez des formations en autonomie et des webinaires (Isaac ROS et Isaac Sim).

À propos des auteurs

Abrar Anwar est étudiant en doctorat à l’Université de Californie du Sud et stagiaire chez NVIDIA. Ses intérêts de recherche se situent à l’intersection du langage et de la robotique, avec un accent sur la navigation et l’interaction homme-robot.

John Welsh est ingénieur en technologie de développement de machines autonomes chez NVIDIA, où il développe des applications accélérées avec NVIDIA Jetson. Qu’il s’agisse de Legos, de robots ou d’une chanson à la guitare, il aime toujours créer de nouvelles choses.

Yan Chang est ingénieur principal et gestionnaire principal de l’ingénierie chez NVIDIA. Elle dirige actuellement l’équipe de mobilité robotique.

Notes de l’éditeur : Cet article a été syndiqué, avec permission, du blog technique de NVIDIA.

RoboBusiness 2024, qui se tiendra les 16 et 17 octobre à Santa Clara, en Californie, offrira des occasions d’en apprendre davantage auprès de NVIDIA. Amit Goel, responsable de l’écosystème en robotique et IA embarquée chez NVIDIA, participera à un panel d’experts sur « L’avenir de l’innovation en robotique ».

Aussi, lors de la première journée de l’événement, Sandra Skaff, responsable des alliances stratégiques et de l’écosystème en robotique chez NVIDIA, fera partie d’un panel sur « L’impact de l’IA générative sur la robotique ».

Inscrivez-vous dès maintenant. La santé des cheveux est un sujet important pour de nombreuses personnes, car des cheveux sains et forts contribuent à une apparence générale attrayante. Il existe de nombreuses astuces et conseils pour prendre soin de ses cheveux et les garder en bonne santé. Dans cet article, nous allons passer en revue quelques-unes des meilleures pratiques pour maintenir des cheveux en pleine forme.

Tout d’abord, il est essentiel de maintenir une alimentation équilibrée et riche en nutriments pour favoriser la santé des cheveux. Les cheveux ont besoin de vitamines et de minéraux essentiels pour rester forts et en bonne santé. Assurez-vous de consommer suffisamment de protéines, de fer, de vitamine A, de vitamine E et d’acides gras essentiels pour favoriser la croissance des cheveux et prévenir leur chute.

En plus d’une alimentation saine, il est également important de prendre soin de ses cheveux de l’extérieur. Utilisez des produits capillaires de qualité adaptés à votre type de cheveux et évitez les produits contenant des ingrédients agressifs. Lavez vos cheveux régulièrement avec un shampooing doux et utilisez un après-shampooing pour les hydrater et les protéger.

Lorsque vous vous coiffez, évitez d’utiliser des outils chauffants comme les fers plats ou les fers à friser, car ils peuvent endommager vos cheveux. Optez plutôt pour des coiffures naturelles et évitez de tirer trop fort sur vos cheveux avec des élastiques trop serrés. Il est également important de limiter l’utilisation de colorants et de produits chimiques agressifs qui peuvent affaiblir vos cheveux.

Pour maintenir des cheveux en bonne santé, il est recommandé de couper régulièrement les pointes fourchues pour éviter qu’elles ne se propagent et n’endommagent le reste de vos cheveux. Consultez un coiffeur professionnel pour obtenir des conseils sur la meilleure coupe pour votre type de cheveux et pour maintenir une longueur qui favorise la santé de vos cheveux.

Enfin, protégez vos cheveux des agressions extérieures en utilisant des produits de protection thermique avant d’utiliser des outils chauffants et en évitant l’exposition excessive au soleil. Portez un chapeau ou un foulard lorsque vous êtes à l’extérieur pendant de longues périodes pour protéger vos cheveux des rayons UV nocifs.

En suivant ces conseils simples mais efficaces, vous pouvez maintenir des cheveux en pleine forme et prévenir les problèmes courants tels que la chute de cheveux, les pointes fourchues et la sécheresse. Prenez soin de vos cheveux en adoptant une routine de soins appropriée et en leur accordant l’attention qu’ils méritent pour conserver une chevelure saine et éclatante. La méditation est une pratique ancestrale qui consiste à se concentrer sur le moment présent, à calmer son esprit et à trouver la paix intérieure. De plus en plus de personnes se tournent vers la méditation pour soulager le stress, l’anxiété et améliorer leur bien-être général.

Pour commencer à méditer, il est important de trouver un endroit calme et tranquille où vous ne serez pas dérangé. Asseyez-vous confortablement, de préférence sur un coussin de méditation, les jambes croisées en position lotus ou simplement assis sur une chaise les pieds posés au sol. Fermez les yeux et concentrez-vous sur votre respiration. Inspirez profondément par le nez et expirez lentement par la bouche.

La méditation peut être pratiquée de différentes manières. Vous pouvez vous concentrer sur votre respiration, répéter un mantra, visualiser un endroit paisible ou simplement laisser vos pensées passer sans y attacher d’importance. L’essentiel est de rester présent et de ne pas se laisser emporter par ses pensées.

Les bienfaits de la méditation sont nombreux. Elle permet de réduire le stress, l’anxiété et la dépression, d’améliorer la concentration et la mémoire, de renforcer le système immunitaire et de favoriser un sommeil réparateur. De nombreuses études scientifiques ont montré que la méditation a un impact positif sur le cerveau en réduisant l’activité de la zone du cerveau associée au stress et en augmentant l’activité de la zone du cerveau associée au bonheur et à la relaxation.

Il n’est pas nécessaire de méditer pendant des heures pour en ressentir les bienfaits. Quelques minutes par jour peuvent suffire. Commencez par quelques minutes le matin au réveil ou le soir avant de vous coucher et augmentez progressivement la durée de vos séances.

La méditation est une pratique simple et accessible à tous. Il n’est pas nécessaire d’avoir des connaissances particulières ou de suivre un cours pour commencer à méditer. Il suffit de s’asseoir, de fermer les yeux et de se concentrer sur sa respiration.

En résumé, la méditation est une pratique bénéfique pour le corps et l’esprit. Elle permet de se recentrer, de se relaxer et de trouver la paix intérieure. N’hésitez pas à essayer la méditation pour améliorer votre bien-être général et retrouver un équilibre émotionnel.

Dernières nouvelles


LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici