L’intelligence artificielle (IA) est omniprésente, mais elle fonctionne principalement dans une infime fraction des 7 000 langues du monde, laissant une grande partie de la population mondiale de côté. NVIDIA vise à résoudre ce problème béant, en particulier en Europe.
La société vient de lancer un puissant ensemble d’outils open source visant à donner aux développeurs le pouvoir de construire une IA vocale de haute qualité pour 25 langues européennes différentes. Cela inclut les grandes langues, mais surtout, cela offre une bouée de sauvetage à celles souvent négligées par les grandes entreprises technologiques, telles que le croate, l’estonien et le maltais.
L’objectif est de permettre aux développeurs de créer le genre d’outils vocaux que beaucoup d’entre nous considèrent comme acquis, des chatbots multilingues qui vous comprennent réellement aux bots de service client et aux services de traduction qui fonctionnent en un clin d’œil.
La pièce maîtresse de cette initiative est Granary, une énorme bibliothèque de voix humaines. Elle contient environ un million d’heures de contenu audio, le tout soigneusement sélectionné pour aider à enseigner à l’IA les subtilités de la reconnaissance vocale et de la traduction.
Pour exploiter ces données vocales, NVIDIA propose également deux nouveaux modèles d’IA conçus pour des tâches linguistiques : Canary-1b-v2, un grand modèle construit pour une haute précision sur des emplois complexes de transcription et de traduction, et Parakeet-tdt-0.6b-v3, conçu pour des applications en temps réel où la vitesse est primordiale.
Si vous êtes désireux de plonger dans la science derrière tout cela, l’article sur Granary sera présenté lors de la conférence Interspeech aux Pays-Bas ce mois-ci. Pour les développeurs impatients de mettre la main à la pâte, l’ensemble de données et les deux modèles sont déjà disponibles sur Hugging Face.
La véritable magie réside dans la manière dont ces données ont été créées. Nous savons tous que la formation de l’IA nécessite des quantités massives de données, mais les obtenir est généralement un processus lent, coûteux et ennuyeux d’annotation humaine.
Pour contourner cela, l’équipe d’IA vocale de NVIDIA, en collaboration avec des chercheurs de l’Université Carnegie Mellon et de la Fondazione Bruno Kessler, a construit un pipeline automatisé. En utilisant leur propre outil NeMo, ils ont pu prendre des données audio brutes et non étiquetées et les transformer en données structurées de haute qualité sur lesquelles une IA peut apprendre.
Ce n’est pas seulement un exploit technique ; c’est un grand pas en avant pour l’inclusion numérique. Cela signifie qu’un développeur à Riga ou Zagreb peut enfin construire des outils IA vocaux qui comprennent correctement leurs langues locales. Et ils peuvent le faire de manière plus efficace. L’équipe de recherche a découvert que leurs données Granary sont si efficaces qu’il faut environ la moitié de ces données pour atteindre un niveau de précision cible par rapport à d’autres ensembles de données populaires.
Les deux nouveaux modèles démontrent cette puissance. Canary est franchement un monstre, offrant une qualité de traduction et de transcription qui rivalise avec des modèles trois fois plus grands, mais avec jusqu’à dix fois la vitesse. Parakeet, quant à lui, peut traiter un enregistrement de réunion de 24 minutes en une seule fois, déterminant automatiquement la langue parlée. Les deux modèles sont suffisamment intelligents pour gérer la ponctuation, la capitalisation et fournir des horodatages au niveau des mots, ce qui est nécessaire pour construire des applications de qualité professionnelle.
En mettant ces outils puissants et les méthodes qui les sous-tendent entre les mains de la communauté mondiale de développeurs, NVIDIA ne se contente pas de lancer un produit. Il lance une nouvelle vague d’innovation, espérant créer un monde où l’IA parle votre langue, peu importe d’où vous venez.


