Meta vient de lancer un nouveau système de reconnaissance vocale automatique multilingue prenant en charge plus de 1 600 langues, éclipsant ainsi le modèle Whisper en open source d’OpenAI, qui ne prend en charge que 99 langues. Ce système permet aux développeurs d’étendre cette prise en charge à des milliers d’autres langues grâce à une fonctionnalité appelée apprentissage en contexte sans tir, permettant aux utilisateurs de fournir quelques exemples appariés d’audio et de texte dans une nouvelle langue au moment de l’inférence, permettant au modèle de transcrire des énoncés supplémentaires dans cette langue sans aucun reformatage.
Concrètement, cela élargit la couverture potentielle à plus de 5 400 langues, soit à peu près toutes les langues parlées avec un script connu. Il s’agit d’un passage des capacités statiques des modèles à un cadre flexible que les communautés peuvent adapter elles-mêmes. Alors que les 1 600 langues reflètent la couverture d’entraînement officielle, la figure plus large représente la capacité d’Omnilingual ASR à généraliser à la demande, en faisant du système de reconnaissance vocale le plus extensible à ce jour.
Le tout a été publié sous licence Apache 2.0, contrairement aux licences restrictives des versions précédentes de l’entreprise, permettant aux chercheurs et aux développeurs de l’utiliser gratuitement, même dans des projets commerciaux et d’entreprise.
Disponible depuis le 10 novembre sur le site web de Meta, Github, ainsi qu’avec un espace de démonstration sur Hugging Face et un article technique, la suite Omnilingual ASR de Meta comprend une famille de modèles de reconnaissance vocale, un modèle de représentation audio multilingue de 7 milliards de paramètres et un corpus de parole massif couvrant plus de 350 langues précédemment mal desservies.
Toutes les ressources sont disponibles gratuitement sous licence ouverte, et les modèles prennent en charge la transcription de la parole en texte dès la sortie de la boîte.
Conçu pour la transcription de la parole en texte, Omnilingual ASR est un système de transcription de la parole en texte. Les modèles sont formés pour convertir la langue parlée en texte écrit, prenant en charge des applications telles que les assistants vocaux, les outils de transcription, les sous-titres, la numérisation d’archives orales et les fonctionnalités d’accessibilité pour les langues à ressources limitées.
Contrairement aux modèles ASR précédents qui nécessitaient des données d’entraînement étiquetées étendues, Omnilingual ASR inclut une variante zéro-tir. Cette version peut transcrire des langues qu’elle n’a jamais vues auparavant, en utilisant simplement quelques exemples appariés d’audio et de texte correspondant.
La suite Omnilingual ASR comprend plusieurs familles de modèles formés sur plus de 4,3 millions d’heures de son provenant de plus de 1 600 langues, notamment des modèles wav2vec 2.0 pour l’apprentissage de la représentation de la parole auto-supervisée, des modèles ASR basés sur CTC pour la transcription supervisée efficace, des modèles LLM-ASR combinant un codeur de parole avec un décodeur de texte basé sur un transformateur pour une transcription de pointe, et un modèle LLM-ZeroShot ASR permettant une adaptation à la langue inconnue à l’inférence.
Tous les modèles suivent une conception encodeur-décodeur : l’audio brut est converti en une représentation agnostique à la langue, puis décodé en texte écrit.
Alors que Whisper et des modèles similaires ont amélioré les capacités de ASR pour les langues mondiales, ils sont limités dans la longue traîne de la diversité linguistique humaine. Whisper prend en charge 99 langues, tandis que le système de Meta prend en charge directement plus de 1 600 langues et peut généraliser à plus de 5 400 langues en utilisant l’apprentissage en contexte.
Omnilingual ASR révolutionne la couverture linguistique en ASR en passant d’une liste fixe à un cadre extensible. Il permet une inclusion communautaire des langues sous-représentées, un accès numérique pour les langues orales et en danger, et la recherche sur la technologie de la parole dans des contextes linguistiquement divers.
Pour les développeurs d’entreprise, Omnilingual ASR abaisse considérablement la barrière pour déployer des systèmes de transcription de la parole en texte pour un éventail plus large de clients et de géographies. Au lieu de s’appuyer sur des API ASR commerciales qui prennent en charge uniquement un ensemble restreint de langues à ressources élevées, les équipes peuvent désormais intégrer un pipeline open source couvrant plus de 1 600 langues dès le départ, avec la possibilité de l’étendre à des milliers d’autres grâce à l’apprentissage zéro-tir.


