Les systèmes d’intelligence artificielle devenant de plus en plus performants, la communication vocale devient rapidement le moyen par défaut de communiquer avec les machines. La startup française d’IA Mistral s’est lancée dans la course audio avec son premier modèle ouvert, visant à défier la domination des systèmes d’entreprise cloisonnés par des alternatives ouvertes.
Le mardi, Mistral a annoncé le lancement de Voxtral, sa première famille de modèles audio destinés aux entreprises.
La société présente Voxtral comme le premier modèle ouvert capable de déployer une « intelligence vocale véritablement utilisable en production ». En d’autres termes, les développeurs n’auront plus à choisir entre un système ouvert bon marché qui bafouille dans les transcriptions et ne comprend pas vraiment ce qui est dit, et un système fermé qui fonctionne bien, mais laisse les développeurs avec une facture plus élevée et moins de contrôle sur le déploiement.
Pour les entreprises, cela signifie que Voxtral offre une alternative abordable que la société affirme être « moins de la moitié du prix » des solutions comparables.
Mistral affirme que Voxtral peut transcrire jusqu’à 30 minutes de contenu audio. Grâce à son infrastructure LLM, Mistral Small 3.1, il peut comprendre jusqu’à 40 minutes, permettant aux utilisateurs de poser des questions sur le contenu audio, de générer des résumés, ou de transformer des commandes vocales en actions en temps réel telles que l’appel d’API ou l’exécution de fonctions. Voxtral est également multilingue, avec la capacité de transcrire et de comprendre des langues telles que l’anglais, l’espagnol, le français, le portugais, l’hindi, l’allemand, le néerlandais et l’italien.
La société propose deux variantes de ses « modèles de compréhension vocale ». Le premier, Voxtral Small, compte 24 milliards de paramètres pour des déploiements à grande échelle, et est compétitif avec ElevenLabs Scribe, GPT-4o-mini, et Gemini 2.5 Flash.
Le deuxième, Voxtral Mini, compte 3 milliards de paramètres pour des déploiements locaux et sur le bord. Il existe également une version API ultra bon marché, dépouillée et rapide du modèle 3B appelée Voxtral Mini Transcribe, optimisée pour des cas d’utilisation de transcription uniquement et promettant de surpasser OpenAI Whisper pour moins de la moitié du prix.
Les utilisateurs peuvent essayer Voxtral gratuitement en téléchargeant l’API sur Hugging Face ou en testant les modèles dans le chatbot Le Chat de Mistral. L’intégration de l’API dans les applications commence à 0,001 $ par minute, selon la société.
Le lancement intervient un mois après que Mistral a annoncé Magistral, sa première famille de modèles de raisonnement qui résolvent les problèmes étape par étape pour une fiabilité améliorée.
Mistral, l’une des principales entreprises d’IA en Europe, est reconnue pour sa promotion des modèles d’IA en open source. Plus tôt ce mois-ci, TechCrunch a rapporté que la société était en pourparlers pour lever jusqu’à 1 milliard de dollars en capitaux propres auprès d’investisseurs comme le fonds MGX d’Abou Dhabi.


