Avec l’avènement des modèles réduits pour les entreprises, AI21 Labs propose Jamba Reasoning 3B, un modèle open-source « mini » capable d’exécuter des raisonnements étendus, de générer du code et de répondre en fonction de la vérité de base. Ce modèle peut gérer plus de 250 000 tokens et effectuer des inférences sur des appareils locaux tels que des ordinateurs portables et des téléphones mobiles.
Selon Ori Goshen, co-PDG d’AI21, le recours à des modèles réduits permet de libérer les centres de données, réduisant ainsi les coûts liés aux infrastructures. En effet, déplacer une grande partie de l’inférence vers les appareils locaux peut générer des économies significatives pour les entreprises.
Testé sur un MacBook Pro, Jamba Reasoning 3B combine l’architecture Mamba et les Transformers pour offrir des vitesses d’inférence 2 à 4 fois plus rapides. Ce modèle hybride réduit également les besoins en mémoire, ce qui le rend plus efficace en termes de puissance de calcul.
Les entreprises adoptent de plus en plus des modèles réduits adaptés à leurs besoins spécifiques, à l’instar de MobileLLM-R1 de Meta, conçu pour des tâches de raisonnement mathématique, de codage et scientifique. Google et FICO ont également développé leurs propres modèles adaptés à leurs secteurs respectifs.
En termes de performances, Jamba Reasoning 3B s’est distingué lors de tests comparatifs avec d’autres modèles réduits du marché, démontrant une forte performance sur différents benchmarks. De plus, ces modèles réduits offrent une meilleure confidentialité aux entreprises, car l’inférence se fait localement sans transfert de données vers des serveurs externes.
En conclusion, les modèles réduits comme Jamba Reasoning 3B offrent une alternative efficace pour les entreprises cherchant à optimiser leurs ressources tout en garantissant des performances de qualité. Ils ouvrent la voie à une utilisation plus étendue de l’IA sur des appareils locaux, offrant ainsi une meilleure maîtrise des données et une expérience utilisateur améliorée.


