mar 3 février 2026
AccueilIntelligence artificielleNvidia lance Nemotron-Nano-9B-V2 : la révolution des petits modèles de langage

Nvidia lance Nemotron-Nano-9B-V2 : la révolution des petits modèles de langage

Date:

Ceci pourrait vous plaire




Arcane Visions - Thème astral

Les petits modèles sont à l’honneur en ce moment. Suite à la sortie d’un nouveau modèle de vision IA suffisamment petit pour tenir sur une montre intelligente de la société Liquid AI, une spin-off du MIT, et d’un modèle assez petit pour fonctionner sur un smartphone de Google, Nvidia rejoint la fête aujourd’hui avec son propre nouveau modèle de langage – Nemotron-Nano-9B-V2. Ce modèle a obtenu les meilleures performances de sa catégorie sur des benchmarks sélectionnés et offre aux utilisateurs la possibilité d’activer ou de désactiver le « raisonnement » de l’IA, c’est-à-dire la vérification avant de fournir une réponse.

Bien que les 9 milliards de paramètres soient plus importants que certains des modèles petits multimillionnaires récemment couverts par VentureBeat, Nvidia indique qu’il s’agit d’une réduction significative par rapport à sa taille initiale de 12 milliards de paramètres et qu’il est conçu pour tenir sur un seul GPU Nvidia A10. Selon Oleksii Kuchiaev, directeur de l’IA post-entraînement de Nvidia, le modèle hybride permet de traiter des tailles de lots plus importantes et d’être jusqu’à 6 fois plus rapide que des modèles de transformateur de taille similaire.

Le modèle gère plusieurs langues, y compris l’anglais, l’allemand, l’espagnol, le français, l’italien, le japonais, et dans des descriptions étendues, le coréen, le portugais, le russe et le chinois. Il convient à la fois pour l’interprétation des instructions et la génération de code.

Basé sur Nemotron-H, un ensemble de modèles hybrides Mamba-Transformateur qui constituent la base des dernières offres de l’entreprise, le modèle Nemotron-Nano-9B-V2 est une fusion des architectures Transformer et Mamba. Contrairement aux modèles Transformer purs, les modèles Nemotron-H et d’autres utilisant l’architecture Mamba intègrent également des modèles d’espace d’état sélectif (ou SSM), qui peuvent traiter des séquences d’information très longues en maintenant un état. Ces couches s’échelonnent linéairement avec la longueur de la séquence et peuvent traiter des contextes beaucoup plus longs que l’auto-attention standard sans les mêmes coûts en mémoire et en calcul.

Un hybride Mamba-Transformer réduit ces coûts en remplaçant la plupart de l’attention par des couches d’espace d’état en temps linéaire, ce qui permet d’obtenir jusqu’à 2 à 3 fois plus de débit sur les contextes longs avec une précision comparable.

Nemotron-Nano-9B-V2 est positionné comme un modèle de chat et de raisonnement unifié, entraîné à partir de zéro. Le système génère par défaut une trace de raisonnement avant de fournir une réponse finale, bien que les utilisateurs puissent modifier ce comportement en utilisant des jetons de contrôle simples tels que /think ou /no_think. Le modèle introduit également une gestion de « budget de réflexion » en temps d’exécution, qui permet aux développeurs de limiter le nombre de jetons consacrés à la réflexion interne avant que le modèle ne termine une réponse.

Les résultats d’évaluation mettent en évidence une précision compétitive par rapport à d’autres modèles à petite échelle. Testé en mode « raisonnement activé » à l’aide de la suite NeMo-Skills, Nemotron-Nano-9B-V2 atteint 72,1 % sur AIME25, 97,8 % sur MATH500, 64,0 % sur GPQA et 71,1 % sur LiveCodeBench. Des scores sur des benchmarks d’interprétation des instructions et de contexte long sont également rapportés : 90,3 % sur IFEval, 78,9 % sur le test RULER 128K, et des gains plus petits mais mesurables sur BFCL v3 et le benchmark HLE. À travers ces résultats, Nano-9B-V2 montre une précision plus élevée que Qwen3-8B, un point de comparaison courant.

Nvidia illustre ces résultats avec des courbes de précision en fonction du budget, montrant comment les performances évoluent lorsque l’allocation de jetons pour le raisonnement augmente. La société suggère qu’un contrôle budgétaire minutieux peut aider les développeurs à optimiser à la fois la qualité et la latence dans des cas d’utilisation en production.

Tant le modèle Nano que la famille Nemotron-H reposent sur un mélange de données d’entraînement curées, provenant du web et synthétiques. Les corpus comprennent des textes généraux, du code, des documents mathématiques, scientifiques, juridiques et financiers, ainsi que des ensembles de données de questions-réponses de type alignement. Nvidia confirme l’utilisation de traces de raisonnement synthétiques générées par d’autres grands modèles pour renforcer les performances sur des benchmarks complexes.

Le modèle Nano-9B-V2 est publié sous l’accord de licence de modèle ouvert de Nvidia, conçu pour être permissif et convivial pour les entreprises. Nvidia précise explicitement que les modèles sont utilisables commercialement dès la sortie de la boîte, et que les développeurs sont libres de créer et distribuer des modèles dérivés. En revanche, Nvidia ne revendique pas la propriété des sorties générées par le modèle, laissant la responsabilité et les droits au développeur ou à l’organisation qui l’utilise.

Avec Nemotron-Nano-9B-V2, Nvidia cible les développeurs ayant besoin d’un équilibre entre les capacités de raisonnement et l’efficacité du déploiement à plus petite échelle. Les fonctionnalités de contrôle du budget d’exécution et de basculement du raisonnement sont censées donner aux constructeurs de systèmes plus de flexibilité dans la gestion de la précision par rapport à la vitesse de réponse. Leur publication sur Hugging Face et le catalogue de modèles de Nvidia indique qu’ils sont destinés à être largement accessibles pour l’expérimentation et l’intégration.

La sortie de Nemotron-Nano-9B-V2 par Nvidia met en avant une attention continue portée à l’efficacité et au raisonnement contrôlable dans les modèles de langage. En combinant des architectures hybrides avec de nouvelles techniques de compression et d’entraînement, l’entreprise offre aux développeurs des outils visant à maintenir la précision tout en réduisant les coûts et la latence.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici