Dans un secteur où la taille du modèle est souvent perçue comme un proxy de l’intelligence, IBM trace une voie différente – une qui valorise l’efficacité plutôt que l’énormité, et l’accessibilité plutôt que l’abstraction.
Le géant de la technologie de 114 ans a lancé aujourd’hui ses quatre nouveaux modèles Granite 4.0 Nano, qui vont de seulement 350 millions à 1,5 milliard de paramètres, une fraction de la taille de leurs cousins liés aux serveurs chez OpenAI, Anthropic et Google.
Ces modèles sont conçus pour être hautement accessibles : les variantes 350M peuvent fonctionner confortablement sur un ordinateur portable moderne avec 8 à 16 Go de RAM, tandis que les modèles 1,5 milliard nécessitent généralement un GPU avec au moins 6 à 8 Go de VRAM pour des performances fluides – ou une quantité suffisante de RAM système et de swap pour l’inférence CPU seule. Cela les rend bien adaptés aux développeurs construisant des applications sur du matériel grand public ou en périphérie, sans avoir besoin de calcul en nuage.
En fait, les plus petits peuvent même fonctionner localement sur votre propre navigateur web, comme l’a écrit Joshua Lochner alias Xenova, créateur de Transformer.js et ingénieur en apprentissage automatique chez Hugging Face, sur le réseau social X.
Tous les modèles Granite 4.0 Nano sont publiés sous la licence Apache 2.0 – parfaits pour une utilisation par les chercheurs et les développeurs d’entreprise ou indépendants, même à des fins commerciales.
Ils sont nativement compatibles avec llama.cpp, vLLM et MLX et sont certifiés selon la norme ISO 42001 pour le développement responsable de l’IA – une norme qu’IBM a contribué à mettre en place.
Mais dans ce cas, petit ne signifie pas moins capable – cela pourrait simplement signifier une conception plus intelligente.
Ces modèles compacts ne sont pas construits pour les centres de données, mais pour les appareils en périphérie, les ordinateurs portables et l’inférence locale, où les ressources informatiques sont rares et la latence est importante.
Et malgré leur petite taille, les modèles Nano affichent des résultats de benchmark qui rivalisent, voire dépassent, les performances de modèles plus grands dans la même catégorie.
La sortie est un signal qu’une nouvelle frontière de l’IA est en train de se former rapidement – une qui n’est pas dominée par la simple échelle, mais par un dimensionnement stratégique.
La famille Granite 4.0 Nano comprend quatre modèles open source désormais disponibles sur Hugging Face :
– Granite-4.0-H-1B (~1,5 milliard de paramètres) – Architecture hybride SSM
– Granite-4.0-H-350M (~350 millions de paramètres) – Architecture hybride SSM
– Granite-4.0-1B – Variante basée sur Transformer, nombre de paramètres plus proche de 2B
– Granite-4.0-350M – Variante basée sur Transformer
Les modèles de la série H – Granite-4.0-H-1B et H-350M – utilisent une architecture d’espace d’état hybride (SSM) qui combine efficacité et performances élevées, idéale pour les environnements de périphérie à faible latence.
Pendant ce temps, les variantes standard du transformer – Granite-4.0-1B et 350M – offrent une compatibilité plus large avec des outils comme llama.cpp, conçus pour des cas d’utilisation où l’architecture hybride n’est pas encore prise en charge.
En pratique, le modèle transformer 1B est plus proche de 2B de paramètres, mais aligne ses performances avec son homologue hybride, offrant aux développeurs une flexibilité en fonction de leurs contraintes d’exécution.
« La variante hybride est un vrai modèle 1B. Cependant, la variante non hybride est plus proche de 2B, mais nous avons choisi de garder la dénomination alignée sur la variante hybride pour rendre la connexion facilement visible », a expliqué Emma, responsable du marketing produit pour Granite, lors d’une session « Demandez-moi n’importe quoi » (AMA) sur r/LocalLLaMA.
IBM entre sur un marché encombré et en évolution rapide des petits modèles de langage (SLM), rivalisant avec des offres comme Qwen3, Gemma de Google, LFM2 de LiquidAI et même les modèles denses de Mistral dans l’espace de paramètres inférieur à 2B.
Alors qu’OpenAI et Anthropic se concentrent sur des modèles qui nécessitent des clusters de GPU et une optimisation sophistiquée de l’inférence, la famille Nano d’IBM vise directement les développeurs qui souhaitent exécuter des LLM performants sur du matériel local ou contraint.
Dans les tests de benchmark, les nouveaux modèles d’IBM se classent systématiquement en tête dans leur catégorie. Selon les données partagées sur X par David Cox, vice-président des modèles d’IA chez IBM Research :
– Sur IFEval (suivi des instructions), Granite-4.0-H-1B a obtenu un score de 78,5, surpassant Qwen3-1,7B (73,1) et d’autres modèles de 1 à 2B.
– Sur BFCLv3 (appel de fonction/outil), Granite-4.0-1B a obtenu un score de 54,8, le plus élevé de sa catégorie de taille.
– Sur des benchmarks de sécurité (SALAD et AttaQ), les modèles Granite ont obtenu plus de 90 %, dépassant les concurrents de taille similaire.
Dans l’ensemble, le Granite-4.0-1B a obtenu un score moyen de benchmark de 68,3 % leader dans les domaines des connaissances générales, des mathématiques, du code et de la sécurité.
Cette performance est d’autant plus significative compte tenu des contraintes matérielles pour lesquelles ces modèles sont conçus. Ils nécessitent moins de mémoire, s’exécutent plus rapidement sur des CPU ou des appareils mobiles, et n’ont pas besoin d’une infrastructure en nuage ou d’une accélération GPU pour fournir des résultats utilisables.
Dans la première vague de LLM, plus grand signifiait mieux – plus de paramètres se traduisaient par une meilleure généralisation, un raisonnement plus profond et une production plus riche.
Mais à mesure que la recherche sur les transformateurs a mûri, il est devenu clair que l’architecture, la qualité de l’entraînement et l’ajustement spécifique à la tâche pouvaient permettre à des modèles plus petits de se démarquer.
IBM mise sur cette évolution. En publiant des modèles ouverts et petits qui sont compétitifs dans des tâches réelles, l’entreprise propose une alternative aux API d’IA monolithiques qui dominent l’écosystème des applications d’aujourd’hui.
En fait, les modèles Nano répondent à trois besoins de plus en plus importants :
– Flexibilité de déploiement – ils s’exécutent n’importe où, du mobile aux microserveurs.
– Confidentialité de l’inférence – les utilisateurs peuvent garder les données locales sans avoir besoin d’appeler des API en nuage.
– Ouverture et auditabilité – le code source et les poids des modèles sont disponibles publiquement sous une licence ouverte.
L’équipe Granite d’IBM n’a pas simplement lancé les modèles et s’est retirée – elle s’est rendue sur la communauté open source de Reddit r/LocalLLaMA pour engager directement les développeurs.
Dans un fil de discussion de type AMA, Emma (Marketing produit, Granite) a répondu aux questions techniques, a abordé les préoccupations concernant les conventions de dénomination et a laissé entendre ce qui allait suivre.
Des confirmations notables du fil de discussion :
– Un modèle Granite 4.0 plus grand est actuellement en formation
– Des modèles axés sur le raisonnement (« homologues réfléchissants ») sont en préparation
– IBM publiera bientôt des recettes de réglage fin et un document complet sur la formation
– Plus d’outils et de compatibilité de plateforme sont prévus sur la feuille de route
Les utilisateurs ont réagi avec enthousiasme aux capacités des modèles, en particulier dans les tâches de suivi d’instructions et de réponse structurée. Un commentateur a résumé :
« C’est important si c’est vrai pour un modèle de 1B – si la qualité est bonne et qu’il donne des sorties cohérentes. Tâches d’appel de fonction, dialogues multilingues, complétions FIM… cela pourrait être un vrai cheval de trait. »
Un autre utilisateur a remarqué :
« Le Granite Tiny est déjà mon choix pour la recherche web dans LM Studio – mieux que certains modèles Qwen. Tenté de donner une chance à Nano. »
La poussée d’IBM dans les grands modèles de langage a réellement commencé en 2023 avec le lancement de la famille de modèles de base Granite, à commencer par des modèles comme Granite.13b.instruct et Granite.13b.chat. Publiés pour une utilisation au sein de sa plateforme Watsonx, ces premiers modèles de décodage uniquement ont signalé l’ambition d’IBM de construire des systèmes d’IA de qualité entreprise qui privilégient la transparence, l’efficacité et les performances. La société a publié une partie du code source Granite sous licence Apache 2.0 mi-2024, posant ainsi les bases d’une adoption plus large et d’une expérimentation par les développeurs.
Le véritable point d’inflexion est venu avec Granite 3.0 en octobre 2024 – une suite entièrement open source de modèles généralistes et spécialisés dans des domaines allant de 1 à 8 milliards de paramètres. Ces modèles mettaient l’accent sur l’efficacité plutôt que sur l’échelle brute, offrant des fonctionnalités telles que des fenêtres de contexte plus longues, un réglage d’instructions et des garde-fous intégrés. IBM a positionné Granite 3.0 comme un concurrent direct de Llama de Meta, de Qwen d’Alibaba et de Gemma de Google – mais avec une perspective unique axée sur l’entreprise. Les versions ultérieures, y compris Granite 3.1 et Granite 3.2, ont introduit encore plus d’innovations conviviales pour l’entreprise : détection d’hallucination intégrée, prévision de séries temporelles, modèles de vision de documents et bascules de raisonnement conditionnel.
La famille Granite 4.0, lancée en octobre 2025, représente la sortie la plus techniquement ambitieuse d’IBM à ce jour. Elle introduit une architecture hybride qui mélange des couches transformer et Mamba-2 – visant à combiner la précision contextuelle des mécanismes d’attention avec l’efficacité en mémoire des modèles d’espace d’état. Cette conception permet à IBM de réduire considérablement les coûts de mémoire et de latence pour l’inférence, rendant les modèles Granite viables sur un matériel plus petit tout en surpassant encore leurs pairs dans les tâches de suivi d’instructions et d’appel de fonction. Le lancement comprend également la certification ISO 42001, la signature de modèles cryptographiques et la distribution sur des plates-formes telles que Hugging Face, Docker, LM Studio, Ollama et watsonx.ai.
Dans toutes ses itérations, l’accent d’IBM a été clair : construire des modèles d’IA fiables, efficaces et juridiquement non ambigus pour les cas d’utilisation de l’entreprise. Avec une licence Apache 2.0 permissive, des benchmarks publics et un accent sur la gouvernance, l’initiative Granite répond non seulement aux préoccupations croissantes concernant les modèles propriétaires en boîte noire, mais offre également une alternative ouverte alignée sur l’Occident à la progression rapide des équipes comme Qwen d’Alibaba. Ce faisant, Granite positionne IBM comme une voix de premier plan dans ce qui pourrait être la prochaine phase de l’IA prête pour la production et à poids ouvert.
En fin de compte, la sortie par IBM des modèles Granite 4.0 Nano reflète un changement stratégique dans le développement des LLM : de la recherche de records de nombre de paramètres à l’optimisation de l’utilisabilité, de l’ouverture et de la portée du déploiement.
En combinant des performances compétitives, des pratiques de développement responsables et une profonde implication dans la communauté open source, IBM positionne Granite non seulement comme une famille de modèles – mais comme une plateforme pour construire la prochaine génération de systèmes d’IA légers et fiables.
Pour les développeurs et les chercheurs à la recherche de performances sans surcharge, la sortie Nano offre un signal convaincant : vous n’avez pas besoin de 70 milliards de paramètres pour construire quelque chose de puissant – juste les bons.


