Un nouveau document d’un chercheur en intelligence artificielle de Samsung explique comment un petit réseau peut battre de vastes modèles de langage (LLM) dans le raisonnement complexe.
Dans la course à la suprématie de l’IA, le mantra de l’industrie a souvent été « plus grand c’est mieux ». Les géants de la technologie ont investi des milliards pour créer des modèles de plus en plus grands, mais selon Alexia Jolicoeur-Martineau de Samsung SAIL Montréal, un chemin radicalement différent et plus efficace est possible avec le Tiny Recursive Model (TRM).
En utilisant un modèle avec seulement 7 millions de paramètres, soit moins de 0,01% de la taille des principaux LLM, le TRM obtient de nouveaux résultats de pointe sur des benchmarks notoirement difficiles tels que le test d’intelligence ARC-AGI. Le travail de Samsung remet en question l’hypothèse dominante selon laquelle la simple échelle est le seul moyen de faire progresser les capacités des modèles d’IA, offrant une alternative plus durable et plus efficace en termes de paramètres.
Surmonter les limites de l’échelle
Alors que les LLM ont montré une incroyable habileté à générer un texte semblable à celui de l’homme, leur capacité à effectuer un raisonnement complexe à plusieurs étapes peut être fragile. Parce qu’ils génèrent des réponses token par token, une seule erreur tôt dans le processus peut faire dérailler toute la solution, conduisant à une réponse finale invalide.
Des techniques comme Chain-of-Thought, où un modèle « pense à voix haute » pour décomposer un problème, ont été développées pour atténuer cela. Cependant, ces méthodes sont coûteuses en termes de calcul, nécessitent souvent de vastes quantités de données de raisonnement de haute qualité qui peuvent ne pas être disponibles, et peuvent encore produire une logique défaillante. Même avec ces augmentations, les LLM ont du mal avec certains casse-tête où une exécution logique parfaite est nécessaire.
Le travail de Samsung s’appuie sur un récent modèle d’IA connu sous le nom de Hierarchical Reasoning Model (HRM). Le HRM a introduit une méthode novatrice utilisant deux petits réseaux neuronaux qui travaillent de manière récursive sur un problème à différentes fréquences pour affiner une réponse. Il a montré de grandes promesses mais était compliqué, reposant sur des arguments biologiques incertains et des théorèmes de points fixes complexes qui n’étaient pas garantis de s’appliquer.
Au lieu des deux réseaux de HRM, le TRM utilise un seul petit réseau qui améliore de manière récursive à la fois son « raisonnement » interne et sa « réponse » proposée.
Le modèle reçoit la question, une supposition initiale de la réponse et une caractéristique de raisonnement latente. Il parcourt d’abord plusieurs étapes pour affiner son raisonnement latent en se basant sur les trois entrées. Ensuite, en utilisant ce raisonnement amélioré, il met à jour sa prédiction pour la réponse finale. Tout ce processus peut être répété jusqu’à 16 fois, permettant au modèle de corriger progressivement ses propres erreurs de manière très efficace en termes de paramètres.
Contre-intuitivement, la recherche a découvert qu’un petit réseau avec seulement deux couches obtenait une bien meilleure généralisation qu’une version à quatre couches. Cette réduction de taille semble empêcher le modèle de surajuster; un problème courant lors de l’entraînement sur des ensembles de données plus petits et spécialisés.
Le TRM se passe également des justifications mathématiques complexes utilisées par son prédécesseur. Le modèle HRM original nécessitait l’hypothèse que ses fonctions convergent vers un point fixe pour justifier sa méthode d’entraînement. Le TRM contourne cela entièrement en se contentant de rétro-propager tout au long de son processus de récursion complet. Ce seul changement a fourni un énorme coup de pouce en termes de performances, améliorant la précision sur le benchmark Sudoku-Extreme de 56,5% à 87,4% dans une étude d’ablation.
Le modèle de Samsung pulvérise les benchmarks d’IA avec moins de ressources
Les résultats parlent d’eux-mêmes. Sur l’ensemble de données Sudoku-Extreme, qui utilise seulement 1 000 exemples d’entraînement, le TRM atteint une précision de test de 87,4%, un énorme bond par rapport aux 55% du HRM. Sur Maze-Hard, une tâche impliquant la recherche de longs chemins à travers des labyrinthes de 30×30, le TRM obtient 85,3% contre 74,5% pour le HRM.
Plus remarquablement, le TRM fait d’énormes progrès sur le Corpus d’Abstraction et de Raisonnement (ARC-AGI), un benchmark conçu pour mesurer la vraie intelligence fluide de l’IA. Avec seulement 7 millions de paramètres, le TRM atteint une précision de 44,6% sur ARC-AGI-1 et 7,8% sur ARC-AGI-2. Cela surpasse le HRM, qui utilisait un modèle de 27 millions de paramètres, et dépasse même de nombreux plus grands LLM du monde. Pour comparaison, Gemini 2.5 Pro obtient seulement 4,9% sur ARC-AGI-2.
Le processus de formation du TRM a également été rendu plus efficace. Un mécanisme adaptatif appelé ACT – qui décide quand le modèle a amélioré une réponse suffisamment et peut passer à un nouvel échantillon de données – a été simplifié pour éliminer le besoin d’une deuxième passe coûteuse à travers le réseau lors de chaque étape d’entraînement. Ce changement a été effectué sans grande différence dans la généralisation finale.
Cette recherche de Samsung présente un argument convaincant contre la trajectoire actuelle des modèles d’IA en expansion constante. Elle montre qu’en concevant des architectures capables de raisonner de manière itérative et de s’autocorriger, il est possible de résoudre des problèmes extrêmement difficiles avec une fraction minuscule des ressources de calcul.


