mer 4 février 2026
AccueilIntelligence artificielleRéinventer l'apprentissage profond avec la RL supervisée

Réinventer l’apprentissage profond avec la RL supervisée

Date:

Ceci pourrait vous plaire




Arcane Visions - Thème astral

Des chercheurs de Google Cloud et de l’UCLA ont proposé un nouveau cadre d’apprentissage par renforcement qui améliore considérablement la capacité des modèles linguistiques à apprendre des tâches de raisonnement multi-étapes très difficiles. Le « Supervised Reinforcement Learning » (SRL) reformule la résolution de problèmes comme une séquence d’actions logiques, offrant des signaux d’apprentissage riches pendant le processus d’entraînement.

Cette approche permet aux modèles plus petits d’apprendre des problèmes complexes qui étaient auparavant hors de portée pour d’autres techniques d’entraînement courantes. Les expériences montrent que le SRL excelle non seulement sur les benchmarks de raisonnement mathématique, mais généralise également efficacement aux tâches d’ingénierie logicielle agentic.

Le SRL est un cadre d’entraînement polyvalent qui peut élever les modèles plus petits et moins coûteux à des capacités de raisonnement supérieures.

Les limites de l’entraînement actuel au raisonnement des LLM

Les récents progrès dans l’entraînement de grands modèles linguistiques (LLM) pour le raisonnement ont largement été motivés par l’apprentissage par renforcement avec des récompenses vérifiables (RLVR), une méthode où un modèle est récompensé en fonction de la justesse de sa réponse finale. En essayant à plusieurs reprises de résoudre des problèmes et en recevant des retours sur le résultat final, le modèle apprend progressivement des stratégies efficaces de résolution de problèmes.

Cependant, le succès de cette approche basée sur les résultats dépend de la capacité du modèle à découvrir une solution correcte dans un nombre limité de tentatives, ou « rollouts ». Étant donné que chaque rollout est coûteux en termes de calcul, les modèles ne peuvent pas essayer indéfiniment. Cette méthode atteint ses limites lorsque les problèmes sont si difficiles que le modèle trouve rarement, voire jamais, la bonne réponse dans son budget.

Cela crée un goulot d’étranglement critique pour l’apprentissage. Dans de nombreux problèmes de raisonnement multi-étapes, un modèle pourrait résoudre correctement plusieurs étapes mais être bloqué par une seule erreur, conduisant à une réponse incorrecte. Avec le RLVR, tous les efforts reçoivent une récompense négative, et le modèle n’apprend rien de son travail partiellement correct. C’est une approche tout ou rien qui ne fournit pas de feedback granulaire et offre des récompenses éparses.

Une méthode alternative est le fine-tuning supervisé (SFT), où le modèle apprend à partir d’exemples contenant le processus complet de raisonnement élaboré par des experts. Bien que le SFT puisse inculquer des capacités de raisonnement, il conduit souvent à un surajustement (le modèle se contente d’imiter les trajectoires dans les données d’entraînement au lieu d’apprendre à généraliser à des problèmes au-delà des exemples qu’il a vus). Ce problème est aggravé par le fait que des données d’entraînement de haute qualité, créées par des humains, sont à la fois rares et coûteuses à produire.

Comme le note l’article, ces limitations laissent « un écart critique pour former de petits modèles open source à apprendre efficacement des problèmes difficiles. »

Comment fonctionne l’apprentissage supervisé par renforcement

Le SRL introduit un cadre qui reformule la résolution de problèmes comme un « processus de prise de décision séquentielle », trouvant un équilibre entre l’apprentissage par renforcement basé uniquement sur les résultats et l’apprentissage par imitation pur. Au lieu d’optimiser uniquement pour la réponse finale ou de forcer le modèle à imiter l’ensemble du processus de réflexion d’un expert, le SRL enseigne au modèle à reproduire une séquence d’actions clés qui constituent l’épine dorsale du raisonnement expert. Cela permet au modèle d’apprendre à prendre des actions similaires à un expert tout en développant son propre style de raisonnement interne.

Dans le cadre du SRL, les démonstrations d’experts sont décomposées en une série d’actions intermédiaires concrètes, chacune représentant une étape significative. Pour un problème mathématique, une action pourrait être une manipulation algébrique. Pour un agent d’ingénierie logicielle, cela pourrait être une commande exécutée dans un référentiel de code. Pour générer des données d’entraînement, le SRL utilise un modèle enseignant puissant pour créer des trajectoires de solution, qui sont ensuite utilisées pour entraîner un modèle plus petit.

Selon I-Hung Hsu, chercheur chez Google et co-auteur de l’article, cette approche intermédiaire est essentielle à son efficacité dans des scénarios réels. « Le SRL se situe au milieu : il capture la flexibilité structurée de la résolution de problèmes du monde réel, où il existe de multiples stratégies valides mais aussi des notions claires de ce à quoi ressemble un ‘bon raisonnement’ à chaque étape », a déclaré Hsu à VentureBeat. « Cela rend le SRL adapté à des domaines comme l’automatisation des sciences des données ou probablement l’optimisation de la chaîne d’approvisionnement – des tâches qui récompensent un raisonnement intermédiaire solide plutôt que de simples réponses finales. »

Pendant l’entraînement, le modèle génère d’abord un « monologue intérieur » (son processus de raisonnement interne, encadré dans des balises ) avant de s’engager dans une action. À chaque étape, le SRL fournit une récompense basée sur la similitude entre l’action prédite par le modèle et l’action de l’expert. Ce système de récompenses étape par étape fournit un feedback dense et fin, permettant au modèle d’apprendre et de s’améliorer même si sa solution globale n’est pas parfaite. Cela résout le problème de récompense épars que rencontre le RLVR.

SRL en action

Les expériences des chercheurs montrent que le SRL surpasse de manière significative des baselines solides à la fois dans des benchmarks de raisonnement mathématique difficiles et dans des benchmarks d’ingénierie logicielle agentic. Ils ont également observé que le SRL encourage des schémas de raisonnement plus flexibles et sophistiqués dans les modèles, tels que la planification entrelacée et l’auto-vérification, qui améliorent la qualité des solutions sans simplement rendre les sorties plus longues.

Pour les dirigeants d’entreprise, les gains de performance sont précieux s’ils ne s’accompagnent pas de coûts exorbitants. Hsu précise que les modèles formés par SRL sont plus efficaces dans leur raisonnement. « Les gains proviennent d’une meilleure qualité et structure de raisonnement, pas de la verborrhée », a-t-il déclaré. « En termes d’efficacité, les modèles formés par SRL sont à peu près au même niveau que le modèle de base en termes d’utilisation de jetons… alors que le SRL n’est pas conçu pour réduire le coût d’inférence, il obtient de meilleures performances de raisonnement sans l’augmenter. »

Pour les tests de mathématiques, l’équipe a affiné le modèle Qwen2.5-7B-Instruct sur un ensemble de données de 1 000 questions de mathématiques difficiles. Ils ont comparé ses performances avec des modèles formés avec SFT et RLVR (en utilisant l’algorithme GRPO commun dans des modèles comme DeepSeek-R1) sur quatre benchmarks mathématiques de niveau de compétition. Le modèle formé par SRL a obtenu une augmentation moyenne substantielle de 3,0 % par rapport aux autres méthodes.

L’équipe a étendu le SRL à l’ingénierie logicielle agentic, un domaine crucial pour l’automatisation en entreprise. Ils ont formé un modèle spécialisé dans la programmation, Qwen2.5-Coder-7B-Instruct, sur 5 000 trajectoires d’experts d’agents interagissant avec un environnement de codage. Le modèle formé par le SRL a été comparé au modèle de base original et à SWE-Gym-7B, une baseline solide affinée avec SFT. Le SRL a atteint un taux de résolution de tâche de 14,8 %, ce qui représente une amélioration relative de 74 % par rapport au modèle basé sur le SFT. Cela montre la capacité du SRL à former des agents IA plus compétents pour des tâches de programmation complexes du monde réel.

Une nouvelle norme pour l’IA à enjeux élevés ?

Les résultats les plus forts de l’article proviennent de la combinaison de méthodes : d’abord utiliser le SRL pour enseigner le raisonnement fondamental, puis utiliser le RLVR pour affiner cette compétence. Dans leurs expériences, lorsque les chercheurs ont utilisé le SRL comme pré-entraînement et appliqué le RLVR en post-entraînement, ils ont observé une augmentation moyenne de 3,7 %, démontrant une puissante stratégie d’apprentissage par curriculum.

Cela soulève la question de savoir si cela pourrait devenir une nouvelle norme pour la construction d’IA spécialisées.

« Nous considérons le SRL comme une base solide », a déclaré Hsu. « En un sens, le SRL fournit un programme – enseigner aux modèles à penser et à agir étape par étape – avant que nous ne raffinions ces comportements avec l’apprentissage par renforcement basé sur les résultats. Cette approche SRL d’abord non seulement stabilise la phase RL ultérieure, mais rend également le raisonnement plus interprétable et généralisable, ce qui est essentiel pour les applications à enjeux élevés. »

En regardant vers l’avant, Hsu reconnaît que mettre à l’échelle ce pipeline reste un défi, en particulier le coût élevé et la complexité de l’entraînement RLVR de bout en bout pour les tâches agentic. Cependant, il est optimiste quant à l’avenir. « Alors que des trajectoires expertes de haute qualité restent importantes », a-t-il conclu, « nous pensons que le prochain grand bond en avant viendra de l’automatisation de leur génération et de leur filtrage – en tirant parti de modèles enseignants puissants ou même de modèles d’élèves s’améliorant automatiquement pour amorcer de nouvelles données. »

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici