ven 6 février 2026
AccueilIntelligence artificielleSEAL: L'IA qui apprend toute seule

SEAL: L’IA qui apprend toute seule

Date:

Ceci pourrait vous plaire




Arcane Visions - Thème astral

Des chercheurs du Massachusetts Institute of Technology (MIT) suscitent un intérêt renouvelé pour le développement et la mise en open source d’une technique permettant aux grands modèles de langage (LLM) – tels que ceux qui sous-tendent ChatGPT et la plupart des chatbots d’IA modernes – de s’améliorer en générant des données synthétiques pour se perfectionner.

La technique, connue sous le nom de SEAL (Self-Adapting LLMs), a été initialement décrite dans un article publié en juin et couvert par VentureBeat à l’époque.

Une version considérablement élargie et mise à jour de l’article a été publiée le mois dernier, ainsi que du code open source publié sur Github (sous une licence MIT, permettant une utilisation commerciale et d’entreprise), et suscite un nouvel engouement parmi les utilisateurs de puissance d’IA sur le réseau social X cette semaine.

SEAL permet aux LLM de générer et d’appliquer de manière autonome leurs propres stratégies de perfectionnement. Contrairement aux modèles conventionnels qui reposent sur des données externes fixes et des pipelines d’optimisation conçus par l’homme, SEAL permet aux modèles d’évoluer en produisant leurs propres données d’entraînement synthétiques et les directives d’optimisation correspondantes.

Le développement provient d’une équipe affiliée au laboratoire d’IA improbable du MIT, comprenant Adam Zweiger, Jyothish Pari, Han Guo, Ekin Akyürek, Yoon Kim et Pulkit Agrawal. Leur recherche a récemment été présentée lors de la 39e Conférence sur les systèmes de traitement de l’information neuronale (NeurIPS 2025).

Plus tôt cette année, VentureBeat a rapporté pour la première fois sur SEAL en tant que cadre à un stade précoce qui permettait aux modèles de langage de générer et de s’entraîner sur leurs propres données synthétiques – un remède potentiel à la stagnation des modèles pré-entraînés une fois déployés.

Depuis lors, la recherche a considérablement avancé. La nouvelle version élargit le cadre précédent en démontrant que la capacité d’auto-adaptation de SEAL évolue avec la taille du modèle, intègre plus efficacement l’apprentissage par renforcement pour réduire l’oubli catastrophique, et formalise la structure à double boucle de SEAL (fine-tuning supervisé interne et optimisation de renforcement externe) pour la reproductibilité.

Le papier mis à jour introduit également des évaluations à travers différents formats de sollicitation, une stabilité améliorée pendant les cycles d’apprentissage, et une discussion des défis de déploiement pratique au moment de l’inférence.

Les LLM ont démontré des capacités remarquables en génération et compréhension de texte, mais leur adaptation à de nouvelles tâches ou connaissances est souvent manuelle, fragile ou dépendante du contexte. SEAL remet en question ce statu quo en dotant les modèles de la capacité de générer ce que les auteurs appellent des « auto-modifications » – des sorties en langage naturel spécifiant comment le modèle devrait mettre à jour ses poids.

Ces auto-modifications peuvent prendre la forme d’informations reformulées, d’implications logiques ou de configurations d’outils pour l’augmentation et la formation. Une fois généré, le modèle se perfectionne en fonction de ces modifications. Le processus est guidé par l’apprentissage par renforcement, où le signal de récompense provient de l’amélioration des performances sur une tâche en aval.

La conception imite comment les apprenants humains pourraient reformuler ou réorganiser des matériaux d’étude pour mieux intérioriser l’information. Cette restructuration des connaissances avant l’assimilation constitue un avantage clé par rapport aux modèles qui consomment passivement de nouvelles données « telles quelles ».

SEAL a été testé dans deux domaines principaux : l’incorporation de connaissances et l’apprentissage à quelques coups.

Dans le cadre de l’incorporation de connaissances, les chercheurs ont évalué dans quelle mesure un modèle pouvait intérioriser de nouveaux contenus factuels à partir de passages similaires à ceux du jeu de données SQuAD, un jeu de données de compréhension de lecture de référence introduit par l’Université Stanford en 2016, composé de plus de 100 000 paires de questions-réponses basées sur des articles de Wikipédia.

Au lieu de se perfectionner directement sur le texte du passage, le modèle a généré des implications synthétiques du passage, puis s’est perfectionné dessus.

Après deux tours d’apprentissage par renforcement, le modèle a amélioré la précision de la réponse aux questions de 33,5 % à 47,0 % sur une version sans contexte de SQuAD – dépassant les résultats obtenus en utilisant des données synthétiques générées par GPT-4.1.

Dans le cadre de l’apprentissage à quelques coups, SEAL a été évalué en utilisant un sous-ensemble du benchmark ARC, où les tâches nécessitent un raisonnement à partir de seulement quelques exemples. Ici, SEAL a généré des auto-modifications spécifiant des augmentations de données et des hyperparamètres.

Après l’apprentissage par renforcement, le taux de succès dans la résolution correcte des tâches retenues est passé à 72,5 %, contre 20 % en utilisant des auto-modifications générées sans apprentissage par renforcement. Les modèles qui se fiaient uniquement à l’apprentissage en contexte sans aucune adaptation ont obtenu un score de 0 %.

SEAL fonctionne avec une structure à deux boucles : une boucle interne effectue un ajustement fin supervisé basé sur l’auto-modification, tandis qu’une boucle externe utilise l’apprentissage par renforcement pour affiner la politique qui génère ces auto-modifications.

L’algorithme d’apprentissage par renforcement utilisé est basé sur ReSTEM, qui combine l’échantillonnage avec le clonage de comportement filtré. Pendant l’entraînement, seules les auto-modifications qui conduisent à des améliorations des performances sont renforcées. Cette approche enseigne efficacement au modèle quels types de modifications sont les plus bénéfiques pour l’apprentissage.

Pour l’efficacité, SEAL applique un ajustement fin basé sur LoRA plutôt que des mises à jour complètes des paramètres, permettant une expérimentation rapide et une adaptation à faible coût.

Les chercheurs rapportent que SEAL peut produire des données d’entraînement de haute utilité avec une supervision minimale, surpassant même de grands modèles externes comme GPT-4.1 dans des tâches spécifiques. Ils démontrent également que SEAL se généralise au-delà de sa configuration initiale : il continue à bien se comporter lorsqu’il passe d’une mise à jour en un seul passage à des scénarios de pré-entraînement continu multi-document.

Cependant, le cadre n’est pas sans limites. Un problème est l’oubli catastrophique, où les mises à jour pour incorporer de nouvelles informations peuvent dégrader les performances sur des tâches précédemment apprises.

En réponse à cette préoccupation, le co-auteur Jyo Pari a déclaré à VentureBeat par e-mail que l’apprentissage par renforcement (RL) semble atténuer l’oubli de manière plus efficace que l’ajustement fin supervisé standard (SFT), citant un article récent sur le sujet. Il a ajouté que la combinaison de cette idée avec SEAL pourrait conduire à de nouvelles variantes où SEAL apprend non seulement des données d’entraînement, mais aussi des fonctions de récompense.

Un autre défi est la charge informatique : l’évaluation de chaque auto-modification nécessite un ajustement fin et des tests de performance, ce qui peut prendre de 30 à 45 secondes par modification – significativement plus que les tâches d’apprentissage par renforcement standard. Comme l’a expliqué Jyo, « L’entraînement de SEAL n’est pas trivial car il nécessite 2 boucles d’optimisation, une en RL externe et une en SFT interne. Au moment de l’inférence, la mise à jour des poids du modèle nécessitera également une nouvelle infrastructure système. » Il a souligné la nécessité de recherches futures sur les systèmes de déploiement en tant que voie critique pour rendre SEAL pratique.

De plus, la conception actuelle de SEAL suppose la présence de tâches appariées et de réponses de référence pour chaque contexte, limitant son applicabilité directe aux corpus non étiquetés. Cependant, Jyo a précisé que tant qu’il existe une tâche en aval avec une récompense calculable, SEAL peut être formé pour s’adapter en conséquence, même dans des domaines critiques en matière de sécurité. En principe, un modèle formé par SEAL pourrait apprendre à éviter l’entraînement sur des entrées nocives ou malveillantes s’il est guidé par le signal de récompense approprié.

La communauté de recherche et de construction en IA a réagi avec un mélange d’excitation et de spéculation au document SEAL. Sur X, anciennement Twitter, plusieurs comptes importants axés sur l’IA ont pesé sur l’impact potentiel.

L’utilisateur @VraserX, un éducateur et passionné d’IA autoproclamé, a qualifié SEAL de « naissance de l’IA d’apprentissage continu » et a prédit que des modèles comme GPT-6 d’OpenAI pourraient adopter une architecture similaire. Selon eux, SEAL représente « la fin de l’ère des poids figés », inaugurant des systèmes qui évoluent à mesure que le monde autour d’eux change. Ils ont souligné la capacité de SEAL à former des souvenirs persistants, à réparer les connaissances et à apprendre à partir de données en temps réel, le comparant à une étape fondamentale vers des modèles qui n’utilisent pas seulement l’information mais l’absorbent.

Pendant ce temps, @alex_prompter, co-fondateur d’une entreprise de marketing alimentée par l’IA, a présenté SEAL comme un pas vers des modèles qui se réécrivent littéralement. « Le MIT vient de construire une IA capable de réécrire son propre code pour devenir plus intelligente », a-t-il écrit. Citant les principaux résultats de l’article – une augmentation de 40 % de la mémoire factuelle et des performances supérieures à GPT-4.1 en utilisant des données auto-générées – il a décrit les conclusions comme la confirmation que « les LLM qui se perfectionnent eux-mêmes ne relèvent plus de la science-fiction ».

L’enthousiasme reflète une appétence plus large dans l’espace de l’IA pour des modèles capables d’évoluer sans un re-entraînement constant ou une supervision humaine – en particulier dans des domaines en évolution rapide ou des cas d’utilisation personnalisés.

En réponse aux questions sur la mise à l’échelle de SEAL vers des modèles et tâches plus importants, Jyo a pointé des expériences (Annexe B.7) montrant que à mesure que la taille du modèle augmente, sa capacité d’auto-adaptation augmente également. Il a comparé cela à des étudiants améliorant leurs techniques d’étude avec le temps – les grands modèles sont simplement meilleurs pour générer des auto-modifications utiles.

Interrogé sur la capacité de SEAL à généraliser à de nouveaux styles de sollicitation, il a confirmé que c’était le cas, citant le Tableau 10 de l’article. Cependant, il a également reconnu que l’équipe n’avait pas encore testé la capacité de SEAL à se transférer dans des domaines ou architectures de modèles entièrement nouveaux.

« SEAL est un travail initial montrant les possibilités », a-t-il déclaré. « Mais il nécessite beaucoup plus de tests. » Il a ajouté que la généralisation pourrait s’améliorer à mesure que SEAL est formé sur une distribution plus large de tâches.

De manière intéressante, l’équipe a constaté que seulement quelques étapes d’apprentissage par renforcement ont déjà conduit à des gains de performances mesurables. « C’est excitant », a noté Jyo, « parce que cela signifie qu’avec plus de calcul, nous pourrions espérer obtenir encore plus d’améliorations. » Il a suggéré que des expériences futures pourraient explorer des méthodes d’apprentissage par renforcement plus avancées au-delà de ReSTEM, telles que l’optimisation de politique relative de groupe (GRPO).

SEAL représente une étape vers des modèles capables de s’améliorer de manière autonome avec le temps, à la fois en intégrant de nouvelles connaissances et en reconfigurant leur mode d’apprentissage. Les auteurs envisagent des extensions futures où SEAL pourrait aider à l’auto-pré-entraînement, à l’apprentissage continu et au développement de systèmes agentic – des modèles qui interagissent avec des environnements en évolution et s’adaptent de manière incrémentielle.

Dans de tels contextes, un modèle pourrait utiliser SEAL pour synthétiser des mises à jour de poids après chaque interaction, intériorisant progressivement des comportements ou des idées. Cela pourrait réduire le besoin de supervision répétée et d’intervention manuelle, en particulier dans des domaines contraints en données ou spécialisés.

Alors que le texte web public devient saturé et que l’expansion des LLM est freinée par la disponibilité des données, les approches auto-dirigées comme SEAL pourraient jouer un rôle crucial dans repousser les limites de ce que les LLM peuvent accomplir.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici