jeu 5 février 2026
AccueilIntelligence artificielleRévolutionnez l'IA avec le Model Merging M2N2

Révolutionnez l’IA avec le Model Merging M2N2

Date:

Ceci pourrait vous plaire




Arcane Visions - Thème astral

Découvrez une nouvelle technique évolutive développée par le laboratoire japonais d’IA Sakana AI qui permet aux développeurs d’augmenter les capacités des modèles d’IA sans passer par des processus coûteux d’entraînement et d’ajustement fins. Cette technique, appelée Fusion de Modèles de Niches Naturelles (M2N2), surmonte les limitations des autres méthodes de fusion de modèles et peut même faire évoluer de nouveaux modèles à partir de zéro.

M2N2 peut être appliqué à différents types de modèles d’apprentissage automatique, y compris les grands modèles de langage (LLMs) et les générateurs de texte en image. Pour les entreprises souhaitant construire des solutions d’IA personnalisées, cette approche offre un moyen puissant et efficace de créer des modèles spécialisés en combinant les forces des variantes open-source existantes.

La fusion de modèles est une technique qui consiste à intégrer les connaissances de plusieurs modèles d’IA spécialisés en un seul modèle plus capable. Au lieu de l’ajustement fin, qui affine un seul modèle pré-entraîné en utilisant de nouvelles données, la fusion combine simultanément les paramètres de plusieurs modèles. Ce processus permet de consolider une multitude de connaissances en un seul actif sans nécessiter un entraînement coûteux basé sur des gradients ou un accès aux données d’entraînement originales.

Pour les équipes d’entreprise, cela offre plusieurs avantages pratiques par rapport à l’ajustement fin traditionnel. La fusion de modèles est un processus sans gradient qui ne nécessite que des passes en avant, le rendant moins coûteux en termes de calcul que l’ajustement fin, qui implique des mises à jour de gradient coûteuses. La fusion évite également le besoin de données d’entraînement équilibrées avec soin et atténue le risque d’« oubli catastrophique », où un modèle perd ses capacités originales après avoir appris une nouvelle tâche. La technique est particulièrement puissante lorsque les données d’entraînement pour les modèles spécialistes ne sont pas disponibles, car la fusion ne nécessite que les poids du modèle eux-mêmes.

Les premières approches de fusion de modèles nécessitaient des efforts manuels importants, les développeurs ajustant les coefficients par essais et erreurs pour trouver le mélange optimal. Plus récemment, les algorithmes évolutifs ont contribué à automatiser ce processus en recherchant la combinaison optimale de paramètres. Cependant, une étape manuelle significative subsiste : les développeurs doivent définir des ensembles fixes pour les paramètres fusionnables, tels que les couches. Cette restriction limite l’espace de recherche et peut empêcher la découverte de combinaisons plus puissantes.

M2N2 adresse ces limitations en s’inspirant des principes évolutifs de la nature. L’algorithme possède trois caractéristiques clés qui lui permettent d’explorer un plus large éventail de possibilités et de découvrir des combinaisons de modèles plus efficaces.

Tout d’abord, M2N2 élimine les frontières de fusion fixes, telles que les blocs ou les couches. Au lieu de regrouper les paramètres par couches prédéfinies, il utilise des « points de division » et des « taux de mélange » flexibles pour diviser et combiner les modèles. Cela signifie que, par exemple, l’algorithme peut fusionner 30 % des paramètres d’une couche du Modèle A avec 70 % des paramètres de la même couche du Modèle B. Le processus commence par une « archive » de modèles de départ. À chaque étape, M2N2 sélectionne deux modèles de l’archive, détermine un taux de mélange et un point de division, et les fusionne. Si le modèle résultant se comporte bien, il est ajouté à l’archive, remplaçant un modèle plus faible. Cela permet à l’algorithme d’explorer des combinaisons de plus en plus complexes au fil du temps. Comme le notent les chercheurs, « Cette introduction progressive de la complexité assure un plus large éventail de possibilités tout en maintenant la traçabilité computationnelle. »

Deuxièmement, M2N2 gère la diversité de sa population de modèles grâce à la compétition. Pour comprendre pourquoi la diversité est cruciale, les chercheurs proposent une simple analogie : « Imaginez fusionner deux feuilles de réponses pour un examen… Si les deux feuilles ont exactement les mêmes réponses, les fusionner ne procure aucune amélioration. Mais si chaque feuille a les bonnes réponses pour des questions différentes, les fusionner donne un résultat bien plus fort. » La fusion de modèles fonctionne de la même manière. Le défi, cependant, est de définir quel type de diversité est précieux. Au lieu de se fier à des mesures fabriquées à la main, M2N2 simule une compétition pour des ressources limitées. Cette approche inspirée de la nature récompense naturellement les modèles dotés de compétences uniques, car ils peuvent « exploiter des ressources non contestées » et résoudre des problèmes que les autres ne peuvent pas. Ces spécialistes de niches, notent les auteurs, sont les plus précieux pour la fusion.

Troisièmement, M2N2 utilise une heuristique appelée « attraction » pour apparier les modèles en vue de la fusion. Plutôt que de simplement combiner les modèles les mieux performants comme dans d’autres algorithmes de fusion, il les associe en fonction de leurs forces complémentaires. Un « score d’attraction » identifie les paires où un modèle se comporte bien sur des points de données que l’autre trouve difficiles. Cela améliore à la fois l’efficacité de la recherche et la qualité du modèle fusionné final.

Les chercheurs ont testé M2N2 dans trois domaines différents, démontrant sa polyvalence et son efficacité. Dans une première expérience à petite échelle, ils ont fait évoluer des classificateurs d’images basés sur des réseaux neuronaux à partir de zéro sur l’ensemble de données MNIST. M2N2 a atteint la plus haute précision de test de loin par rapport à d’autres méthodes. Les résultats ont montré que son mécanisme de préservation de la diversité était essentiel, lui permettant de maintenir une archive de modèles aux forces complémentaires facilitant la fusion efficace tout en éliminant systématiquement les solutions plus faibles.

Ensuite, ils ont appliqué M2N2 aux LLMs, combinant un modèle spécialiste des mathématiques (WizardMath-7B) avec un modèle agentic (AgentEvol-7B), tous deux basés sur l’architecture Llama 2. L’objectif était de créer un seul agent excellent à la fois pour les problèmes de mathématiques (ensemble de données GSM8K) et les tâches basées sur le web (ensemble de données WebShop). Le modèle résultant a obtenu de bonnes performances sur les deux benchmarks, démontrant la capacité de M2N2 à créer des modèles puissants et multi-compétents.

Enfin, l’équipe a fusionné des modèles de génération d’images basés sur la diffusion. Ils ont combiné un modèle entraîné sur des instructions japonaises (JSDXL) avec trois modèles Stable Diffusion principalement entraînés sur des instructions anglaises. L’objectif était de créer un modèle qui combinait les meilleures capacités de génération d’images de chaque modèle de départ tout en conservant la capacité de comprendre le japonais. Le modèle fusionné a non seulement produit des images plus photoréalistes avec une meilleure compréhension sémantique, mais a également développé une capacité bilingue émergente. Il pouvait générer des images de haute qualité à partir d’instructions en anglais et en japonais, même s’il était optimisé exclusivement à l’aide de légendes japonaises.

Pour les entreprises qui ont déjà développé des modèles spécialistes, l’argument commercial en faveur de la fusion est convaincant. Les auteurs soulignent de nouvelles capacités hybrides difficiles à atteindre autrement. Par exemple, fusionner un LLM affiné pour des arguments de vente persuasifs avec un modèle de vision entraîné pour interpréter les réactions des clients pourrait créer un seul agent qui adapte son argument en temps réel en fonction des retours vidéo en direct. Cela libère l’intelligence combinée de plusieurs modèles avec le coût et la latence de l’exécution d’un seul.

En regardant vers l’avenir, les chercheurs considèrent des techniques comme M2N2 comme faisant partie d’une tendance plus large vers la « fusion de modèles ». Ils envisagent un avenir où les organisations maintiennent des écosystèmes entiers de modèles d’IA qui évoluent et fusionnent continuellement pour s’adapter à de nouveaux défis.

« Imaginez cela comme un écosystème évolutif où les capacités sont combinées au besoin, plutôt que de construire un seul monolithe géant à partir de zéro », suggèrent les auteurs.

Les chercheurs ont publié le code de M2N2 sur GitHub.

La plus grande difficulté pour cet écosystème d’IA dynamique et auto-améliorant, selon les auteurs, n’est pas technique mais organisationnelle. « Dans un monde avec un ‘modèle fusionné’ composé de composants open-source, commerciaux et personnalisés, garantir la confidentialité, la sécurité et la conformité sera un problème critique. » Pour les entreprises, le défi sera de déterminer quels modèles peuvent être absorbés en toute sécurité et efficacement dans leur pile d’IA en constante évolution.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici