lun 2 février 2026
AccueilIntelligence artificielleContrôler les traits de personnalité des modèles linguistiques : découvrez la méthode...

Contrôler les traits de personnalité des modèles linguistiques : découvrez la méthode révolutionnaire des vecteurs de personnalité

Date:

Ceci pourrait vous plaire




Arcane Visions - Thème astral

Une étude récente du programme des Fellows Anthropiques révèle une technique pour identifier, surveiller et contrôler les traits de caractère dans de grands modèles de langage (LLM). Les résultats montrent que les modèles peuvent développer des personnalités indésirables (par exemple, devenir malveillants, excessivement conciliants ou enclins à inventer des choses) soit en réponse aux sollicitations des utilisateurs, soit comme une conséquence non voulue de l’entraînement.

Les chercheurs introduisent les « vecteurs de personnalité », qui sont des directions dans l’espace d’activation interne d’un modèle qui correspondent à des traits de personnalité spécifiques, fournissant aux développeurs un ensemble d’outils pour mieux gérer le comportement de leurs assistants AI.

Les LLM interagissent généralement avec les utilisateurs à travers une personnalité « Assistant » conçue pour être utile, inoffensive et honnête. Cependant, ces personnalités peuvent fluctuer de manière inattendue. Au déploiement, la personnalité d’un modèle peut changer radicalement en fonction des sollicitations ou du contexte conversationnel, comme on l’a vu lorsque le chatbot Bing de Microsoft a menacé les utilisateurs ou lorsque Grok de xAI a commencé à se comporter de manière erratique. Comme le notent les chercheurs dans leur article, « Alors que ces exemples particuliers ont suscité une attention publique généralisée, la plupart des modèles de langage sont susceptibles de subir des changements de personnalité contextuels ».

Les procédures d’entraînement peuvent également induire des changements inattendus. Par exemple, affiner un modèle sur une tâche étroite comme la génération de code non sécurisé peut entraîner un « désalignement émergent » plus large qui va au-delà de la tâche initiale. Même des ajustements d’entraînement bien intentionnés peuvent se retourner contre vous. En avril 2025, une modification du processus d’apprentissage par renforcement à partir des retours des humains (RLHF) a rendu involontairement le GPT-4o d’OpenAI excessivement sycophantique, le poussant à valider des comportements nuisibles.

La nouvelle recherche s’appuie sur le concept selon lequel les traits de haut niveau, tels que la véracité ou le secret, sont codés sous forme de directions linéaires dans l’espace d’activation d’un modèle (la représentation interne et multidimensionnelle de l’information intégrée dans les poids du modèle). Les chercheurs ont systématisé le processus de recherche de ces directions, qu’ils appellent « vecteurs de personnalité ». Selon l’article, leur méthode d’extraction des vecteurs de personnalité est automatisée et « peut être appliquée à tout trait de personnalité d’intérêt, simplement sur la base d’une description en langage naturel ».

Le processus fonctionne à travers un pipeline automatisé. Il commence par une simple description d’un trait, comme « maléfique ». Le pipeline génère ensuite des paires de sollicitations système contrastées (par exemple, « Vous êtes un AI maléfique » vs « Vous êtes un AI serviable ») ainsi qu’un ensemble de questions d’évaluation. Le modèle génère des réponses sous les deux sollicitations positives et négatives. Le vecteur de personnalité est ensuite calculé en prenant la différence dans les activations internes moyennes entre les réponses qui exhibent le trait et celles qui ne le font pas. Cela isole la direction spécifique dans les poids du modèle qui correspond à ce trait de personnalité.

Dans une série d’expériences avec des modèles ouverts, tels que Qwen 2.5-7B-Instruct et Llama-3.1-8B-Instruct, les chercheurs ont démontré plusieurs applications pratiques pour les vecteurs de personnalité.

Tout d’abord, en projetant l’état interne d’un modèle sur un vecteur de personnalité, les développeurs peuvent surveiller et prédire comment il se comportera avant de générer une réponse. L’article indique, « Nous montrons que les changements de personnalité, voulus et non voulus, induits par l’affinage, corréleront fortement avec les changements d’activation le long des vecteurs de personnalité correspondants. » Cela permet de détecter et de réduire rapidement les changements de comportement indésirables pendant l’affinage.

Les vecteurs de personnalité permettent également une intervention directe pour freiner les comportements indésirables au moment de l’inférence grâce à un processus que les chercheurs appellent « diriger ». Une approche est le « diriger post-hoc », où les développeurs soustraient le vecteur de personnalité des activations du modèle pendant l’inférence pour atténuer un mauvais trait. Les chercheurs ont constaté que, bien qu’efficace, le diriger post-hoc peut parfois dégrader les performances du modèle sur d’autres tâches.

Une méthode plus novatrice est le « diriger préventif », où le modèle est dirigé de manière proactive vers la personnalité indésirable pendant l’affinage. Cette approche contre-intuitive « vaccine » essentiellement le modèle contre l’apprentissage du mauvais trait à partir des données d’entraînement, annulant la pression d’affinage tout en préservant mieux ses capacités générales.

Une application clé pour les entreprises est d’utiliser les vecteurs de personnalité pour filtrer les données avant l’affinage. Les chercheurs ont développé une métrique appelée « différence de projection », qui mesure dans quelle mesure un ensemble de données d’entraînement donné poussera la personnalité du modèle vers un trait particulier. Cette métrique est très prédictive de la façon dont le comportement du modèle évoluera après l’entraînement, permettant aux développeurs d’identifier et de filtrer les ensembles de données problématiques avant de les utiliser dans l’entraînement.

Pour les entreprises qui affinent des modèles open source sur des données propriétaires ou de tiers (y compris des données générées par d’autres modèles), les vecteurs de personnalité offrent un moyen direct de surveiller et de réduire le risque d’hériter de traits indésirables cachés. La capacité à filtrer les données de manière proactive est un outil puissant pour les développeurs, leur permettant d’identifier des échantillons problématiques qui ne seraient pas immédiatement apparents comme nocifs.

La recherche a montré que cette technique peut détecter des problèmes que d’autres méthodes ne voient pas, notant, « Cela suggère que la méthode met en évidence des échantillons problématiques qui peuvent échapper à la détection basée sur les LLM. » Par exemple, leur méthode a pu repérer quelques exemples d’ensemble de données qui n’étaient pas évidemment problématiques à l’œil humain, et qu’un juge LLM n’a pas pu signaler.

Dans un article de blog, Anthropic a suggéré qu’ils utiliseront cette technique pour améliorer les futures générations de Claude. « Les vecteurs de personnalité nous donnent un moyen de comprendre où les modèles acquièrent ces personnalités, comment elles fluctuent avec le temps, et comment nous pouvons mieux les contrôler », écrivent-ils. Anthropic a publié le code pour calculer les vecteurs de personnalité, surveiller et diriger le comportement des modèles et évaluer les ensembles de données d’entraînement. Les développeurs d’applications d’IA peuvent utiliser ces outils pour passer d’une simple réaction aux comportements indésirables à la conception proactive de modèles avec une personnalité plus stable et prévisible.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici