Anthropic a détaillé sa stratégie de sécurité pour essayer de maintenir son modèle d’IA populaire, Claude, utile tout en évitant de perpétuer les préjudices.
Au cœur de cet effort se trouve l’équipe des Garde-fous d’Anthropic ; qui ne sont pas un groupe de support technique ordinaire, ils sont un mélange d’experts en politique, de data scientists, d’ingénieurs et d’analystes de menaces qui connaissent la façon dont les mauvais acteurs pensent.
Cependant, l’approche d’Anthropic en matière de sécurité n’est pas un simple mur mais plutôt un château avec plusieurs couches de défense. Tout commence par la création des bonnes règles et se termine par la traque des nouvelles menaces dans la nature.
En premier lieu, il y a la Politique d’Utilisation, qui est essentiellement le règlement sur la manière dont Claude devrait être utilisé ou non. Il donne des directives claires sur des problèmes majeurs tels que l’intégrité des élections et la sécurité des enfants, ainsi que sur l’utilisation responsable de Claude dans des domaines sensibles tels que la finance ou la santé.
Pour façonner ces règles, l’équipe utilise un Cadre Unifié des Préjudices. Cela les aide à réfléchir à tout impact négatif potentiel, que ce soit physique, psychologique, économique ou sociétal. Il s’agit moins d’un système de notation formel que d’une manière structurée d’évaluer les risques lors de la prise de décisions. Ils font également intervenir des experts externes pour des Tests de Vulnérabilité des Politiques. Ces spécialistes dans des domaines tels que le terrorisme et la sécurité des enfants essaient de « casser » Claude avec des questions difficiles pour identifier les faiblesses.
Nous avons vu cela en action lors des élections américaines de 2024. Après avoir travaillé avec l’Institut pour le Dialogue Stratégique, Anthropic a réalisé que Claude pourrait fournir d’anciennes informations de vote. Ainsi, ils ont ajouté une bannière redirigeant les utilisateurs vers TurboVote, une source fiable d’informations électorales à jour et non partisane.
L’équipe des Garde-fous d’Anthropic travaille en étroite collaboration avec les développeurs qui entraînent Claude pour intégrer la sécurité dès le départ. Cela signifie décider des choses que Claude devrait ou ne devrait pas faire, et intégrer ces valeurs dans le modèle lui-même.
Ils s’associent également à des spécialistes pour faire les choses correctement. Par exemple, en s’associant à ThroughLine, un leader du soutien en cas de crise, ils ont appris à Claude comment gérer avec précaution des conversations sensibles sur la santé mentale et l’automutilation, plutôt que de simplement refuser de parler. Cet entraînement minutieux est la raison pour laquelle Claude refusera de participer à des activités illégales, d’écrire du code malveillant ou de créer des arnaques.
Avant que toute nouvelle version de Claude ne soit mise en ligne, elle est soumise à trois types d’évaluation clés.
– Évaluations de sécurité : Ces tests vérifient si Claude respecte les règles, même dans des conversations complexes et longues.
– Évaluations des risques : Pour des domaines vraiment à haut risque tels que les menaces cybernétiques ou biologiques, l’équipe réalise des tests spécialisés, souvent avec l’aide de partenaires gouvernementaux et industriels.
– Évaluations des biais : Il s’agit de garantir l’équité. Ils vérifient si Claude donne des réponses fiables et précises pour tout le monde, testant les biais politiques ou les réponses biaisées basées sur des éléments tels que le genre ou la race.
Ces tests intensifs aident l’équipe à voir si l’entraînement a été efficace et leur indiquent s’ils doivent mettre en place des protections supplémentaires avant le lancement.
Une fois que Claude est dans le monde, un mélange de systèmes automatisés et de réviseurs humains surveille les problèmes. Le principal outil ici est un ensemble de modèles Claude spécialisés appelés « classificateurs » qui sont formés pour repérer en temps réel des violations spécifiques de la politique au fur et à mesure qu’elles se produisent.
Si un classificateur repère un problème, il peut déclencher différentes actions. Il peut orienter la réponse de Claude loin de la génération de quelque chose de nocif, comme du spam. Pour les récidivistes, l’équipe peut émettre des avertissements ou même fermer le compte.
L’équipe examine également le panorama général. Ils utilisent des outils respectueux de la vie privée pour repérer les tendances dans l’utilisation de Claude et utilisent des techniques de résumé hiérarchique pour repérer les abus à grande échelle, tels que les campagnes d’influence coordonnées. Ils recherchent constamment de nouvelles menaces, fouillant les données et surveillant les forums où les mauvais acteurs pourraient se retrouver.
Cependant, Anthropic reconnaît que garantir la sécurité de l’IA n’est pas une tâche qu’ils peuvent accomplir seuls. Ils travaillent activement avec des chercheurs, des décideurs politiques et le public pour élaborer les meilleures protections possibles.


