L’intelligence des modèles d’IA ne constitue pas le principal obstacle aux déploiements en entreprise. C’est plutôt l’incapacité à définir et mesurer la qualité en premier lieu.
C’est là que les juges d’IA jouent désormais un rôle de plus en plus important. Dans l’évaluation de l’IA, un « juge » est un système d’IA qui évalue les sorties d’un autre système d’IA.
Judge Builder est le cadre de Databricks pour la création de juges et a été déployé pour la première fois dans le cadre de la technologie Agent Bricks de l’entreprise plus tôt cette année. Le cadre a évolué de manière significative depuis son lancement initial en réponse aux retours directs des utilisateurs et aux déploiements.
Les premières versions se concentraient sur la mise en œuvre technique, mais les retours des clients ont révélé que le véritable goulot d’étranglement était l’alignement organisationnel. Databricks propose désormais un processus d’atelier structuré qui guide les équipes à travers trois défis principaux : faire en sorte que les parties prenantes s’accordent sur les critères de qualité, capturer l’expertise sectorielle limitée des experts et déployer des systèmes d’évaluation à grande échelle.
« L’intelligence du modèle n’est généralement pas le goulot d’étranglement, les modèles sont vraiment intelligents », a déclaré Jonathan Frankle, scientifique en chef de l’IA chez Databricks, à VentureBeat lors d’un briefing exclusif. « Au lieu de cela, il s’agit vraiment de se demander comment obtenir des modèles qu’ils fassent ce que nous voulons, et comment savoir s’ils ont fait ce que nous voulions? »
Le constructeur de juges aborde ce que Pallavi Koppol, scientifique de la recherche chez Databricks qui a dirigé le développement, appelle le « problème de l’Ouroboros ». Un Ouroboros est un ancien symbole qui représente un serpent mangeant sa propre queue.
Utiliser des systèmes d’IA pour évaluer des systèmes d’IA crée un défi de validation circulaire.
La solution consiste à mesurer la « distance par rapport à la vérité de terrain de l’expert humain » comme fonction de notation principale. En minimisant l’écart entre la façon dont un juge d’IA évalue les sorties et la façon dont les experts du domaine les évalueraient, les organisations peuvent faire confiance à ces juges en tant que proxies évolutifs pour l’évaluation humaine.
Cette approche diffère fondamentalement des systèmes de garde-fous traditionnels ou des évaluations à métrique unique. Plutôt que de se demander si une sortie d’IA a réussi ou échoué à un contrôle de qualité générique, Judge Builder crée des critères d’évaluation très spécifiques adaptés à l’expertise et aux exigences commerciales de chaque organisation.
L’implémentation technique le distingue également. Judge Builder s’intègre à MLflow de Databricks et aux outils d’optimisation de prompt et peut fonctionner avec n’importe quel modèle sous-jacent. Les équipes peuvent contrôler les versions de leurs juges, suivre les performances dans le temps et déployer plusieurs juges simultanément sur différentes dimensions de qualité.
Le travail de Databricks avec les clients d’entreprise a révélé trois leçons critiques qui s’appliquent à quiconque construit des juges d’IA.
Leçon un : Vos experts ne sont pas autant d’accord que vous le pensez. Lorsque la qualité est subjective, les organisations découvrent que même leurs propres experts du domaine ne sont pas d’accord sur ce qui constitue une sortie acceptable. Une réponse du service client peut être factuellement correcte mais utiliser un ton inapproprié. Un résumé financier peut être complet mais trop technique pour le public cible.
La solution consiste en une annotation groupée avec des vérifications de fiabilité inter-évaluateurs. Les équipes annotent des exemples en petits groupes, puis mesurent les scores d’accord avant de continuer. Cela permet de détecter rapidement les désalignements. Dans un cas, trois experts ont donné des notes de 1, 5 et neutre pour la même sortie avant que la discussion ne révèle qu’ils interprétaient différemment les critères d’évaluation.
Les entreprises qui utilisent cette approche obtiennent des scores de fiabilité inter-évaluateurs aussi élevés que 0,6 par rapport aux scores typiques de 0,3 des services d’annotation externes. Un accord plus élevé se traduit directement par de meilleures performances du juge, car les données d’entraînement contiennent moins de bruit.
Leçon deux : Décomposer les critères vagues en juges spécifiques. Au lieu d’un seul juge évaluant si une réponse est « pertinente, factuelle et concise », créez trois juges distincts. Chacun cible un aspect spécifique de la qualité. Cette granularité est importante car un score de « qualité globale » défaillant révèle un problème mais pas comment le résoudre.
Les meilleurs résultats proviennent de la combinaison de contraintes descendantes telles que les contraintes réglementaires, les priorités des parties prenantes, avec la découverte ascendante des modèles de défaillance observés. Un client a construit un juge de haut niveau pour la correction mais a découvert grâce à l’analyse des données que les réponses correctes citaient presque toujours les deux premiers résultats de recherche. Cette découverte est devenue un nouveau juge convivial pour la production qui pouvait servir de proxy pour la correction sans nécessiter d’étiquettes de vérité de terrain.
Leçon trois : Vous avez besoin de moins d’exemples que vous ne le pensez. Les équipes peuvent créer des juges robustes à partir de seulement 20 à 30 exemples bien choisis. La clé est de sélectionner des cas limites qui mettent en évidence les désaccords plutôt que des exemples évidents où tout le monde est d’accord.
« Nous sommes capables de mener ce processus avec certaines équipes en aussi peu que trois heures, donc cela ne prend pas vraiment longtemps pour commencer à obtenir un bon juge », a déclaré Koppol.
Frankle a partagé trois indicateurs que Databricks utilise pour mesurer le succès de Judge Builder : que les clients veulent l’utiliser à nouveau, qu’ils augmentent leurs dépenses en IA et qu’ils progressent davantage dans leur parcours en IA.
Pour le premier indicateur, un client a créé plus d’une douzaine de juges après leur atelier initial. « Ce client a créé plus d’une douzaine de juges après que nous les ayons guidés pour la première fois de manière rigoureuse avec ce cadre », a déclaré Frankle. « Ils se sont vraiment lancés dans les juges et mesurent maintenant tout. »
Pour le deuxième indicateur, l’impact commercial est clair. « Il y a plusieurs clients qui ont suivi cet atelier et sont devenus des dépensiers à sept chiffres sur GenAI chez Databricks d’une manière qu’ils n’étaient pas avant », a déclaré Frankle.
Le troisième indicateur révèle la valeur stratégique de Judge Builder. Les clients qui hésitaient auparavant à utiliser des techniques avancées comme le renforcement se sentent désormais en confiance pour les déployer car ils peuvent mesurer si des améliorations ont réellement eu lieu.
« Il y a des clients qui ont fait des choses très avancées après avoir eu ces juges où ils étaient réticents à le faire auparavant », a déclaré Frankle. « Ils sont passés de faire un peu d’ingénierie de prompt à faire du renforcement avec nous. Pourquoi dépenser de l’argent dans le renforcement, et pourquoi dépenser de l’énergie dans le renforcement si vous ne savez pas si cela a effectivement fait une différence? »
Les équipes qui parviennent avec succès à passer de l’IA en pilote à la production considèrent les juges non pas comme des artefacts ponctuels mais comme des actifs évolutifs qui grandissent avec leurs systèmes.
Databricks recommande trois étapes pratiques. Tout d’abord, concentrez-vous sur les juges à fort impact en identifiant une exigence réglementaire critique plus un mode de défaillance observé. Ceux-ci deviennent votre portefeuille de juges initial.
Deuxièmement, créez des flux de travail légers avec des experts du domaine. Quelques heures passées à examiner 20 à 30 cas limites fournissent un étalonnage suffisant pour la plupart des juges. Utilisez l’annotation groupée et les vérifications de fiabilité inter-évaluateurs pour débruiter vos données.
Troisièmement, planifiez des révisions régulières des juges en utilisant des données de production. De nouveaux modes de défaillance émergeront à mesure que votre système évolue. Votre portefeuille de juges devrait évoluer avec eux.
« Un juge est un moyen d’évaluer un modèle, c’est aussi un moyen de créer des garde-fous, c’est aussi un moyen d’avoir une métrique contre laquelle vous pouvez faire de l’optimisation de prompt et c’est aussi un moyen d’avoir une métrique contre laquelle vous pouvez faire du renforcement », a déclaré Frankle. « Une fois que vous avez un juge qui représente votre goût humain sous une forme empirique que vous pouvez interroger autant que vous le souhaitez, vous pouvez l’utiliser de 10 000 façons différentes pour mesurer ou améliorer vos agents. »
Il est essentiel pour les entreprises de traiter les juges non pas comme des artefacts ponctuels, mais comme des actifs évolutifs qui évoluent avec leurs systèmes. En suivant les recommandations de Databricks, les entreprises peuvent maximiser l’efficacité de leurs juges d’IA et passer avec succès des pilotes à des déploiements à grande échelle.


