Une nouvelle revue académique suggère que les indicateurs de l’IA sont biaisés, ce qui peut potentiellement amener une entreprise à prendre des décisions cruciales sur des données « trompeuses ».
Les dirigeants d’entreprise consacrent des budgets de huit ou neuf chiffres à des programmes d’IA générative. Ces décisions d’approvisionnement et de développement reposent souvent sur des classements publics et des benchmarks pour comparer les capacités des modèles.
Une étude à grande échelle, intitulée « Mesurer ce qui compte : la validité de la construction dans les grands benchmarks de modèles de langage », a analysé 445 benchmarks distincts de LLM provenant de conférences d’IA de premier plan. Une équipe de 29 examinateurs experts a découvert que « presque tous les articles présentent des faiblesses dans au moins un domaine », ce qui compromet les affirmations qu’ils font sur les performances des modèles.
Pour les directeurs techniques et les directeurs des données, cela touche au cœur de la gouvernance de l’IA et de la stratégie d’investissement. Si un benchmark prétend mesurer la « sécurité » ou la « robustesse » sans réellement capturer ces qualités, une organisation pourrait déployer un modèle qui l’expose à des risques financiers et de réputation sérieux.
Le problème de la « validité de la construction »
Les chercheurs se sont concentrés sur un principe scientifique essentiel connu sous le nom de validité de la construction. En termes simples, il s’agit du degré auquel un test mesure le concept abstrait qu’il prétend mesurer.
Par exemple, bien que l’intelligence ne puisse être mesurée directement, des tests sont créés pour servir de proxies mesurables. Le document note que si un benchmark a une faible validité de construction, « alors un score élevé peut être sans pertinence, voire trompeur ».
Ce problème est répandu dans l’évaluation de l’IA. L’étude a révélé que les concepts clés sont souvent « mal définis ou opérationnalisés ». Cela peut conduire à des « revendications scientifiques mal étayées, à des recherches mal orientées et à des implications politiques qui ne reposent pas sur des preuves solides ».
Lorsque les fournisseurs se disputent les contrats d’entreprise en mettant en avant leurs meilleurs scores sur les benchmarks, les dirigeants font confiance à ces scores pour être un proxy fiable des performances commerciales réelles. Cette nouvelle recherche suggère que cette confiance pourrait être mal placée.
Où les benchmarks de l’IA en entreprise échouent
La revue a identifié des défaillances systémiques à tous les niveaux, de la conception des benchmarks à la manière dont les résultats sont rapportés.
Des définitions vagues ou contestées : On ne peut pas mesurer ce qu’on ne peut pas définir. L’étude a révélé que même lorsque des définitions pour un phénomène étaient fournies, 47,8 % étaient « contestées », abordant des concepts avec « de nombreuses définitions possibles ou aucune définition claire du tout ».
Le document utilise « l’inoffensivité » – un objectif clé dans l’alignement de la sécurité en entreprise – comme un exemple d’un phénomène qui manque souvent d’une définition claire et acceptée. Si deux fournisseurs obtiennent des scores différents sur un benchmark de « l’inoffensivité », cela peut simplement refléter deux définitions différentes et arbitraires du terme, et non une réelle différence dans la sécurité du modèle.
Manque de rigueur statistique : Peut-être le plus alarmant pour les organisations axées sur les données, l’étude a révélé que seuls 16 % des 445 benchmarks utilisaient des estimations d’incertitude ou des tests statistiques pour comparer les résultats des modèles.
Sans analyse statistique, il est impossible de savoir si un avantage de 2 % pour le Modèle A par rapport au Modèle B est une différence de capacité réelle ou simplement un pur hasard. Les décisions d’entreprise sont guidées par des chiffres qui ne passeraient pas un examen scientifique ou d’intelligence commerciale de base.
Contamination des données et mémorisation : De nombreux benchmarks, en particulier ceux pour le raisonnement (comme le largement utilisé GSM8K), sont compromis lorsque leurs questions et réponses apparaissent dans les données de pré-entraînement du modèle.
Lorsque cela se produit, le modèle ne raisonne pas pour trouver la réponse ; il se contente de la mémoriser. Un score élevé peut indiquer une bonne mémoire, mais pas la capacité de raisonnement avancée dont une entreprise a réellement besoin pour une tâche complexe. Le document met en garde contre le fait que cela « sape la validité des résultats » et recommande d’intégrer directement des vérifications de contamination dans le benchmark.
Je vous invite à lire la suite de cet article sur le site d’origine pour découvrir les autres recommandations et conseils pour évaluer correctement les performances des modèles d’IA et éviter les pièges des benchmarks biaisés. L’importance de l’analyse qualitative et quantitative des modes de défaillance courants est soulignée dans ce rapport. Comprendre pourquoi un modèle échoue est plus instructif que de simplement connaître son score. Si ses échecs se limitent à des sujets peu prioritaires et obscurs, cela peut être acceptable ; mais s’ils surviennent dans vos cas d’utilisation les plus courants et les plus précieux, ce seul score devient alors sans importance.
En outre, les équipes doivent également « justifier la validité du benchmark pour le phénomène avec des applications du monde réel ». Chaque évaluation doit être accompagnée d’une explication claire justifiant pourquoi ce test spécifique est un proxy valide de la valeur commerciale.
La course au déploiement de l’IA générative pousse les organisations à avancer plus rapidement que leurs cadres de gouvernance ne peuvent suivre. Ce rapport montre que les outils utilisés pour mesurer les progrès sont souvent défectueux. Le seul moyen fiable d’avancer est de cesser de faire confiance aux benchmarks génériques de l’IA et de commencer à « mesurer ce qui compte » pour votre propre entreprise.
Pour en savoir plus sur l’IA et le Big Data auprès des leaders de l’industrie, consultez le salon AI & Big Data Expo qui se tient à Amsterdam, en Californie et à Londres. Cet événement complet fait partie de TechEx et est organisé conjointement avec d’autres événements technologiques de premier plan tels que le Cyber Security Expo.
AI News est propulsé par TechForge Media. Explorez d’autres événements technologiques d’entreprise à venir et des webinaires ici.


