Afin d’améliorer la performance des modèles de langage, il est essentiel de disposer de données de qualité provenant de sources variées. Cependant, le mélange et la recomposition de ces ensembles de données peuvent entraîner la perte d’informations cruciales sur leurs origines et leurs restrictions d’utilisation. Cela soulève des problèmes juridiques, éthiques et peut impacter négativement les performances des modèles.
Pour remédier à ce problème, une équipe de chercheurs du MIT et d’autres institutions a lancé un audit de plus de 1800 ensembles de données textuelles. Leur constat est alarmant : plus de 70% de ces ensembles de données ne fournissent pas toutes les informations sur les licences, et environ 50% contiennent des erreurs.
Pour améliorer la transparence des données, les chercheurs ont développé un outil appelé Explorateur de Provenance des Données. Cet outil génère automatiquement des résumés lisibles des créateurs, des sources, des licences et des utilisations autorisées des ensembles de données. Cela permet aux praticiens de l’IA de sélectionner des ensembles de données adaptés à leurs besoins, améliorant ainsi la précision des modèles d’IA dans des contextes réels.
Il est crucial de comprendre l’origine des données sur lesquelles un modèle d’IA est formé. En cas de mauvaise attribution ou de confusion, la transparence est compromise, ce qui peut poser des problèmes éthiques et juridiques. Les chercheurs ont souligné l’importance des licences et ont constaté que les ensembles de données provenaient principalement des pays du Nord, ce qui pourrait limiter leur diversité culturelle.
L’outil développé par les chercheurs facilite l’accès à ces informations cruciales et permet de prendre des décisions éclairées. Ils envisagent d’étendre leurs recherches à d’autres types de données et de collaborer avec les régulateurs pour discuter des implications légales liées à la provenance des données.
En définitive, la transparence et la provenance des données sont essentielles pour garantir le développement responsable de l’IA et permettre aux praticiens de faire des choix éclairés. Cet outil innovant représente une avancée majeure dans ce domaine et ouvre la voie à une utilisation plus éthique et efficace des données dans le domaine de l’IA.
En savoir plus : https://news.mit.edu/2024/study-large-language-models-datasets-lack-transparency-0830