Étude : La transparence manque souvent dans les ensembles de données utilisés pour former de grands modèles de langage

Ceci pourrait vous plaire

Afin d’améliorer la performance des modèles de langage, il est essentiel de disposer de données de qualité provenant de sources variées. Cependant, le mélange et la recomposition de ces ensembles de données peuvent entraîner la perte d’informations cruciales sur leurs origines et leurs restrictions d’utilisation. Cela soulève des problèmes juridiques, éthiques et peut impacter négativement les performances des modèles.

Pour remédier à ce problème, une équipe de chercheurs du MIT et d’autres institutions a lancé un audit de plus de 1800 ensembles de données textuelles. Leur constat est alarmant : plus de 70% de ces ensembles de données ne fournissent pas toutes les informations sur les licences, et environ 50% contiennent des erreurs.

Pour améliorer la transparence des données, les chercheurs ont développé un outil appelé Explorateur de Provenance des Données. Cet outil génère automatiquement des résumés lisibles des créateurs, des sources, des licences et des utilisations autorisées des ensembles de données. Cela permet aux praticiens de l’IA de sélectionner des ensembles de données adaptés à leurs besoins, améliorant ainsi la précision des modèles d’IA dans des contextes réels.

Il est crucial de comprendre l’origine des données sur lesquelles un modèle d’IA est formé. En cas de mauvaise attribution ou de confusion, la transparence est compromise, ce qui peut poser des problèmes éthiques et juridiques. Les chercheurs ont souligné l’importance des licences et ont constaté que les ensembles de données provenaient principalement des pays du Nord, ce qui pourrait limiter leur diversité culturelle.

L’outil développé par les chercheurs facilite l’accès à ces informations cruciales et permet de prendre des décisions éclairées. Ils envisagent d’étendre leurs recherches à d’autres types de données et de collaborer avec les régulateurs pour discuter des implications légales liées à la provenance des données.

En définitive, la transparence et la provenance des données sont essentielles pour garantir le développement responsable de l’IA et permettre aux praticiens de faire des choix éclairés. Cet outil innovant représente une avancée majeure dans ce domaine et ouvre la voie à une utilisation plus éthique et efficace des données dans le domaine de l’IA.
En savoir plus : https://news.mit.edu/2024/study-large-language-models-datasets-lack-transparency-0830

Étude : La transparence manque souvent dans les ensembles de données utilisés pour former de grands modèles de langage

La plus grande machine scientifique : la bataille pour construire le prochain grand collisionneur de particules

Les 5 meilleurs sites gratuits d’interpretation des rêves

Les vortex quantiques confirment la superfluidité dans les supersolides

Une révolution médicale miniature : le MIT développe des nano-dispositifs pour soigner les neurones

LAISSER UN COMMENTAIRE Annuler la réponse

® Web In a Page 2025

Dernières news

Le célèbre glouton jaune Pac-Man fête ses 45 ans avec des donuts, un livre de cuisine et plus encore

Artemis II : Vers un retour humain autour de la Lune dès février 2026 ?

IA et synthèse sonore : L’aube d’une nouvelle ère dans la création musicale

Populaire

Le célèbre glouton jaune Pac-Man fête ses 45 ans avec des donuts, un livre de cuisine et plus encore

Artemis II : Vers un retour humain autour de la Lune dès février 2026 ?

IA et synthèse sonore : L’aube d’une nouvelle ère dans la création musicale

Sitemap