Samsung développe un nouveau système appelé TRUEBench, en collaboration avec Samsung Research, pour évaluer de manière plus précise la productivité réelle des modèles d’IA dans les environnements professionnels. TRUEBench vise à combler l’écart croissant entre les performances théoriques de l’IA et son utilité réelle sur le lieu de travail.
De nombreux benchmarks existants se concentrent sur des tests académiques ou de connaissances générales, souvent limités à l’anglais et à des formats de questions-réponses simples. Cela crée une lacune qui laisse les entreprises sans méthode fiable pour évaluer comment un modèle d’IA se comportera sur des tâches professionnelles complexes, multilingues et riches en contexte.
TRUEBench évalue les LLMs en se basant sur des scénarios et des tâches directement pertinents pour les environnements professionnels réels. Le benchmark tire parti de l’expérience interne étendue de Samsung dans l’utilisation d’IA en entreprise, garantissant que les critères d’évaluation sont ancrés dans les véritables exigences du lieu de travail.
Pour surmonter les limitations des anciens benchmarks, TRUEBench repose sur 2 485 ensembles de tests diversifiés couvrant 12 langues différentes et prenant en charge des scénarios interlinguistiques. Cette approche multilingue est essentielle pour les grandes entreprises où l’information circule à travers différentes régions.
Le processus de collaboration unique entre experts humains et IA développé par Samsung Research pour créer les critères de notation de productivité assure des normes d’évaluation précises et reflétant un résultat de haute qualité. Ce processus vérifié en croix fournit un système d’évaluation automatisé qui évalue les performances des LLMs en minimisant les biais subjectifs.
Samsung a rendu les échantillons de données et les classements de TRUEBench disponibles au public sur la plateforme open-source mondiale Hugging Face, permettant aux développeurs, chercheurs et entreprises de comparer directement les performances de productivité de jusqu’à cinq modèles d’IA simultanément.
En lançant TRUEBench, Samsung vise à changer la façon dont l’industrie perçoit les performances de l’IA en passant de la connaissance abstraite à la productivité tangible. Ce benchmark pourrait jouer un rôle dans l’aide aux organisations pour prendre de meilleures décisions sur l’intégration de modèles d’IA en entreprise dans leurs flux de travail.
Découvrez les 20 meilleurs modèles en termes de classement global basé sur le benchmark de Samsung dans le domaine de l’IA.
Les données publiées comprennent également la longueur moyenne des réponses générées par l’IA, permettant une comparaison simultanée de la performance et de l’efficacité, un élément clé pour les entreprises évaluant les coûts opérationnels et la vitesse.
Samsung Research a mis en place un système d’évaluation automatisé pour évaluer les performances des LLMs en minimisant les biais subjectifs. Cette approche rigoureuse permet une évaluation détaillée des performances des modèles d’IA sur différentes tâches en entreprise.
En savoir plus sur l’avenir de l’IA et des mégadonnées auprès des leaders de l’industrie en participant à l’événement AI & Big Data Expo qui se déroulera à Amsterdam, en Californie et à Londres, dans le cadre du TechEx. Consultez le site pour plus d’informations.
AI News est propulsé par TechForge Media. Explorez d’autres événements technologiques d’entreprise à venir et des webinaires ici.


