Un nouveau cadre développé par des chercheurs de l’Université de Hong Kong (HKU) et d’institutions collaboratrices propose une base open source pour la création d’agents d’IA robustes capables d’opérer des ordinateurs. Ce cadre, appelé OpenCUA, comprend les outils, les données et les recettes pour faciliter le développement d’agents utilisateurs d’ordinateurs (CUAs).
Les modèles formés avec ce cadre obtiennent de bons résultats sur les benchmarks CUA, surpassant les modèles open source existants et rivalisant étroitement avec les agents fermés des principaux laboratoires d’IA comme OpenAI et Anthropic.
Les agents utilisateurs d’ordinateurs sont conçus pour accomplir des tâches de manière autonome sur un ordinateur, de la navigation sur des sites web à l’exploitation de logiciels complexes. Ils peuvent également aider à automatiser les flux de travail en entreprise. Cependant, les systèmes CUA les plus performants sont propriétaires, avec des détails critiques sur leurs données d’entraînement, leurs architectures et leurs processus de développement gardés confidentiels.
Pour pallier ce manque de transparence qui limite les progrès techniques et soulève des préoccupations en matière de sécurité, la communauté de recherche a besoin de cadres CUA vraiment ouverts pour étudier leurs capacités, leurs limites et leurs risques.
En parallèle, les efforts open source rencontrent leurs propres obstacles. Il n’existe pas d’infrastructure scalable pour collecter les données diverses et à grande échelle nécessaires pour former ces agents. Les ensembles de données open source existants pour les interfaces utilisateur graphiques (GUI) sont limités en données, et de nombreux projets de recherche ne fournissent pas suffisamment de détails sur leurs méthodes, ce qui rend difficile la reproduction de leur travail.
Selon l’article, « Ces limitations entravent collectivement les avancées dans les CUAs à usage général et restreignent une exploration significative de leur scalabilité, de leur généralisabilité et des approches d’apprentissage potentielles. »
Introduisant OpenCUA
OpenCUA est un cadre open source conçu pour relever ces défis en mettant à l’échelle à la fois la collecte de données et les modèles eux-mêmes. Au cœur de ce cadre se trouve l’outil AgentNet pour enregistrer les démonstrations humaines de tâches informatiques sur différents systèmes d’exploitation.
Cet outil simplifie la collecte de données en fonctionnant en arrière-plan sur l’ordinateur personnel d’un annotateur, capturant des vidéos d’écran, des entrées de souris et de clavier, et l’arborescence d’accessibilité sous-jacente, qui fournit des informations structurées sur les éléments à l’écran. Ces données brutes sont ensuite transformées en « trajectoires état-action », associant une capture d’écran de l’ordinateur (l’état) avec l’action correspondante de l’utilisateur (un clic, une pression de touche, etc.). Les annotateurs peuvent ensuite examiner, modifier et soumettre ces démonstrations.


