Les développeurs de Terminal-Bench, une suite de référence pour évaluer les performances des agents IA autonomes sur des tâches réalistes basées sur un terminal, ont lancé la version 2.0 aux côtés de Harbor, un nouveau framework pour tester, améliorer et optimiser les agents IA dans des environnements conteneurisés.
Ce double lancement vise à résoudre les problèmes persistants liés aux tests et à l’optimisation des agents IA, en particulier ceux construits pour fonctionner de manière autonome dans des environnements de développement réalistes.
Avec un ensemble de tâches plus difficile et rigoureusement vérifié, Terminal-Bench 2.0 remplace la version 1.0 en tant que norme pour évaluer les capacités des modèles de pointe.
Harbor, le framework d’exécution associé, permet aux développeurs et aux chercheurs de mettre à l’échelle les évaluations à travers des milliers de conteneurs cloud et s’intègre à la fois avec des agents open-source et propriétaires ainsi qu’avec des pipelines de formation.
« Harbor est le package que nous aurions aimé avoir pendant la création de Terminal-Bench, » a écrit le co-créateur Alex Shaw sur X. « C’est pour les développeurs et chercheurs d’agents, de modèles et de benchmarks qui veulent évaluer et améliorer les agents et les modèles. »
Terminal-Bench 1.0 a été largement adopté après sa sortie en mai 2025, devenant une référence par défaut pour évaluer les performances des agents à travers le domaine des agents alimentés par l’IA opérant dans des environnements de terminal de style développeur. Ces agents interagissent avec les systèmes via la ligne de commande, imitant la façon dont les développeurs travaillent en coulisses de l’interface utilisateur graphique.
Cependant, sa portée large entraînait des incohérences. Plusieurs tâches ont été identifiées par la communauté comme mal spécifiées ou instables en raison de changements de services externes.
La version 2.0 aborde ces problèmes directement. La suite mise à jour comprend 89 tâches, chacune soumise à plusieurs heures de validation manuelle et assistée par LLM. L’accent est mis sur la résolution des tâches, la réalisme et la clarté des spécifications, en augmentant la difficulté tout en améliorant la fiabilité et la reproductibilité.
Un exemple notable est la tâche « download-youtube », qui a été supprimée ou retravaillée dans la version 2.0 en raison de sa dépendance à des APIs tiers instables.
« Les fans avisés de Terminal-Bench pourraient remarquer que les performances de SOTA sont comparables à TB1.0 malgré notre affirmation que TB2.0 est plus difficile, » a noté Shaw sur X. « Nous pensons que c’est parce que la qualité des tâches est nettement supérieure dans le nouveau benchmark. »
En parallèle de la mise à jour du benchmark, l’équipe a lancé Harbor, un nouveau framework pour exécuter et évaluer des agents dans des conteneurs déployés dans le cloud.
Harbor prend en charge une infrastructure de déploiement à grande échelle, compatible avec des grands fournisseurs comme Daytona et Modal.
Conçu pour généraliser les architectures des agents, Harbor prend en charge :
– L’évaluation de tout agent installable dans un conteneur
– Les pipelines évolutifs de fine-tuning supervisé (SFT) et d’apprentissage par renforcement (RL)
– La création et le déploiement de benchmarks personnalisés
– L’intégration complète avec Terminal-Bench 2.
Harbor a été utilisé en interne pour exécuter des dizaines de milliers de déploiements lors de la création du nouveau benchmark. Il est désormais disponible publiquement via harborframework.com, avec une documentation pour tester et soumettre des agents au classement public.
Les premiers résultats du classement Terminal-Bench 2.0 montrent que le Codex CLI d’OpenAI, basé sur le GPT-5, est en tête avec un taux de réussite de 49,6% – le plus élevé parmi tous les agents testés jusqu’à présent.
Suivent de près d’autres variantes de GPT-5 et des agents basés sur Claude Sonnet 4.5.
Les outils offrent une base potentielle pour une pile d’évaluation unifiée – soutenant l’amélioration des modèles, la simulation de l’environnement et la normalisation des benchmarks à travers l’écosystème de l’IA.


