RECHERCHE

EnterpriseClawBench : évaluer les agents IA à partir de sessions réelles en entreprise

Un nouveau benchmark construit sur des sessions de travail réelles mesure les capacités des agents IA en contexte professionnel — avec des scores encore très limités.

arXiv cs.AI · cs.LG · cs.CL·Jincheng Zhong, Weizhi Wang, Che Jiang, Kai Tian·22 juin 2026

Image · Source originale

EnterpriseClawBench est un benchmark d'agents IA d'entreprise construit à partir de sessions de travail propriétaires. Il produit 852 tâches reproductibles couvrant lecture de fichiers, appels d'outils et production d'artefacts métier. La meilleure configuration (Codex avec GPT-5.5) n'atteint que 0,663, révélant des lacunes importantes. Les auteurs publient le protocole de construction et d'évaluation, mais pas les données confidentielles.

Chaleur 12

Pertinence 78

Nouveauté 68

OUVRIR LA SOURCE ↗

#benchmark #agents #enterprise #évaluation #LLM