RECHERCHE · Hugging Face
ITBench-AA : les modèles frontier sous les 50 % sur le premier benchmark pour agents IT en entreprise
Artificial Analysis et IBM publient ITBench-AA, un benchmark inédit évaluant les agents IA sur des tâches IT réelles en entreprise — avec des scores décevants.
Hugging Face Blog·27 mai 2026

Image · Source originale
ITBench-AA, co-développé par IBM Research et Artificial Analysis, est le premier benchmark dédié aux tâches IT agentiques en contexte entreprise. Les modèles frontier testés obtiennent tous des scores inférieurs à 50 %, révélant des lacunes importantes dans la gestion d'incidents, la conformité et l'observabilité. Ce résultat souligne la distance qui sépare encore les agents IA d'une utilisation fiable en environnements IT réels.