RECHERCHE · Hugging Face

ITBench-AA : les modèles frontier sous les 50 % sur le premier benchmark pour agents IT en entreprise

Artificial Analysis et IBM publient ITBench-AA, un benchmark inédit évaluant les agents IA sur des tâches IT réelles en entreprise — avec des scores décevants.

Hugging Face Blog·27 mai 2026

Image · Source originale

ITBench-AA, co-développé par IBM Research et Artificial Analysis, est le premier benchmark dédié aux tâches IT agentiques en contexte entreprise. Les modèles frontier testés obtiennent tous des scores inférieurs à 50 %, révélant des lacunes importantes dans la gestion d'incidents, la conformité et l'observabilité. Ce résultat souligne la distance qui sépare encore les agents IA d'une utilisation fiable en environnements IT réels.

Chaleur 0

Pertinence 78

Nouveauté 72

OUVRIR LA SOURCE ↗

#benchmark #agents #enterprise-AI #LLM #IBM