RECHERCHE
Évaluer l'évaluateur : retours sur la notation d'un système d'analyse de données agentique
Une étude sur la fiabilité des graders automatisés pour évaluer des systèmes agentiques d'analyse de données, avec une cascade humain-IA à trois niveaux.
arXiv cs.AI · cs.LG · cs.CL·Tian Zheng, Kai-Tai Hsu·23 juin 2026

Image · Source originale
Les systèmes agentiques d'analyse de données produisent des sorties complexes (code, résultats numériques, diagnostics), rendant leur évaluation plus difficile que celle des LLM classiques. Les auteurs testent LAMBDA sur 153 tâches QRData et proposent une cascade de notation à trois couches : regex strict, LLM souple et inspection humaine par extraits. Un mécanisme de relance itérative fait passer le taux de succès du grader de 36 % à 97 %, tandis que la précision observée atteint 100 %.