RECHERCHE

Évaluer l'évaluateur : retours sur la notation d'un système d'analyse de données agentique

Une étude sur la fiabilité des graders automatisés pour évaluer des systèmes agentiques d'analyse de données, avec une cascade humain-IA à trois niveaux.

arXiv cs.AI · cs.LG · cs.CL·Tian Zheng, Kai-Tai Hsu·23 juin 2026

Image · Source originale

Les systèmes agentiques d'analyse de données produisent des sorties complexes (code, résultats numériques, diagnostics), rendant leur évaluation plus difficile que celle des LLM classiques. Les auteurs testent LAMBDA sur 153 tâches QRData et proposent une cascade de notation à trois couches : regex strict, LLM souple et inspection humaine par extraits. Un mécanisme de relance itérative fait passer le taux de succès du grader de 36 % à 97 %, tandis que la précision observée atteint 100 %.

Chaleur 15

Pertinence 68

Nouveauté 62

OUVRIR LA SOURCE ↗

#évaluation #agents #data-analysis #LLM #benchmark