RECHERCHE

DV-World : un benchmark pour évaluer les agents de visualisation de données en conditions réelles

Un nouveau benchmark de 260 tâches teste les agents IA sur la visualisation de données dans des scénarios professionnels complexes — les meilleurs modèles peinent à dépasser 50 %.

arXiv cs.AI · cs.LG · cs.CL·Jinxiang Meng, Shaoping Huang, Fangyu Lei, Jingyu Guo·28 avril 2026

Image · Source originale

DV-World est un benchmark de 260 tâches évaluant les agents de visualisation de données (DV) dans des contextes professionnels réels. Il couvre trois domaines : manipulation de tableurs natifs (DV-Sheet), adaptation cross-plateforme de visualisations existantes (DV-Evolution) et alignement proactif avec des intentions utilisateurs ambiguës (DV-Interact). Un cadre d'évaluation hybride combine alignement de valeurs numériques et jugement sémantique par MLLM. Les modèles état de l'art n'atteignent pas 50 % de performance globale.

Chaleur 0

Pertinence 72

Nouveauté 68

OUVRIR LA SOURCE ↗

#benchmark #agents #data-visualization #LLM #évaluation