RECHERCHE
Evaluation Cards : une couche d'interprétation pour les rapports d'évaluation IA
Un nouveau framework standardise le reporting des évaluations IA en unifiant métadonnées de benchmarks, résultats et modèles dans un enregistrement unique interprétable.
arXiv cs.AI · cs.LG · cs.CL·Avijit Ghosh, Anka Reuel, Jenny Chim, Wm. Matthew Kennedy·8 juin 2026

Image · Source originale
Les résultats d'évaluation IA sont produits en masse mais reportés de façon hétérogène, empêchant toute comparaison fiable entre sources. EvalCards propose une couche de reporting opérationnelle combinant métadonnées de benchmarks, données d'exécution et métadonnées de modèles en un enregistrement unifié. Le schéma, dérivé de 52 papiers et 10 entretiens, implémente quatre signaux interprétatifs (reproductibilité, complétude, provenance, comparabilité). Un outil de monitoring l'applique sur 5 816 modèles et 101 843 résultats.