RECHERCHE

Evaluation Cards : une couche d'interprétation pour les rapports d'évaluation IA

Un nouveau framework standardise le reporting des évaluations IA en unifiant métadonnées de benchmarks, résultats et modèles dans un enregistrement unique interprétable.

arXiv cs.AI · cs.LG · cs.CL·Avijit Ghosh, Anka Reuel, Jenny Chim, Wm. Matthew Kennedy·8 juin 2026

Image · Source originale

Les résultats d'évaluation IA sont produits en masse mais reportés de façon hétérogène, empêchant toute comparaison fiable entre sources. EvalCards propose une couche de reporting opérationnelle combinant métadonnées de benchmarks, données d'exécution et métadonnées de modèles en un enregistrement unifié. Le schéma, dérivé de 52 papiers et 10 entretiens, implémente quatre signaux interprétatifs (reproductibilité, complétude, provenance, comparabilité). Un outil de monitoring l'applique sur 5 816 modèles et 101 843 résultats.

Chaleur 15

Pertinence 72

Nouveauté 62

OUVRIR LA SOURCE ↗

#évaluation #benchmark #reporting #reproductibilité #transparence