RECHERCHE

Pourquoi les classements mondiaux de LLM sont trompeurs : portfolios réduits pour ML hétérogène

Une analyse de 89 000 comparaisons sur 52 LLMs montre que les classements globaux type Arena masquent une hétérogénéité structurée par langue et contexte.

arXiv cs.AI · cs.LG · cs.CL·Jai Moondra, Ayela Chughtai, Bhargavi Lanka, Swati Gupta·7 mai 2026

Image · Source originale

Une étude portant sur ~89 000 comparaisons humaines issues d'Arena, couvrant 116 langues et 52 LLMs, démontre que le classement global Bradley-Terry est statistiquement trompeur : les 50 premiers modèles sont indiscernables (probabilité de victoire ≤ 0,53). La langue est le principal facteur de divergence, et le regroupement par langue produit des scores ELO deux ordres de grandeur plus cohérents. Les auteurs proposent un framework de « (λ, ν)-portfolios » — de petits ensembles de modèles couvrant 96 % des votes avec seulement 5 classements distincts, contre 21 % pour le classement global.

Chaleur 0

Pertinence 78

Nouveauté 72

OUVRIR LA SOURCE ↗

#llm #benchmark #évaluation #hétérogénéité #classement