OPINION

Faire passer un entretien d'embauche à votre IA

Ethan Mollick interroge la fiabilité des benchmarks pour évaluer l'intelligence des modèles d'IA, et propose des approches alternatives.

One Useful Thing (Mollick)·Ethan Mollick·12 novembre 2025

Image · Source originale

Les benchmarks classiques souffrent de nombreux défauts : données d'entraînement contaminées, questions mal calibrées, erreurs dans les tests et scores reportés de façon trompeuse. Ethan Mollick analyse pourquoi ces métriques ne suffisent pas à mesurer réellement les capacités des modèles d'IA, et explore des méthodes d'évaluation plus robustes et contextualisées.

Chaleur 0

Pertinence 78

Nouveauté 35

OUVRIR LA SOURCE ↗

#benchmarks #évaluation #LLM #métriques #MMLU