OPINION
Faire passer un entretien d'embauche à votre IA
Ethan Mollick interroge la fiabilité des benchmarks pour évaluer l'intelligence des modèles d'IA, et propose des approches alternatives.
One Useful Thing (Mollick)·Ethan Mollick·12 novembre 2025

Image · Source originale
Les benchmarks classiques souffrent de nombreux défauts : données d'entraînement contaminées, questions mal calibrées, erreurs dans les tests et scores reportés de façon trompeuse. Ethan Mollick analyse pourquoi ces métriques ne suffisent pas à mesurer réellement les capacités des modèles d'IA, et explore des méthodes d'évaluation plus robustes et contextualisées.