RECHERCHE
Les failles du récit sur l'automatisation par les LLM
Une étude remet en cause l'idée que les LLM atteignent le niveau des experts humains, en pointant les limites des benchmarks standards.
arXiv cs.AI · cs.LG · cs.CL·George Perrett, Javae Elliott, Jennifer Hill, Marc Scott·9 juin 2026

Image · Source originale
Des chercheurs contestent les affirmations selon lesquelles les LLM égaleraient les experts humains sur des tâches de la « knowledge economy ». Via un benchmark original d'analyse de données par génération de code, ils montrent que les experts humains obtiennent de meilleures performances moyennes et une variabilité nettement moindre. L'étude souligne que les benchmarks classiques ignorent souvent la fiabilité des réponses et la magnitude des erreurs, deux critères pourtant critiques dans des contextes à forts enjeux.