RECHERCHE
Agents tuteurs LLM : précis sur le correct, aveugles sur le reste
Un benchmark sur 10 836 paires révèle que les LLM tuteurs peinent à diagnostiquer les raisonnements valides mais sous-optimaux et valident trop souvent les erreurs.
arXiv cs.AI · cs.LG · cs.CL·Tahreem Yasir, Wenbo Li, Sam Gilson, Sutapa Dey Tithi·15 mai 2026

Image · Source originale
Une étude évalue sept agents LLM en logique propositionnelle sur 10 836 paires solution-feedback, avec une vérité terrain issue de graphes de connaissances. Les modèles atteignent des performances quasi-parfaites sur les étapes optimales, mais sur-rejettent systématiquement les raisonnements valides sous-optimaux et valident à tort les solutions incorrectes. Ces défaillances persistent indépendamment du contexte, pointant des limites architecturales plutôt qu'informationnelles. Les auteurs préconisent des architectures hybrides combinant diagnostic par graphe de connaissances et dialogue ouvert assuré par les LLM.