RECHERCHE
Quand les LLM échouent à suivre des étapes : étude diagnostique de l'exécution procédurale
Une étude contrôlée révèle que la précision des LLM s'effondre de 61 % à 20 % lorsque les procédures arithmétiques dépassent 5 étapes.
arXiv cs.AI · cs.LG · cs.CL·Sailesh Panda, Pritam Kadasi, Abhishek Upperwal, Mayank Singh·1 mai 2026

Image · Source originale
Des chercheurs ont conçu un benchmark diagnostique évaluant la capacité de 14 LLM à exécuter fidèlement des algorithmes arithmétiques pas-à-pas. Sur 55 jeux de données, la précision chute de 61 % pour les procédures à 5 étapes à seulement 20 % à 95 étapes. Les erreurs courantes incluent des réponses prématurées, des traces sous-exécutées et des étapes hallucinées. Ces résultats montrent que les performances élevées sur les benchmarks de raisonnement masquent de sérieuses failles dans l'exécution fidèle d'instructions.