RECHERCHE
Cohérence opéradique : un signal sans label pour détecter les échecs de raisonnement compositionnel dans les LLM
Une nouvelle métrique inspirée de la théorie des opérades permet de détecter les défaillances de raisonnement sans étiquettes de référence, surpassant les baselines classiques.
arXiv cs.AI · cs.LG · cs.CL·Nathaniel Bottman, Yinhong Liu, Kyle Richardson·11 juin 2026

Image · Source originale
Des chercheurs proposent la cohérence opéradique (OC), un signal par question qui vérifie si la réponse directe d'un LLM à une requête compositionnelle coïncide avec celle obtenue en composant une décomposition explicite. Testée sur douze LLM (4B à 671B paramètres) et quatre datasets de QA multi-hop, OC affiche une corrélation avec l'exactitude comprise entre r = 0,86 et 0,94. Elle surpasse la self-consistency CoT sur les datasets les plus difficiles (MuSiQue, StrategyQA) et améliore la prédiction sélective à coût égal.