RECHERCHE
Apprendre à raisonner à partir de plusieurs « penseurs »
Une étude théorique montre comment combiner des supervisions Chain-of-Thought issues de raisonneurs multiples pour apprendre efficacement.
arXiv cs.AI · cs.LG · cs.CL·Nirmit Joshi, Roey Magen, Nathan Srebro, Nikolaos Tsilivis·27 avril 2026

Image · Source originale
Ce travail analyse l'apprentissage supervisé par Chain-of-Thought (CoT) lorsque plusieurs « penseurs » fournissent des solutions correctes mais systématiquement différentes. Les auteurs démontrent que, sous hypothèses cryptographiques, l'apprentissage passif à partir de quelques penseurs peut être difficile. En revanche, ils proposent un algorithme d'apprentissage actif générique et efficace qui nécessite peu de données CoT par penseur, un nombre modéré de penseurs (en O(log 1/ε · log log 1/ε)) et des données passives de résultats finaux en O(1/ε · polylog 1/ε).