OPINION
Le RLVR serait particulièrement inadapté à la découverte scientifique
Dwarkesh Patel remet en question l'idée que l'IA sera naturellement douée pour la science, en raison de la longueur et de l'ambiguïté de ses boucles de vérification.
Dwarkesh Patel·Dwarkesh Patel·16 mai 2026

Image · Source originale
Contrairement aux idées reçues, la science ne dispose pas d'une boucle de vérification serrée exploitable par le reinforcement learning. L'histoire montre que valider une théorie peut prendre des siècles, et que de meilleures théories peuvent initialement faire de moins bonnes prédictions. L'avantage du RLVR sur le code ou les maths ne se transpose donc pas facilement à la recherche scientifique.