OPINION

Le RLVR serait particulièrement inadapté à la découverte scientifique

Dwarkesh Patel remet en question l'idée que l'IA sera naturellement douée pour la science, en raison de la longueur et de l'ambiguïté de ses boucles de vérification.

Dwarkesh Patel·Dwarkesh Patel·16 mai 2026

Image · Source originale

Contrairement aux idées reçues, la science ne dispose pas d'une boucle de vérification serrée exploitable par le reinforcement learning. L'histoire montre que valider une théorie peut prendre des siècles, et que de meilleures théories peuvent initialement faire de moins bonnes prédictions. L'avantage du RLVR sur le code ou les maths ne se transpose donc pas facilement à la recherche scientifique.

Chaleur 0

Pertinence 72

Nouveauté 58

OUVRIR LA SOURCE ↗

#RLVR #science #reinforcement-learning #IA-recherche #benchmark