Toutes les news taguées avec ce sujet.
Un framework qui repense le RL basé sur des rubriques en co-optimisant simultanément les requêtes et les critères d'évaluation.
Une nouvelle méthode de reinforcement learning combine distracteurs hiérarchiques et récompenses basées sur des rubriques pour améliorer le raisonnement multi-sauts des LLM.
Dwarkesh Patel remet en question l'idée que l'IA sera naturellement douée pour la science, en raison de la longueur et de l'ambiguïté de ses boucles de vérification.
Un nouveau framework RLVR apprend exclusivement à partir de rollouts positifs, faisant émerger des gradients négatifs implicitement sans pénaliser les échecs.