Toutes les news taguées avec ce sujet.
Le père du reinforcement learning s'exprime sur la capacité des systèmes d'IA à faire preuve de créativité et à produire de véritables découvertes.
Des chercheurs proposent un cadre théorique et un nouvel optimiseur pour lutter contre la perte de plasticité des réseaux de neurones en apprentissage continu.
Un framework hybride quantique-classique mesure si c'est la politique apprise ou le filtre de sécurité qui garantit réellement les contraintes.
Une méthode d'arbitrage entre politique de référence et politique apprenante permet d'accélérer l'entraînement RL tout en surpassant la baseline.
OpenEnv s'impose comme la référence open source pour l'entraînement par renforcement des agents IA, avec le soutien croissant de la communauté.
Une ingénieure RL chez Gemini détaille pourquoi les environnements d'entraînement défaillants dégradent sévèrement les modèles — bien au-delà du simple bruit.
Une nouvelle méthode de credit assignment réduit la variance du fine-tuning RL pour les modèles Chain-of-Thought sans surcoût de génération.
DNQ propose un cadre d'apprentissage par renforcement guidé par l'équilibre de Nash pour entraîner des agents d'enchères multi-tours en environnement compétitif.
Des chercheurs montrent qu'un LLM de base peut prédire les scores d'un juge externe avec très peu d'exemples, sans entraînement ciblé.
DistIL propose une alternative à RLVR en exploitant des feedbacks riches (traces, corrections) via une cross-entropie directe garantissant une amélioration monotone des politiques.
Une reformulation du problème RL remplace la récompense scalaire par une distribution, faisant émerger la diversité comportementale sans sacrifier la performance.
Un agent GPT multimodal conçoit, évalue et raffine en boucle fermée les fonctions de récompense pour piloter des drones autonomes.
Un agent contrôleur guide dynamiquement le raisonnement d'un LLM gelé via un processus de décision markovien, réduisant les tokens sans sacrifier la précision.
Un framework qui repense le RL basé sur des rubriques en co-optimisant simultanément les requêtes et les critères d'évaluation.
Un paradigme « Sleep » inspiré du cerveau humain pour permettre aux LLMs d'apprendre en continu et de consolider leurs connaissances à long terme.
Un framework agentic reformule le reward modeling comme l'exécution d'une compétence d'évaluation réutilisable, unifiant règles, références et rubriques.
Un nouveau framework transforme l'évaluation personnalisée des LLMs en problème d'apprentissage, en induisant des rubriques alignées sur les historiques utilisateurs.
Une nouvelle méthode de reinforcement learning combine distracteurs hiérarchiques et récompenses basées sur des rubriques pour améliorer le raisonnement multi-sauts des LLM.
Une nouvelle méthode comble le fossé entre RL en ligne et optimisation des préférences, sans recourir à un reward scalaire réducteur.
Un système multi-agents coopératif qui traite la recherche complexe comme l'assemblage d'un puzzle de preuves complémentaires, surpassant les approches parallèles classiques.
FORGE permet à des agents LLM d'améliorer leurs décisions par mémoire auto-générée, sans gradient, grâce à une boucle de réflexion collective.
Dwarkesh Patel remet en question l'idée que l'IA sera naturellement douée pour la science, en raison de la longueur et de l'ambiguïté de ses boucles de vérification.
Une démo interactive montre pas à pas comment un agent entraîné par PPO maîtrise le jeu Snake, rendant le reinforcement learning accessible.
En revisitant AlphaGo, Eric Jang éclaire les limites du RL dans les LLMs et les contours d'une future explosion d'intelligence.
Une nouvelle méthode combine RL et distillation dense pour améliorer les agents LLM multi-tours, surpassant GRPO sur trois benchmarks.
Des chercheurs publient DR-Gym, un environnement open-source de reinforcement learning centré sur la gestion de la demande électrique résidentielle.
Une étude analyse comment les politiques RL exploitent les failles des vérificateurs basés sur des rubriques, même lorsque ces vérificateurs sont robustes.
Un nouveau framework de reinforcement learning appliqué à la diffusion résout les déséquilibres entre modalités pour améliorer la génération audio-vidéo synchronisée.
Un agent end-to-end qui apprend à choisir le meilleur moment pour basculer entre actions GUI atomiques et appels d'outils API, avec +66 % de performance sur OSWorld-MCP.
Un nouveau framework applique GRPO aux modèles multimodaux AR-Diffusion pour activer le raisonnement et l'auto-correction sans phase de démarrage à froid.