Toutes les news taguées avec ce sujet.
Une étude montre que des critiques alignées pas-à-pas sur le raisonnement du modèle surpassent les méthodes classiques de self-distillation de plus de 16 points.
Une nouvelle méthode de credit assignment réduit la variance du fine-tuning RL pour les modèles Chain-of-Thought sans surcoût de génération.
Un framework qui repense le RL basé sur des rubriques en co-optimisant simultanément les requêtes et les critères d'évaluation.
Une étude empirique propose d'allouer les données labellisées vérifiables selon un principe de densité de récompense, combinant RL sparse et supervision dense.
Un nouveau framework applique GRPO aux modèles multimodaux AR-Diffusion pour activer le raisonnement et l'auto-correction sans phase de démarrage à froid.
Un framework de RL où les récompenses sont décomposées en critères pondérés et vérifiables, notés par un LLM juge, améliore le transfert vers de nouveaux benchmarks.
Un framework post-entraînement unifié combine distillation on-policy et Flow Matching pour aligner les modèles texte-image sans effet seesaw.
Un framework hiérarchique qui génère une stratégie explicite avant l'action pour améliorer l'exploration et l'attribution du crédit dans les LLM agents.
Un nouveau framework RLVR apprend exclusivement à partir de rollouts positifs, faisant émerger des gradients négatifs implicitement sans pénaliser les échecs.