Toutes les news taguées avec ce sujet.
Une étude contrôlée montre que l'ancrage des signaux de filtrage dans la source améliore la fidélité, et que les échantillons rejetés peuvent être récupérés systématiquement.
Une nouvelle méthode, DRPO, remplace les masques rigides de DPPO par un régularisateur quadratique continu pour stabiliser l'entraînement par RL des LLM.
Une procédure de post-entraînement permet à un seul LLM d'internaliser la dynamique de débat entre plusieurs agents sans infrastructure externe.
Une nouvelle méthode post-training compresse les LLMs en ciblant les sous-modules Attention et FeedForward de façon non contiguë, surpassant les approches par couches complètes.
NVIDIA détaille comment affiner des modèles VLA pour la conduite autonome en closed-loop, comblant l'écart critique entre entraînement et déploiement réel.
Une étude empirique propose d'allouer les données labellisées vérifiables selon un principe de densité de récompense, combinant RL sparse et supervision dense.