Toutes les news taguées avec ce sujet.
Une nouvelle méthode combine RL et distillation dense pour améliorer les agents LLM multi-tours, surpassant GRPO sur trois benchmarks.