jeudi 11 juin 2026Connexion →

Au-delà de GRPO et de la distillation on-policy : un principe sparse-to-dense pour le post-entraînement des LLM — Fellow