RECHERCHE
POPO : optimisation de politique sans rollouts négatifs pour les LLM
Un nouveau framework RLVR apprend exclusivement à partir de rollouts positifs, faisant émerger des gradients négatifs implicitement sans pénaliser les échecs.
arXiv cs.AI · cs.LG · cs.CL·Mingwei Xu, Hao Fang·7 mai 2026

Image · Source originale
POPO (Positive-Only Policy Optimization) propose un cadre RLVR où l'apprentissage s'effectue uniquement via des rollouts positifs en ligne, sans recours aux rollouts négatifs utilisés par GRPO. Le framework exploite un échantillonnage d'importance borné sur les rollouts positifs pour faire émerger naturellement des gradients négatifs implicites. Deux mécanismes stabilisent l'optimisation : un réseau siamois avec loi d'adaptation momentum et un terme de similarité borné remplaçant la divergence KL.