RECHERCHE

POPO : optimisation de politique sans rollouts négatifs pour les LLM

Un nouveau framework RLVR apprend exclusivement à partir de rollouts positifs, faisant émerger des gradients négatifs implicitement sans pénaliser les échecs.

arXiv cs.AI · cs.LG · cs.CL·Mingwei Xu, Hao Fang·7 mai 2026

Image · Source originale

POPO (Positive-Only Policy Optimization) propose un cadre RLVR où l'apprentissage s'effectue uniquement via des rollouts positifs en ligne, sans recours aux rollouts négatifs utilisés par GRPO. Le framework exploite un échantillonnage d'importance borné sur les rollouts positifs pour faire émerger naturellement des gradients négatifs implicites. Deux mécanismes stabilisent l'optimisation : un réseau siamois avec loi d'adaptation momentum et un terme de similarité borné remplaçant la divergence KL.

Chaleur 0

Pertinence 72

Nouveauté 78

OUVRIR LA SOURCE ↗

#RLVR #LLM #policy-optimization #GRPO #raisonnement