RECHERCHE

QUBRIC : co-conception de requêtes et de rubriques pour le RL au-delà des récompenses vérifiables

Un framework qui repense le RL basé sur des rubriques en co-optimisant simultanément les requêtes et les critères d'évaluation.

arXiv cs.AI · cs.LG · cs.CL·Rongzhi Zhang, Rui Feng, Zhihan Zhang, Jingfeng Yang·2 juin 2026

Image · Source originale

QUBRIC identifie un goulot d'étranglement structurel dans le RL par rubriques : la qualité des critères est limitée par la structure des requêtes. Le framework co-conçoit requêtes et rubriques grâce à des points-clés dérivés d'un modèle enseignant, une génération contrastive de critères et un filtrage par apprenabilité. Entraîné sur des données d'instruction-following, QUBRIC gagne +5,5 points sur ArenaHard et +6,3 points en moyenne sur trois benchmarks hors distribution (droit, morale, raisonnement narratif).

Chaleur 1

Pertinence 72

Nouveauté 74

OUVRIR LA SOURCE ↗

#reinforcement-learning #RLVR #rubric-based-RL #LLM #GRPO