RECHERCHE
QUBRIC : co-conception de requêtes et de rubriques pour le RL au-delà des récompenses vérifiables
Un framework qui repense le RL basé sur des rubriques en co-optimisant simultanément les requêtes et les critères d'évaluation.
arXiv cs.AI · cs.LG · cs.CL·Rongzhi Zhang, Rui Feng, Zhihan Zhang, Jingfeng Yang·2 juin 2026

Image · Source originale
QUBRIC identifie un goulot d'étranglement structurel dans le RL par rubriques : la qualité des critères est limitée par la structure des requêtes. Le framework co-conçoit requêtes et rubriques grâce à des points-clés dérivés d'un modèle enseignant, une génération contrastive de critères et un filtrage par apprenabilité. Entraîné sur des données d'instruction-following, QUBRIC gagne +5,5 points sur ArenaHard et +6,3 points en moyenne sur trois benchmarks hors distribution (droit, morale, raisonnement narratif).