RECHERCHE
RubricEM : méta-RL avec décomposition de politique guidée par rubrique
Un framework de reinforcement learning pour agents de recherche complexes, sans récompenses vérifiables, structuré autour de rubriques d'évaluation partagées.
arXiv cs.AI · cs.LG · cs.CL·Gaotang Li, Bhavana Dalvi Mishra, Zifeng Wang, Jun Yan·11 mai 2026

Image · Source originale
RubricEM propose un cadre RL guidé par des rubriques pour entraîner des agents de recherche longue portée capables de planifier, chercher et synthétiser des rapports. Le framework décompose les trajectoires en étapes (planification, collecte de preuves, révision, synthèse) conditionnées par des rubriques auto-générées, et utilise un Stage-Structured GRPO pour un feedback sémantique plus dense. Une méta-politique de réflexion distille les trajectoires passées en guidance réutilisable. Le modèle RubricEM-8B surpasse les modèles open comparables sur quatre benchmarks de recherche longue forme.