RECHERCHE
SCPRM : un modèle de récompense cumulatif pour le raisonnement sur graphes de connaissances
Une approche combinant reward model cumulatif et distance schématique pour guider le raisonnement multi-sauts sur des KGs médicaux et juridiques.
arXiv cs.AI · cs.LG · cs.CL·Jiujiu Chen, Yazheng Liu, Sihong Xie, Hui Xiong·4 mai 2026

Image · Source originale
Les process reward models classiques souffrent d'un effet de compensation où des étapes incorrectes sont masquées par des étapes ultérieures correctes. SCPRM introduit une évaluation cumulative conditionnée sur le préfixe de raisonnement et une distance schématique vers la cible implicite. Intégré dans une recherche arborescente Monte Carlo (MCTS), SCPRM-MCTS améliore le Hits@k de 1,18 % en moyenne sur des benchmarks de KGQA médicaux, juridiques et CWQ.