RECHERCHE

LongTraceRL : apprendre le raisonnement en contexte long à partir de trajectoires d'agents de recherche

Une nouvelle méthode de reinforcement learning combine distracteurs hiérarchiques et récompenses basées sur des rubriques pour améliorer le raisonnement multi-sauts des LLM.

arXiv cs.AI · cs.LG · cs.CL·Nianyi Lin, Jiajie Zhang, Lei Hou, Juanzi Li·29 mai 2026

Image · Source originale

LongTraceRL s'attaque au raisonnement en contexte long en combinant deux innovations : des distracteurs tirés des trajectoires d'agents de recherche (documents lus mais non cités vs. documents jamais ouverts) et une récompense par rubrique supervisant les entités intermédiaires du raisonnement. Appliquée uniquement aux réponses correctes, cette récompense distingue la qualité du raisonnement sans encourager le reward hacking. Testée sur trois LLM (4B–30B) et cinq benchmarks, la méthode surpasse les baselines établies.

Chaleur 0

Pertinence 72

Nouveauté 74

OUVRIR LA SOURCE ↗

#reinforcement-learning #long-context #raisonnement #RLVR #multi-hop