RECHERCHE
LongTraceRL : apprendre le raisonnement en contexte long à partir de trajectoires d'agents de recherche
Une nouvelle méthode de reinforcement learning combine distracteurs hiérarchiques et récompenses basées sur des rubriques pour améliorer le raisonnement multi-sauts des LLM.
arXiv cs.AI · cs.LG · cs.CL·Nianyi Lin, Jiajie Zhang, Lei Hou, Juanzi Li·29 mai 2026

Image · Source originale
LongTraceRL s'attaque au raisonnement en contexte long en combinant deux innovations : des distracteurs tirés des trajectoires d'agents de recherche (documents lus mais non cités vs. documents jamais ouverts) et une récompense par rubrique supervisant les entités intermédiaires du raisonnement. Appliquée uniquement aux réponses correctes, cette récompense distingue la qualité du raisonnement sans encourager le reward hacking. Testée sur trois LLM (4B–30B) et cinq benchmarks, la méthode surpasse les baselines établies.