RECHERCHE
APPO : optimisation de politique procédurale pour agents RL
Une nouvelle méthode d'apprentissage par renforcement affine l'attribution de crédit aux points de décision critiques dans les séquences générées par des agents LLM.
arXiv cs.AI · cs.LG · cs.CL·Xucong Wang, Ziyu Ma, Yong Wang, Yuxiang Ji·10 juin 2026

Image · Source originale
APPO (Agentic Procedural Policy Optimization) repense l'attribution de crédit dans le RL agentique en abandonnant les unités grossières (appels d'outils, workflows fixes) au profit de points de décision fins dans la séquence. Un score de branchement combinant incertitude token et gains de vraisemblance guide l'exploration ciblée. Sur 13 benchmarks, APPO améliore les baselines RL agentiques de près de 4 points tout en préservant l'interprétabilité.