RECHERCHE

TRIAGE : attribution de crédit par rôle sémantique pour le reinforcement learning agentique

Un framework qui dépasse GRPO en assignant des récompenses différenciées selon le rôle sémantique de chaque action dans un rollout agentique.

arXiv cs.AI · cs.LG · cs.CL·Yuanda Xu, Zhengze Zhou, Hejian Sang, Xiaomin Li·30 juin 2026

Image · Source originale

TRIAGE propose un mécanisme d'attribution de crédit structuré pour le reinforcement learning agentique, en classifiant chaque segment d'action selon quatre rôles sémantiques : progression décisive, exploration utile, infrastructure sans progrès ou régression. Contrairement à GRPO qui applique un avantage uniforme basé sur l'outcome final, TRIAGE associe à chaque rôle une récompense de processus bornée via des règles fixes. Évalué sur ALFWorld, Search-QA et WebShop, le framework surpasse GRPO et d'autres baselines de process reward.

Chaleur 30

Pertinence 72

Nouveauté 75

OUVRIR LA SOURCE ↗

#reinforcement-learning #agents #credit-assignment #GRPO #policy-gradient