RECHERCHE
Apprentissage par renforcement pour les systèmes multi-agents LLM via les traces d'orchestration
Un papier systématise l'application du RL aux systèmes multi-agents LLM en analysant les traces d'orchestration comme graphes d'interaction temporels.
arXiv cs.AI · cs.LG · cs.CL·Chenchen Zhang·4 mai 2026

Image · Source originale
Ce papier propose un cadre d'analyse du reinforcement learning appliqué aux systèmes multi-agents basés sur des LLM, en s'appuyant sur des traces d'orchestration modélisées comme des graphes d'interaction temporels. Trois axes techniques sont identifiés : la conception des récompenses (8 familles), l'attribution du crédit (8 unités, du token à l'équipe), et les cinq sous-décisions d'orchestration (spawning, délégation, communication, agrégation, arrêt). Les auteurs constatent l'absence de méthode RL explicite pour la décision d'arrêt et documentent un écart entre pratiques industrielles (Kimi, OpenAI, Anthropic) et évaluations académiques ouvertes.