RECHERCHE
Agents LLM composites en environnement adversarial : coût versus performance
Une étude contrôlée révèle que l'abstraction d'état programmatique surpasse largement les stratégies de délibération distribuée pour les agents LLM en POMDP.
arXiv cs.AI · cs.LG · cs.CL·Igor Bogdanov, Chung-Horng Lung, Thomas Kunz, Jie Gao·15 mai 2026

Image · Source originale
Des chercheurs ont évalué 12 configurations d'agents LLM composites dans CybORG CAGE-2, un environnement de cyber-défense modélisé comme un POMDP adversarial. L'abstraction d'état programmatique améliore le rendement moyen jusqu'à 76 % par token dépensé. À l'inverse, distribuer des outils de délibération (self-critique, chain-of-thought) à travers une hiérarchie d'agents dégrade les performances jusqu'à 3,4× tout en consommant 1,8 à 2,7× plus de tokens — un anti-pattern baptisé « deliberation cascade ».