RECHERCHE

RevengeBench : reconstruire des politiques de décision en code à partir de traces comportementales

Un nouveau benchmark teste la capacité des LLMs à reverse-engineer des politiques de jeu adversariales sous forme de code exécutable, à partir de simples observations comportementales.

arXiv cs.AI · cs.LG · cs.CL·Babak Rahmani, Sebastian Dziadzio, Joschka Strüber, Sergio Hernández-Gutiérrez·24 juin 2026

Image · Source originale

RevengeBench propose 75 politiques générées par LLM et calibrées via Elo dans cinq environnements de jeu. L'agent doit reconstruire le programme de décision sous-jacent d'un adversaire caché en concevant des expériences comportementales ciblées. Évalué sur douze LLMs frontier, le taux de reconstruction varie de 34 à 72 % de la distance initiale comblée. Les politiques reconstruites confèrent un avantage compétitif mesurable, surtout pour les modèles plus faibles.

Chaleur 26

Pertinence 62

Nouveauté 72

OUVRIR LA SOURCE ↗

#benchmark #LLM #policy-learning #opponent-modeling #code-generation