RECHERCHE
RevengeBench : reconstruire des politiques de décision en code à partir de traces comportementales
Un nouveau benchmark teste la capacité des LLMs à reverse-engineer des politiques de jeu adversariales sous forme de code exécutable, à partir de simples observations comportementales.
arXiv cs.AI · cs.LG · cs.CL·Babak Rahmani, Sebastian Dziadzio, Joschka Strüber, Sergio Hernández-Gutiérrez·24 juin 2026

Image · Source originale
RevengeBench propose 75 politiques générées par LLM et calibrées via Elo dans cinq environnements de jeu. L'agent doit reconstruire le programme de décision sous-jacent d'un adversaire caché en concevant des expériences comportementales ciblées. Évalué sur douze LLMs frontier, le taux de reconstruction varie de 34 à 72 % de la distance initiale comblée. Les politiques reconstruites confèrent un avantage compétitif mesurable, surtout pour les modèles plus faibles.