RECHERCHE
OmniGameArena : un benchmark unifié UE5 pour agents VLM avec dynamiques d'amélioration
Un nouveau benchmark basé sur Unreal Engine 5 évalue des agents VLM dans 12 jeux en modes Solo, PvP et Coop, avec un protocole de réflexion autonome.
arXiv cs.AI · cs.LG · cs.CL·Mingxian Lin, Shengju Qian, Yuqi Liu, Yi-Hua Huang·8 juin 2026

Image · Source originale
OmniGameArena propose 12 jeux inédits sous Unreal Engine 5 couvrant trois modes de jeu (Solo, PvP, Coop) avec des interfaces d'action unifiées pour comparer sur un même pied des VLM commerciaux, open-weight et des politiques spécialisées. Le benchmark introduit l'Improvement Dynamics Curve (IDC), un mécanisme de réflexion agentique où un LLM-réflecteur affine automatiquement un prompt de compétences sur plusieurs rounds. Au-delà du score initial, l'IDC mesure l'évolution des performances et la généralisation à de nouvelles variantes de tâches.