RECHERCHE
iOSWorld : un benchmark pour agents mobiles personnalisés sur iOS
Premier simulateur iOS natif interactif centré sur une identité utilisateur persistante, iOSWorld teste les agents sur 133 tâches réparties dans 26 applications.
arXiv cs.AI · cs.LG · cs.CL·Lawrence Keunho Jang, Mareks Woodside, Geronimo Carom, Andrew Keunwoo Jang·8 juin 2026

Image · Source originale
iOSWorld est le premier benchmark de simulation iOS native construit autour d'une identité utilisateur persistante couvrant 26 applications avec données interconnectées (transactions, messages, voyages, relations sociales). Il propose 133 tâches en trois niveaux : single-app, multi-app (2 à 8 apps) et personnalisation/mémoire. Le meilleur modèle évalué atteint 52 % globalement, mais seulement 37 % sur les tâches multi-app. L'accès privilégié vision+XML améliore les modèles frontier jusqu'à 26 points de pourcentage.