RECHERCHE
ToolCUA : orchestration optimale des actions GUI et outils pour les agents informatiques
Un agent end-to-end qui apprend à choisir le meilleur moment pour basculer entre actions GUI atomiques et appels d'outils API, avec +66 % de performance sur OSWorld-MCP.
arXiv cs.AI · cs.LG · cs.CL·Xuhao Hu, Xi Zhang, Haiyang Xu, Kyle Qiao·12 mai 2026

Image · Source originale
ToolCUA est un agent conçu pour résoudre l'incertitude des Computer Use Agents face à un espace d'actions hybride mêlant GUI et outils API. Le système repose sur un pipeline de génération de trajectoires GUI-Tool entrelacées, un fine-tuning combinant SFT et RL, puis un apprentissage par renforcement en ligne guidé par une récompense favorisant l'efficacité des outils. Sur le benchmark OSWorld-MCP, ToolCUA atteint 46,85 % de précision, soit une amélioration relative d'environ 66 % par rapport à la baseline.