RECHERCHE
VLESA : un agent de sécurité incarné vision-langage pour la surveillance d'activités humaines
Un framework surveille en temps réel les activités humaines depuis une vidéo égocentrique et déclenche des interventions de sécurité contextuelles.
arXiv cs.AI · cs.LG · cs.CL·Hanjiang Hu, Yiyuan Pan, Jiaxing Li, Xusheng Luo·2 juin 2026

Image · Source originale
VLESA (Vision-Language Embodied Safety Agent) est un framework qui analyse des flux vidéo égocentrique pour détecter des actions dangereuses et intervenir en temps réel. Il gère la sécurité dépendante de l'intention : une même action peut être sûre ou dangereuse selon le contexte. Un Q-filter entraîné via GRPO évalue les actions par rapport aux intentions inférées. Sur le benchmark ASIMOV-2.0, VLESA améliore la sécurité des actions de plus de 41 points de pourcentage.