RECHERCHE

VLESA : un agent de sécurité incarné vision-langage pour la surveillance d'activités humaines

Un framework surveille en temps réel les activités humaines depuis une vidéo égocentrique et déclenche des interventions de sécurité contextuelles.

arXiv cs.AI · cs.LG · cs.CL·Hanjiang Hu, Yiyuan Pan, Jiaxing Li, Xusheng Luo·2 juin 2026

Image · Source originale

VLESA (Vision-Language Embodied Safety Agent) est un framework qui analyse des flux vidéo égocentrique pour détecter des actions dangereuses et intervenir en temps réel. Il gère la sécurité dépendante de l'intention : une même action peut être sûre ou dangereuse selon le contexte. Un Q-filter entraîné via GRPO évalue les actions par rapport aux intentions inférées. Sur le benchmark ASIMOV-2.0, VLESA améliore la sécurité des actions de plus de 41 points de pourcentage.

Chaleur 1

Pertinence 68

Nouveauté 72

OUVRIR LA SOURCE ↗

#safety #vision-language #agents #embodied-ai #vidéo