RECHERCHE
OmniAgent : perception active native pour la compréhension de vidéos longues
Un agent omni-modal formule la compréhension vidéo comme un cycle POMDP itératif, découplant le coût de raisonnement de la durée brute de la vidéo.
arXiv cs.AI · cs.LG · cs.CL·Zhenghao Xing, Ruiyang Xu, Yuxuan Wang, Jinzheng He·17 juin 2026

Image · Source originale
OmniAgent est le premier agent natif omni-modal qui traite la compréhension vidéo comme un problème POMDP à perception active, en exécutant des actions à la demande pour distiller des indices audio-visuels dans une mémoire textuelle persistante. Deux mécanismes d'entraînement sont introduits : un fine-tuning supervisé agentique et un apprentissage par renforcement avec TAURA, qui pondère l'attribution de crédit selon l'entropie par tour. Sur LVBench, le modèle 7B dépasse Qwen2.5-VL-72B (50,5 % vs 47,3 %), avec une amélioration des performances à mesure que le nombre de tours de raisonnement augmente.