RECHERCHE
EG-VQA : un benchmark pour la question-réponse vidéo avec ancrage temporel vérifiable
Un nouveau benchmark évalue la capacité des Video-LLMs à justifier leurs réponses par des preuves temporelles précises, révélant des lacunes même chez les modèles propriétaires.
arXiv cs.AI · cs.LG · cs.CL·Linpeng Huang, Weixing Chen, Zexin Chen, Yang Liu·23 juin 2026

Image · Source originale
EG-VQA est un benchmark de 2 067 vidéos et 11 838 paires QA annotées avec des preuves temporelles explicites, conçu pour tester la capacité des Video-LLMs à ancrer leurs réponses dans des segments vidéo pertinents. Une nouvelle métrique, EG-F1, mesure conjointement l'alignement temporel et la cohérence sémantique. Les expériences montrent que même les modèles propriétaires peinent à localiser fidèlement les preuves. Le modèle EG-Reasoner, entraîné avec supervision explicite, atteint l'état de l'art open-source.