RECHERCHE
VideoNet : un benchmark de reconnaissance d'actions spécifiques à grande échelle
Un nouveau dataset de 1 000 actions issues de 37 domaines révèle les lacunes profondes des VLMs en reconnaissance d'actions vidéo.
arXiv cs.AI · cs.LG · cs.CL·Tanush Yadav, Mohammadreza Salehi, Jae Sung Park, Vivek Ramanujan·4 mai 2026

Image · Source originale
VideoNet est un benchmark de reconnaissance d'actions spécifiques à des domaines, couvrant 1 000 actions distinctes dans 37 domaines. Les VLMs actuels y peinent : Gemini 3.1 Pro atteint 69,9 % en QCM, tandis que Qwen3-VL-8B stagne à 45 %. Même en mode binaire ou few-shot, les modèles restent nettement en deçà des humains non experts. Les auteurs publient également un premier dataset d'entraînement à grande échelle pour les actions spécifiques.