RECHERCHE

VideoNet : un benchmark de reconnaissance d'actions spécifiques à grande échelle

Un nouveau dataset de 1 000 actions issues de 37 domaines révèle les lacunes profondes des VLMs en reconnaissance d'actions vidéo.

arXiv cs.AI · cs.LG · cs.CL·Tanush Yadav, Mohammadreza Salehi, Jae Sung Park, Vivek Ramanujan·4 mai 2026

Image · Source originale

VideoNet est un benchmark de reconnaissance d'actions spécifiques à des domaines, couvrant 1 000 actions distinctes dans 37 domaines. Les VLMs actuels y peinent : Gemini 3.1 Pro atteint 69,9 % en QCM, tandis que Qwen3-VL-8B stagne à 45 %. Même en mode binaire ou few-shot, les modèles restent nettement en deçà des humains non experts. Les auteurs publient également un premier dataset d'entraînement à grande échelle pour les actions spécifiques.

Chaleur 0

Pertinence 72

Nouveauté 68

OUVRIR LA SOURCE ↗

#benchmark #video-understanding #VLM #action-recognition #dataset