RECHERCHE

OCR-Robust : évaluer la robustesse des VLMs face aux dégradations visuelles

Un nouveau benchmark teste la résistance de 18 modèles vision-langage aux corruptions visuelles sur des tâches de raisonnement OCR.

arXiv cs.AI · cs.LG · cs.CL·Yuxing Cheng, Yuan Wu, Yi Chang·24 juin 2026

Image · Source originale

OCR-Robust est un benchmark de 812 échantillons conçu pour évaluer la robustesse des VLMs (Vision-Language Models) lors de dégradations visuelles contrôlées sur des tâches OCR. Il couvre documents, textes de scène, graphiques, tableaux et diagrammes géométriques, avec 5 types de perturbations à 3 niveaux de sévérité. L'évaluation de 18 modèles révèle qu'une haute précision en conditions normales ne garantit pas une meilleure robustesse, les graphiques et tableaux étant particulièrement vulnérables.

Chaleur 26

Pertinence 62

Nouveauté 65

OUVRIR LA SOURCE ↗

#OCR #VLM #benchmark #robustesse #vision-langage