RECHERCHE
OCR-Robust : évaluer la robustesse des VLMs face aux dégradations visuelles
Un nouveau benchmark teste la résistance de 18 modèles vision-langage aux corruptions visuelles sur des tâches de raisonnement OCR.
arXiv cs.AI · cs.LG · cs.CL·Yuxing Cheng, Yuan Wu, Yi Chang·24 juin 2026

Image · Source originale
OCR-Robust est un benchmark de 812 échantillons conçu pour évaluer la robustesse des VLMs (Vision-Language Models) lors de dégradations visuelles contrôlées sur des tâches OCR. Il couvre documents, textes de scène, graphiques, tableaux et diagrammes géométriques, avec 5 types de perturbations à 3 niveaux de sévérité. L'évaluation de 18 modèles révèle qu'une haute précision en conditions normales ne garantit pas une meilleure robustesse, les graphiques et tableaux étant particulièrement vulnérables.