Toutes les news taguées avec ce sujet.
Un système combinant RT-DETR et ViT-Base/16 classe automatiquement les véhicules en six catégories pour évaluer les risques de blessure des cyclistes.
Des chercheurs proposent un cadre théorique de l'information pour mesurer si les modèles de vision apprennent à associer des caractéristiques à des objets.
Une nouvelle architecture ViT élimine l'attention quadratique patch-à-patch grâce à des « core tokens » appris, permettant une complexité linéaire O(N).