Toutes les news taguées avec ce sujet.
Un framework surveille en temps réel les activités humaines depuis une vidéo égocentrique et déclenche des interventions de sécurité contextuelles.
Une étude révèle que les modèles vision-langage encodent en interne des associations féminines mais les effacent avant la génération, au profit du genre masculin.
Un nouveau framework détecte si un modèle vision-langage répond grâce à l'image ou uniquement à partir de ses priors linguistiques.
Une méthode d'inférence sans fine-tuning qui réduit les biais de précision et d'ambiguïté dans la localisation d'éléments d'interface pour agents GUI.