12 items

#vision-language

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

OUTILS
moonshotheat 75
Sortie de Kimi-VL-A3B-Thinking-2506 par Moonshot AI
Moonshot AI publie un nouveau modèle multimodal sur Hugging Face.
RECHERCHE
heat 45
Visual Contrastive Self-Distillation
Une méthode de self-distillation visuelle qui surpasse les OPSD existants sur Qwen-VL.
RECHERCHE
heat 35
VLM-IE3D : des VLM conscients de la 3D grâce à des géométries implicites et explicites
Un nouveau framework injecte des représentations 3D dans les modèles vision-langage à partir de simples vidéos RGB, sans capteur additionnel.
OUTILS
moonshotheat 65
Kimi-VL-A3B-Thinking : modèle multimodal
Moonshot AI publie un modèle léger de raisonnement visuel sur Hugging Face.
RECHERCHE
heat 35
Généralisation de domaine simple pour la détection de falsification d'images au niveau pixel dans les VLM modernes
Une méthode d'entraînement simple améliore la détection de retouches générées par ChatGPT, Gemini ou Qwen-Image, avec une robustesse accrue hors distribution.
RECHERCHE
heat 35
Les multiples facettes de la similarité visuelle : une métrique perceptuelle d'image guidée par texte
Un nouveau benchmark et une métrique VLM permettent de conditionner la similarité visuelle selon un aspect précis (forme, couleur, etc.).
RECHERCHE
heat 45
ActiveVision : un benchmark révèle l'échec des MLLMs sur l'observation visuelle active
Les modèles multimodaux les plus avancés s'effondrent face à des tâches nécessitant une perception visuelle itérative, loin derrière les humains.
RECHERCHE
heat 30
SciDiagramEdit : apprendre à éditer des diagrammes scientifiques à partir des révisions d'articles
Un nouveau benchmark exploite l'historique des versions arXiv pour entraîner des agents à éditer des figures scientifiques via instructions en langage naturel.
RECHERCHE
heat 30
Une décennie de modèles vision-langage : évolution de la précision et des erreurs cognitives
Une étude sur dix ans montre que les modèles multimodaux récents ont quasiment comblé leur écart de performance face aux scènes sociales complexes.
RECHERCHE
heat 45
Pré-entraînement visuel scalable pour l'intelligence des modèles de langage
Une étude montre que pré-entraîner directement sur des documents visuels surpasse l'approche texte-only classique, sans passer par l'extraction de texte.
OUTILS
moonshotheat 75
Kimi-VL-A3B-Thinking : nouveau modèle vision-langage
Moonshot AI présente un modèle VL compact pensant, accessible sur Hugging Face.
RECHERCHE
heat 42
AUTOPILOT VQA : un benchmark VQA centré sur les incidents de conduite dashcam
Un nouveau dataset évalue la capacité des modèles vision-langage à raisonner sur des incidents routiers réels, au-delà de la simple reconnaissance d'objets.

12 items

#vision-language

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

OUTILS
moonshotheat 75
Sortie de Kimi-VL-A3B-Thinking-2506 par Moonshot AI
Moonshot AI publie un nouveau modèle multimodal sur Hugging Face.
RECHERCHE
heat 45
Visual Contrastive Self-Distillation
Une méthode de self-distillation visuelle qui surpasse les OPSD existants sur Qwen-VL.
RECHERCHE
heat 35
VLM-IE3D : des VLM conscients de la 3D grâce à des géométries implicites et explicites
Un nouveau framework injecte des représentations 3D dans les modèles vision-langage à partir de simples vidéos RGB, sans capteur additionnel.
OUTILS
moonshotheat 65
Kimi-VL-A3B-Thinking : modèle multimodal
Moonshot AI publie un modèle léger de raisonnement visuel sur Hugging Face.
RECHERCHE
heat 35
Généralisation de domaine simple pour la détection de falsification d'images au niveau pixel dans les VLM modernes
Une méthode d'entraînement simple améliore la détection de retouches générées par ChatGPT, Gemini ou Qwen-Image, avec une robustesse accrue hors distribution.
RECHERCHE
heat 35
Les multiples facettes de la similarité visuelle : une métrique perceptuelle d'image guidée par texte
Un nouveau benchmark et une métrique VLM permettent de conditionner la similarité visuelle selon un aspect précis (forme, couleur, etc.).
RECHERCHE
heat 45
ActiveVision : un benchmark révèle l'échec des MLLMs sur l'observation visuelle active
Les modèles multimodaux les plus avancés s'effondrent face à des tâches nécessitant une perception visuelle itérative, loin derrière les humains.
RECHERCHE
heat 30
SciDiagramEdit : apprendre à éditer des diagrammes scientifiques à partir des révisions d'articles
Un nouveau benchmark exploite l'historique des versions arXiv pour entraîner des agents à éditer des figures scientifiques via instructions en langage naturel.
RECHERCHE
heat 30
Une décennie de modèles vision-langage : évolution de la précision et des erreurs cognitives
Une étude sur dix ans montre que les modèles multimodaux récents ont quasiment comblé leur écart de performance face aux scènes sociales complexes.
RECHERCHE
heat 45
Pré-entraînement visuel scalable pour l'intelligence des modèles de langage
Une étude montre que pré-entraîner directement sur des documents visuels surpasse l'approche texte-only classique, sans passer par l'extraction de texte.
OUTILS
moonshotheat 75
Kimi-VL-A3B-Thinking : nouveau modèle vision-langage
Moonshot AI présente un modèle VL compact pensant, accessible sur Hugging Face.
RECHERCHE
heat 42
AUTOPILOT VQA : un benchmark VQA centré sur les incidents de conduite dashcam
Un nouveau dataset évalue la capacité des modèles vision-langage à raisonner sur des incidents routiers réels, au-delà de la simple reconnaissance d'objets.

Sortie de Kimi-VL-A3B-Thinking-2506 par Moonshot AI

Visual Contrastive Self-Distillation

VLM-IE3D : des VLM conscients de la 3D grâce à des géométries implicites et explicites

Kimi-VL-A3B-Thinking : modèle multimodal

Généralisation de domaine simple pour la détection de falsification d'images au niveau pixel dans les VLM modernes

Les multiples facettes de la similarité visuelle : une métrique perceptuelle d'image guidée par texte

ActiveVision : un benchmark révèle l'échec des MLLMs sur l'observation visuelle active

SciDiagramEdit : apprendre à éditer des diagrammes scientifiques à partir des révisions d'articles

Une décennie de modèles vision-langage : évolution de la précision et des erreurs cognitives

Pré-entraînement visuel scalable pour l'intelligence des modèles de langage

Kimi-VL-A3B-Thinking : nouveau modèle vision-langage

AUTOPILOT VQA : un benchmark VQA centré sur les incidents de conduite dashcam

Sortie de Kimi-VL-A3B-Thinking-2506 par Moonshot AI

Visual Contrastive Self-Distillation

VLM-IE3D : des VLM conscients de la 3D grâce à des géométries implicites et explicites

Kimi-VL-A3B-Thinking : modèle multimodal

Généralisation de domaine simple pour la détection de falsification d'images au niveau pixel dans les VLM modernes

Les multiples facettes de la similarité visuelle : une métrique perceptuelle d'image guidée par texte

ActiveVision : un benchmark révèle l'échec des MLLMs sur l'observation visuelle active

SciDiagramEdit : apprendre à éditer des diagrammes scientifiques à partir des révisions d'articles

Une décennie de modèles vision-langage : évolution de la précision et des erreurs cognitives

Pré-entraînement visuel scalable pour l'intelligence des modèles de langage

Kimi-VL-A3B-Thinking : nouveau modèle vision-langage

AUTOPILOT VQA : un benchmark VQA centré sur les incidents de conduite dashcam