OUTILS · DeepMind

Gemma 4 12B : un modèle multimodal unifié sans encodeur

Google DeepMind lance Gemma 4 12B, un modèle open-weights multimodal qui abandonne l'architecture encodeur séparé au profit d'une approche unifiée.

DeepMind·9 juin 2026

Image · Source originale

DeepMind présente Gemma 4 12B, un modèle multimodal de 12 milliards de paramètres fonctionnant sans encodeur dédié, traitant texte et images dans un unique transformer. Cette approche encoder-free simplifie l'architecture tout en visant des performances compétitives sur les benchmarks visuels et textuels. Le modèle est publié en open-weights.

Chaleur 38

Pertinence 90

Nouveauté 75

OUVRIR LA SOURCE ↗

#gemma #multimodal #open-weights #google-deepmind #encoder-free