OUTILS · DeepMind
Gemma 4 12B : un modèle multimodal unifié sans encodeur
Google DeepMind lance Gemma 4 12B, un modèle open-weights multimodal qui abandonne l'architecture encodeur séparé au profit d'une approche unifiée.
DeepMind·9 juin 2026

Image · Source originale
DeepMind présente Gemma 4 12B, un modèle multimodal de 12 milliards de paramètres fonctionnant sans encodeur dédié, traitant texte et images dans un unique transformer. Cette approche encoder-free simplifie l'architecture tout en visant des performances compétitives sur les benchmarks visuels et textuels. Le modèle est publié en open-weights.