OUTILS · Google
Gemma 4 12B : un modèle multimodal unifié sans encodeur
Google publie Gemma 4 12B, un modèle open-weights multimodal qui traite texte, image et vidéo sans encodeur visuel séparé.
Hacker News (filtré IA)·@rvz·3 juin 2026·+ 1 source Article composé de 2 sources

Image · Source originale
Google DeepMind lance Gemma 4 12B, un modèle multimodal open-weights de 12 milliards de paramètres abandonnant l'architecture encodeur-décodeur classique. Ce flux unifié traite nativement texte, images et vidéos dans un seul trunk sans encodeur visuel séparé. Disponible pour les développeurs via Google et Hugging Face.