OPINION · NVIDIA
Des modèles du monde aux actions : l'essor des World-Action Models
NVIDIA détaille la distinction entre VLA et WAM, deux paradigmes clés pour la robotique généraliste fondée sur des modèles pré-entraînés.
NVIDIA Developer Blog·Moritz Reuss·15 juin 2026

Image · Source originale
Un article de blog NVIDIA signé Moritz Reuss introduit et compare deux familles de modèles robotiques : les VLA (Vision-Language-Action), qui s'appuient sur un backbone VLM pré-entraîné pour générer des actions à partir d'observations visuelles et d'instructions en langage naturel (ex. Pi-0, GR00T N1), et les WAM (World-Action Models), qui partent d'un modèle du monde ou d'un modèle vidéo. L'article pose un glossaire de référence pour naviguer dans cette terminologie émergente.