OPINION · NVIDIA

Des modèles du monde aux actions : l'essor des World-Action Models

NVIDIA détaille la distinction entre VLA et WAM, deux paradigmes clés pour la robotique généraliste fondée sur des modèles pré-entraînés.

NVIDIA Developer Blog·Moritz Reuss·15 juin 2026

Image · Source originale

Un article de blog NVIDIA signé Moritz Reuss introduit et compare deux familles de modèles robotiques : les VLA (Vision-Language-Action), qui s'appuient sur un backbone VLM pré-entraîné pour générer des actions à partir d'observations visuelles et d'instructions en langage naturel (ex. Pi-0, GR00T N1), et les WAM (World-Action Models), qui partent d'un modèle du monde ou d'un modèle vidéo. L'article pose un glossaire de référence pour naviguer dans cette terminologie émergente.

Chaleur 5

Pertinence 72

Nouveauté 62

OUVRIR LA SOURCE ↗

#robotique #VLA #world-model #fine-tuning #foundation-models