RECHERCHE

GAM : un modèle d'action géométrique pour l'apprentissage de politiques robotiques

Des chercheurs proposent GAM, une politique de manipulation robotique exploitant un modèle fondationnel géométrique préentraîné pour raisonner en 3D.

arXiv cs.AI · cs.LG · cs.CL·Jisang Han, Seonghu Jeon, Jaewoo Jung, René Zurbrügg·15 juin 2026

Image · Source originale

GAM (Geometric Action Model) est une politique de manipulation conditionnée au langage qui réutilise un modèle fondationnel géométrique préentraîné comme substrat commun pour la perception, la prédiction temporelle et le décodage d'actions. Le backbone est divisé en deux parties : les couches superficielles encodent les observations, tandis qu'un prédicteur causal inséré au point de coupure prédit des tokens latents futurs conditionnés sur le langage, la proprioception et l'historique d'actions. Sur des benchmarks de manipulation en simulation et sur robot réel, GAM surpasse les baselines à l'échelle fondationnelle en précision, robustesse, vitesse et légèreté.

Chaleur 5

Pertinence 62

Nouveauté 74

OUVRIR LA SOURCE ↗

#robotique #vision-language-action #3D #manipulation #foundation-model