RECHERCHE
VGGT-Edit : édition native de scènes 3D en feed-forward par prédiction de champ résiduel
Un framework permet d'éditer des scènes 3D directement via instructions textuelles, sans passer par la stratégie classique 2D-to-3D, préservant géométrie et cohérence multi-vues.
arXiv cs.AI · cs.LG · cs.CL·Kaixin Zhu, Yiwen Tang, Yifan Yang, Renrui Zhang·14 mai 2026

Image · Source originale
VGGT-Edit propose une architecture feed-forward pour l'édition de scènes 3D conditionnée par texte. Le système introduit une injection de texte synchronisée en profondeur et une tête de transformation résiduelle qui prédit directement les déplacements géométriques 3D. La méthode évite les artéfacts de flou et d'incohérence géométrique inhérents aux approches 2D-lifting classiques. Les auteurs publient également DeltaScene, un large dataset généré automatiquement avec filtrage par accord 3D.