RECHERCHE

VGGT-Edit : édition native de scènes 3D en feed-forward par prédiction de champ résiduel

Un framework permet d'éditer des scènes 3D directement via instructions textuelles, sans passer par la stratégie classique 2D-to-3D, préservant géométrie et cohérence multi-vues.

arXiv cs.AI · cs.LG · cs.CL·Kaixin Zhu, Yiwen Tang, Yifan Yang, Renrui Zhang·14 mai 2026

Image · Source originale

VGGT-Edit propose une architecture feed-forward pour l'édition de scènes 3D conditionnée par texte. Le système introduit une injection de texte synchronisée en profondeur et une tête de transformation résiduelle qui prédit directement les déplacements géométriques 3D. La méthode évite les artéfacts de flou et d'incohérence géométrique inhérents aux approches 2D-lifting classiques. Les auteurs publient également DeltaScene, un large dataset généré automatiquement avec filtrage par accord 3D.

Chaleur 0

Pertinence 62

Nouveauté 74

OUVRIR LA SOURCE ↗

#3D editing #feed-forward #text-conditioned #reconstruction 3D #scène 3D