RECHERCHE
IVGT : un Transformer pour la représentation implicite de scènes 3D sans pose
IVGT propose une représentation neuronale continue de scènes 3D à partir d'images multi-vues non calibrées, sans recourir à des pointmaps explicites.
arXiv cs.AI · cs.LG · cs.CL·Yuqi Wu, Tianyu Hu, Wenzhao Zheng, Yuanhui Huang·15 mai 2026

Image · Source originale
IVGT (Implicit Visual Geometry Transformer) reconstruit une géométrie 3D cohérente et continue à partir d'images multi-vues sans pose connue. Contrairement aux approches explicites basées sur des pointmaps, il modélise la scène dans un système de coordonnées canonique via des requêtes spatiales continues, prédisant des valeurs SDF et des couleurs. Le modèle, entraîné par supervision 2D et régularisation géométrique 3D sur plusieurs jeux de données, démontre de bonnes performances en reconstruction de maillage, synthèse de nouvelles vues et estimation de pose.