RECHERCHE
FLUX3D : génération de Gaussian Splatting 3D haute-fidélité par représentation sparse alignée sur la diffusion
Un nouveau framework image-vers-3DGS lève deux verrous structurels majeurs grâce à des latents alignés sur la diffusion et un transformer multimodal sparse.
arXiv cs.AI · cs.LG · cs.CL·Haorui Ji, Weizhe Liu, Hongdong Li, Hengkai Guo·23 juin 2026

Image · Source originale
FLUX3D propose une architecture image-vers-3D Gaussian Splatting (3DGS) qui surmonte les goulots d'étranglement de représentation et d'alignement cross-modal identifiés dans les méthodes actuelles. Les auteurs introduisent les Diffusion-Aligned Structured Latents (DA-SLAT) couplés à une architecture decoder-only, ainsi qu'un Sparse-structure Multimodal Diffusion Transformer (SMDiT) avec un positional embedding rotatif modal-aware (MARoPE). Les benchmarks montrent des gains substantiels en fidélité visuelle par rapport aux méthodes de l'état de l'art.