RECHERCHE

FLUX3D : génération de Gaussian Splatting 3D haute-fidélité par représentation sparse alignée sur la diffusion

Un nouveau framework image-vers-3DGS lève deux verrous structurels majeurs grâce à des latents alignés sur la diffusion et un transformer multimodal sparse.

arXiv cs.AI · cs.LG · cs.CL·Haorui Ji, Weizhe Liu, Hongdong Li, Hengkai Guo·23 juin 2026

Image · Source originale

FLUX3D propose une architecture image-vers-3D Gaussian Splatting (3DGS) qui surmonte les goulots d'étranglement de représentation et d'alignement cross-modal identifiés dans les méthodes actuelles. Les auteurs introduisent les Diffusion-Aligned Structured Latents (DA-SLAT) couplés à une architecture decoder-only, ainsi qu'un Sparse-structure Multimodal Diffusion Transformer (SMDiT) avec un positional embedding rotatif modal-aware (MARoPE). Les benchmarks montrent des gains substantiels en fidélité visuelle par rapport aux méthodes de l'état de l'art.

Chaleur 19

Pertinence 68

Nouveauté 74

OUVRIR LA SOURCE ↗

#3D generation #gaussian splatting #diffusion #représentation sparse #image-to-3D