RECHERCHE
Lumos-Nexus : un framework unifié pour la génération vidéo guidée par le raisonnement
Un nouveau framework deux étapes combine un générateur léger à l'entraînement et un générateur haute capacité à l'inférence pour produire des vidéos fidèles sans sacrifier le raisonnement.
arXiv cs.AI · cs.LG · cs.CL·Jiazheng Xing, Hangjie Yuan, Lingling Cai, Xinyu Liu·29 mai 2026

Image · Source originale
Lumos-Nexus propose une architecture unifiée pour la génération vidéo instructée, contournant le coût computationnel des générateurs haute fidélité lors de l'entraînement. Un mécanisme UPFB (Unified Progressive Frequency Bridging) transfère progressivement la génération vers un modèle pré-entraîné à grande capacité dans un espace latent partagé. Les auteurs introduisent également VR-Bench, un benchmark évaluant la traduction d'intentions inférées en contenu vidéo cohérent. Le code et les modèles sont publiés en open access.