RECHERCHE
Quand aligner, quand prédire : un diagramme de phase pour l'apprentissage multimodal
Un cadre théorique unifié détermine, avant tout entraînement, quelle stratégie multimodale adopter entre alignement et prédiction cross-modal.
arXiv cs.AI · cs.LG · cs.CL·Ilay Kamai, Hugues Van Assel, Aviv Regev, Hagai B. Perets·9 juin 2026

Image · Source originale
Des chercheurs proposent un framework linéaire fondé sur un modèle signal-plus-bruit pour caractériser les régimes de succès et d'échec de l'alignement cross-modal (CA) et de la prédiction cross-modal (CP). Ils en déduisent un diagramme de phase à quatre régimes (Both, CA only, CP only, Neither) et une procédure data-driven permettant de localiser un dataset réel dans ce diagramme avant tout entraînement. Les expériences couvrent la vision stéréo, les paires image-légende et des données astrophysiques réelles.