RECHERCHE

Quand aligner, quand prédire : un diagramme de phase pour l'apprentissage multimodal

Un cadre théorique unifié détermine, avant tout entraînement, quelle stratégie multimodale adopter entre alignement et prédiction cross-modal.

arXiv cs.AI · cs.LG · cs.CL·Ilay Kamai, Hugues Van Assel, Aviv Regev, Hagai B. Perets·9 juin 2026

Image · Source originale

Des chercheurs proposent un framework linéaire fondé sur un modèle signal-plus-bruit pour caractériser les régimes de succès et d'échec de l'alignement cross-modal (CA) et de la prédiction cross-modal (CP). Ils en déduisent un diagramme de phase à quatre régimes (Both, CA only, CP only, Neither) et une procédure data-driven permettant de localiser un dataset réel dans ce diagramme avant tout entraînement. Les expériences couvrent la vision stéréo, les paires image-légende et des données astrophysiques réelles.

Chaleur 22

Pertinence 62

Nouveauté 74

OUVRIR LA SOURCE ↗

#multimodal #representation-learning #alignement #cross-modal #théorie