RECHERCHE
Apprentissage visuel et verbal continu à partir de la perspective d'un enfant
BabyCL, un framework multimodal continu, apprend des associations mots-référents en une seule passe chronologique sur des vidéos égocentrées d'enfants.
arXiv cs.AI · cs.LG · cs.CL·Xiaoyang Jiang, Yanlai Yang, Kenneth A. Norman, Brenden Lake·3 juin 2026

Image · Source originale
BabyCL est un framework d'apprentissage multimodal continu qui traite le dataset SAYCam en une seule passe chronologique, imitant davantage les conditions réelles d'apprentissage d'un enfant. Il combine une segmentation temporale multi-étapes, un double replay buffer et trois pertes contrastives sur un backbone partagé. Sous un budget d'optimisation équivalent, BabyCL surpasse les baselines de streaming learning sur le benchmark SAYCam Labeled-S 4AFC, réduisant significativement l'écart avec l'entraînement offline.