RECHERCHE
Au-delà du suivi de texte : correction des arbitrages audio-texte dans les modèles audio-langage
Des chercheurs montrent que les modèles audio-langage encodent bien les réponses audio mais les ignorent face au texte — et proposent une correction sans réentraînement.
arXiv cs.AI · cs.LG · cs.CL·Yichen Gao, Yiqun Zhang, Zijing Wang, Yujia Li·3 juin 2026

Image · Source originale
Les modèles audio-langage (ALMs) privilégient souvent le texte même lorsque l'audio contredit clairement. Sur cinq ALMs et quatre tâches de conflit, 64,1 % des échantillons montrent que la réponse audio est bien encodée mais écartée lors de l'arbitrage. Les auteurs localisent ce phénomène via l'activation patching et proposent GACL, une règle de décodage sans entraînement qui améliore le nAUC de 17,8 points, transférable aussi à l'arbitrage vision-texte.