RECHERCHE
Audio Interaction Model : un LALM unifié pour l'interaction audio en temps réel
Des chercheurs proposent un modèle audio en streaming capable d'écouter, décider et répondre en continu, unifiant ASR, dialogue et suivi d'instructions.
arXiv cs.AI · cs.LG · cs.CL·Zhifei Xie, Zihang Liu, Ze An, Xiaobin Hu·3 juin 2026

Image · Source originale
Audio-Interaction est un Large Audio Language Model (LALM) unifié fonctionnant en streaming, basé sur une boucle perceive-decide-respond permanente. Le framework SoundFlow gère la construction des données, l'entraînement et l'inférence asynchrone à faible latence. Le corpus StreamAudio-2M regroupe 2,6 millions d'exemples couvrant 28 sous-tâches. Sur 8 benchmarks, le modèle maintient des performances compétitives tout en ajoutant des capacités temps réel inaccessibles aux LALMs offline.