Toutes les news taguées avec ce sujet.
Des chercheurs proposent un modèle audio en streaming capable d'écouter, décider et répondre en continu, unifiant ASR, dialogue et suivi d'instructions.
Miso Labs dévoile MisoTTS, un modèle text-to-speech de 8B paramètres conçu pour restituer des nuances émotionnelles dans la voix synthétique.
Andon Labs a confié la gestion complète de stations de radio à des agents IA, de la sélection musicale à l'animation.
Des chercheurs démontrent que les assistants vocaux IA peuvent être manipulés par des signaux audio indétectables à l'oreille humaine.
Un benchmark complet pour mesurer les agents IA conversationnels vocaux, couvrant précision, expérience utilisateur et robustesse au bruit.
Moonshot AI publie Kimi-Audio-7B, un modèle multimodal audio de 7 milliards de paramètres disponible en open-weights sur Hugging Face.