OUTILS
OpenAI lance GPT Realtime-2, Translate et Whisper : nouvelles APIs voix en temps réel
OpenAI publie trois nouveaux modèles vocaux dont GPT Realtime-2, avec +15,2 % sur le benchmark Big Bench Audio et un contexte étendu à 128K tokens.
Latent Space (Swyx)·8 mai 2026

Image · Source originale
OpenAI déploie une nouvelle génération d'APIs voix en temps réel : GPT Realtime-2 affiche une progression de +15,2 % sur le Big Bench Audio par rapport au précédent modèle basé sur 4o. Les trois modèles couvrent la reconnaissance, la synthèse et la traduction vocale. Les améliorations portent sur l'utilisabilité : appels d'outils en parallèle, préambules verbaux, meilleure gestion des erreurs, fenêtre de contexte passant de 32K à 128K tokens, et contrôle fin du ton et de l'effort de raisonnement.