OUTILS

OpenAI lance GPT Realtime-2, Translate et Whisper : nouvelles APIs voix en temps réel

OpenAI publie trois nouveaux modèles vocaux dont GPT Realtime-2, avec +15,2 % sur le benchmark Big Bench Audio et un contexte étendu à 128K tokens.

Latent Space (Swyx)·8 mai 2026

Image · Source originale

OpenAI déploie une nouvelle génération d'APIs voix en temps réel : GPT Realtime-2 affiche une progression de +15,2 % sur le Big Bench Audio par rapport au précédent modèle basé sur 4o. Les trois modèles couvrent la reconnaissance, la synthèse et la traduction vocale. Les améliorations portent sur l'utilisabilité : appels d'outils en parallèle, préambules verbaux, meilleure gestion des erreurs, fenêtre de contexte passant de 32K à 128K tokens, et contrôle fin du ton et de l'effort de raisonnement.

Chaleur 0

Pertinence 85

Nouveauté 65

OUVRIR LA SOURCE ↗

#OpenAI #voice-API #realtime #speech-to-text #LLM