Le 7 mai, OpenAI a lancé GPT-Realtime-2, son modèle vocal le plus avancé. Il intègre pour la première fois un raisonnement de niveau GPT-5 aux agents vocaux. Disponible immédiatement via l’API, il gère les interruptions, les corrections et les calculs complexes sans casser l’échange.
À retenir
- GPT-Realtime-2 apporte un raisonnement de niveau GPT-5 aux agents vocaux, avec +15,2 % sur Big Bench Audio.
- Fenêtre de contexte étendue à 128K tokens et latence réduite jusqu’à 40 % via WebSocket bidirectionnel.
- Effort de raisonnement modulable sur cinq niveaux, de « minimal » à « xhigh ».
- GPT-Realtime-Translate : traduction instantanée en plus de 70 langues avec préservation du ton.
- Tarification : environ 27,52 € par million de tokens audio en entrée et 55,04 € en sortie.
- Sécurité native avec modération temps réel et conformité Zero Data Retention (ZDR).
Un raisonnement continu qui change la donne
Contrairement aux modèles précédents, limités à un schéma question-réponse, GPT-Realtime-2 pense pendant l’échange. Il gère les interruptions naturelles, corrige ses erreurs et lance plusieurs appels d’outils en parallèle.
Des benchmarks qui confirment la progression
Les premiers résultats sont nets : 15,2 % sur Big Bench Audio et 13,8 % sur Audio MultiChallenge, par rapport aux versions précédentes. Ces gains permettent de traiter des scénarios complexes sans perdre la cohérence, même sur des échanges longs.

Une multimodalité native
Le modèle combine voix, contexte et actions dans un seul flux. Cette intégration réduit les allers-retours entre services et améliore la qualité perçue de l’agent par l’utilisateur final.
Une architecture pensée pour la conversation réelle
OpenAI a quadruplé la fenêtre de contexte pour l’étendre à 128K tokens. De quoi conserver l’historique complet d’un appel de plusieurs dizaines de minutes sans rupture de mémoire.
Latence réduite grâce à WebSocket et WebRTC
Le passage à un mode bidirectionnel via WebSocket réduit la latence jusqu’à 40 %. Les développeurs peuvent aussi s’appuyer sur WebRTC ou SIP pour des intégrations téléphoniques ou web.
Des niveaux d’effort de raisonnement ajustables
Le modèle propose cinq niveaux d’effort de raisonnement. Les échanges simples restent en mode « minimal » pour conserver une latence sous 500 ms, tandis que les tâches plus complexes activent le niveau « xhigh » sans interrompre la conversation.

Des cas d’usage déjà en production
Plusieurs grands acteurs ont intégré GPT-Realtime-2 dès son lancement. Ces premiers déploiements montrent un passage rapide de la démonstration à l’usage métier.
Service client multilingue chez Deutsche Telekom
L’opérateur teste GPT-Realtime-Translate pour la traduction en temps réel. Chaque participant s’exprime dans sa langue maternelle, tandis que l’agent restitue l’échange de manière naturelle et sans délai perceptible.
Assistance immobilière experte chez Zillow
Zillow a construit un assistant capable d’analyser des recherches complexes et de vérifier en direct la conformité réglementaire locale. Le taux de succès atteint 95 % sur les scénarios les plus difficiles, selon les données internes communiquées par l’entreprise.
Des modèles compagnons pour élargir les usages
GPT-Realtime-Whisper complète l’offre avec une transcription continue à faible latence, utile pour le sous-titrage automatique ou la prise de notes en réunion. L’ensemble forme désormais une base complète pour les usages vocaux professionnels.















Laisser un commentaire
Vous devez vous connecter pour publier un commentaire.