GPT-Realtime-2 apporte le raisonnement GPT-5 aux agents vocaux

·

·

Développeur discutant à voix haute devant un ordinateur portable affichant une interface OpenAI avec des ondes audio en temps réel dans un bureau moderne.
Résumer cet article avec :

Le 7 mai, OpenAI a lancé GPT-Realtime-2, son modèle vocal le plus avancé. Il intègre pour la première fois un raisonnement de niveau GPT-5 aux agents vocaux. Disponible immédiatement via l’API, il gère les interruptions, les corrections et les calculs complexes sans casser l’échange.


À retenir

  • GPT-Realtime-2 apporte un raisonnement de niveau GPT-5 aux agents vocaux, avec +15,2 % sur Big Bench Audio.
  • Fenêtre de contexte étendue à 128K tokens et latence réduite jusqu’à 40 % via WebSocket bidirectionnel.
  • Effort de raisonnement modulable sur cinq niveaux, de « minimal » à « xhigh ».
  • GPT-Realtime-Translate : traduction instantanée en plus de 70 langues avec préservation du ton.
  • Tarification : environ 27,52 € par million de tokens audio en entrée et 55,04 € en sortie.
  • Sécurité native avec modération temps réel et conformité Zero Data Retention (ZDR).

Un raisonnement continu qui change la donne

Contrairement aux modèles précédents, limités à un schéma question-réponse, GPT-Realtime-2 pense pendant l’échange. Il gère les interruptions naturelles, corrige ses erreurs et lance plusieurs appels d’outils en parallèle.

Des benchmarks qui confirment la progression

Les premiers résultats sont nets : 15,2 % sur Big Bench Audio et 13,8 % sur Audio MultiChallenge, par rapport aux versions précédentes. Ces gains permettent de traiter des scénarios complexes sans perdre la cohérence, même sur des échanges longs.

Utilisateur parlant à son smartphone posé sur un bureau tandis qu’une interface vocale OpenAI affiche une transcription et un signal audio en direct.
Le raisonnement continu de GPT-Realtime-2 permet de gérer interruptions et corrections sans casser le fil de la conversation.

Une multimodalité native

Le modèle combine voix, contexte et actions dans un seul flux. Cette intégration réduit les allers-retours entre services et améliore la qualité perçue de l’agent par l’utilisateur final.

Une architecture pensée pour la conversation réelle

OpenAI a quadruplé la fenêtre de contexte pour l’étendre à 128K tokens. De quoi conserver l’historique complet d’un appel de plusieurs dizaines de minutes sans rupture de mémoire.

Latence réduite grâce à WebSocket et WebRTC

Le passage à un mode bidirectionnel via WebSocket réduit la latence jusqu’à 40 %. Les développeurs peuvent aussi s’appuyer sur WebRTC ou SIP pour des intégrations téléphoniques ou web.

Des niveaux d’effort de raisonnement ajustables

Le modèle propose cinq niveaux d’effort de raisonnement. Les échanges simples restent en mode « minimal » pour conserver une latence sous 500 ms, tandis que les tâches plus complexes activent le niveau « xhigh » sans interrompre la conversation.

Agent de centre d’appels équipé d’un casque téléphonique travaillant devant deux écrans montrant un outil de support client et un site immobilier.
Des entreprises comme Deutsche Telekom et Zillow exploitent déjà GPT-Realtime-2 pour le support multilingue et l’assistance immobilière experte.

Des cas d’usage déjà en production

Plusieurs grands acteurs ont intégré GPT-Realtime-2 dès son lancement. Ces premiers déploiements montrent un passage rapide de la démonstration à l’usage métier.

Service client multilingue chez Deutsche Telekom

L’opérateur teste GPT-Realtime-Translate pour la traduction en temps réel. Chaque participant s’exprime dans sa langue maternelle, tandis que l’agent restitue l’échange de manière naturelle et sans délai perceptible.

Assistance immobilière experte chez Zillow

Zillow a construit un assistant capable d’analyser des recherches complexes et de vérifier en direct la conformité réglementaire locale. Le taux de succès atteint 95 % sur les scénarios les plus difficiles, selon les données internes communiquées par l’entreprise.

Des modèles compagnons pour élargir les usages

GPT-Realtime-Whisper complète l’offre avec une transcription continue à faible latence, utile pour le sous-titrage automatique ou la prise de notes en réunion. L’ensemble forme désormais une base complète pour les usages vocaux professionnels.


Sur le même Thème :

Laisser un commentaire

Trop d’infos IA ?

Inscrivez-vous à la newsletter pour recevoir un résumé hebdomadaire directement dans ta boite email (et rien d’autre)