OpenRouter lance deux endpoints unifiés TTS et STT pour OpenAI, Google & Mistral

·

·

Développeur devant un grand écran affichant l’interface d’OpenRouter avec des formes d’ondes audio pour illustrer les nouveaux endpoints TTS et STT.
Résumer cet article avec :

OpenRouter propose désormais deux endpoints dédiés pour la synthèse vocale (TTS) et la transcription (STT), tout en restant compatible avec le SDK OpenAI. Déployée le 1er mai 2026, cette évolution permet aux développeurs de passer d’un modèle à l’autre, notamment chez OpenAI, Google et Mistral, sans modifier leur code existant. Elle vise à simplifier l’intégration de l’audio dans les applications.


À retenir

  • Lancement le 1er mai 2026 des endpoints /audio/speech (TTS) et /audio/transcriptions (STT).
  • Compatibilité avec le SDK OpenAI et facturation centralisée via crédits OpenRouter.
  • Modèles disponibles : GPT-4o Mini TTS, Gemini 3.1 Flash TTS, Voxtral Mini TTS, Whisper v3 et Chirp 3.
  • Latence de routage autour de 25 ms et option « Bring Your Own Key ».
  • Prise en charge de 70+ langues et du zero-shot voice cloning chez Mistral.

Une seule API pour piloter voix et transcription

OpenRouter simplifie le travail des développeurs qui veulent ajouter l’audio à leurs produits. Au lieu de jongler entre plusieurs SDK et clés API, ils peuvent désormais utiliser deux points de terminaison distincts. Cette architecture unifiée laisse toutefois accès aux modèles les plus utilisés du marché.

Des endpoints pensés pour la production

Le premier endpoint, /api/v1/audio/speech, génère un flux audio au format MP3 ou PCM. Le second, /api/v1/audio/transcriptions, accepte des fichiers encodés en base64 et renvoie le texte transcrit. Les deux points de terminaison utilisent les mêmes identifiants qu’OpenAI, ce qui limite les erreurs lors du basculement.

Ingénieur logiciel travaillant sur une API audio unique, avec le tableau de bord OpenRouter ouvert sur un second écran.
Avec une seule API, les développeurs basculent entre plusieurs modèles de voix et de transcription directement depuis OpenRouter.

Gestion centralisée des accès et de la facturation

OpenRouter regroupe la facturation sur un compte unique, avec une commission de plateforme limitée à 5,5 %. Les équipes n’ont plus à suivre des quotas séparés chez chaque fournisseur. L’option « Bring Your Own Key » reste disponible pour ceux qui préfèrent conserver leurs propres contrats.

Une synthèse vocale qui s’adapte à toutes les langues

La partie TTS d’OpenRouter met à disposition trois modèles principaux. Chacun se distingue par son rendu, son contrôle de l’intonation et sa vitesse d’exécution.

Google et ses 200 balises audio

Gemini 3.1 Flash TTS prend en charge plus de 70 langues et interprète des balises comme [whispers] ou [excited]. Ces marqueurs servent à ajuster le rythme et l’intonation sans post-traitement. Les résultats s’obtiennent en flux continu, ce qui convient à la lecture en temps réel.

Mistral et le clonage en trois secondes

Voxtral Mini TTS introduit le zero-shot voice cloning : une phrase de trois secondes suffit à reproduire la voix d’un interlocuteur. Cette fonction ouvre des usages précis dans le doublage, les assistants personnalisés ou la localisation de contenus.

Équipe enregistrant des voix en plusieurs langues dans un studio avec un ordinateur affichant une interface de transcription OpenRouter.
La transcription multilingue d’OpenRouter s’appuie sur plusieurs modèles de pointe pour fiabiliser les flux audio complexes.

Une transcription multilingue enfin fiable

Du côté de la reconnaissance vocale (STT), OpenRouter agrège plusieurs solutions sur une même plateforme. Whisper v3 d’OpenAI, Chirp 3 de Google et les instances rapides de Groq coexistent au même endroit.

Un débruitage intégré chez Google

Chirp 3 propose un denoiser natif qui nettoie les enregistrements réalisés dans des environnements bruyants. Il ajoute automatiquement la ponctuation dans 24 langues et accepte des indices de langue pour améliorer la précision des transcriptions non anglaises.

Des performances adaptées à la production

Les fichiers peuvent être transmis au format WAV, MP3 ou FLAC. La latence globale du routage reste inférieure à 25 ms. Les développeurs peuvent tester l’ensemble directement depuis le Playground mis à jour d’OpenRouter, qui propose désormais des onglets audio dédiés.


Sur le même Thème :

Laisser un commentaire

Trop d’infos IA ?

Inscrivez-vous à la newsletter pour recevoir un résumé hebdomadaire directement dans ta boite email (et rien d’autre)