Thinking Machines Lab lance une IA qui écoute et répond sans latence

·

·

Un utilisateur discute à voix haute avec un ordinateur portable affichant l’IA de Thinking Machines Lab qui répond en temps réel dans un bureau moderne.
Résumer cet article avec :

Thinking Machines Lab, fondée par l’ancienne directrice technique d’OpenAI, Mira Murati, présente ses premiers modèles d’interaction en temps réel. Annoncée le 11 mai 2026, cette technologie permet à l’IA d’écouter, de voir et de répondre sans attendre que l’utilisateur termine sa phrase. L’objectif affiché est simple : rendre les échanges homme-machine aussi fluides qu’une conversation humaine.


À retenir

  • Thinking Machines Lab propose des modèles full-duplex qui traitent l’audio, la vidéo et le texte en continu.
  • Le modèle TML-Interaction-Small atteint une latence de 0,40 seconde, contre 0,57 seconde pour Gemini Live et 1,18 seconde pour GPT-Realtime.
  • Architecture Mixture-of-Experts de 276 milliards de paramètres, dont 12 milliards sont actifs par jeton.
  • Deux cofondateurs clés ont rejoint OpenAI en janvier 2026, fragilisant la jeune structure.
  • Le modèle s’appuie sur des puces Nvidia Vera Rubin sous un accord de puissance électrique atteignant un gigawatt.

Une nouvelle génération d’IA qui ne marque plus de pause

Les systèmes actuels fonctionnent encore, la plupart du temps, comme un talkie-walkie : l’un parle, l’autre attend. Mira Murati et son équipe chez Thinking Machines Lab veulent casser ce schéma. Leur pari repose sur une architecture nativement synchrone capable de traiter l’information par blocs de 200 millisecondes. L’utilisateur peut ainsi interrompre l’IA ou changer de sujet sans qu’elle perde le fil. L’idée est de faire de l’IA un outil plus collaboratif qu’un simple système de réponse différée.

Du tour par tour au flux continu

Les modèles traditionnels découpent la conversation en tours successifs. Dès que l’utilisateur marque une pause, le système commence à générer sa réponse. Thinking Machines remplace ce mécanisme par un traitement parallèle permanent. L’IA analyse les signaux audio, visuels et textuels simultanément et peut ajuster sa trajectoire en temps réel. Cette capacité d’interruption immédiate correspond à ce que les concepteurs appellent les « micro-tours ».

Une latence pensée pour l’usage professionnel

La différence se mesure en dixièmes de seconde. Avec 0,40 seconde de latence moyenne, le modèle TML-Interaction-Small franchit le seuil jugé humainement naturel pour une collaboration fluide. En comparaison, Gemini Live reste à 0,57 seconde et GPT-Realtime à 1,18 seconde, selon les tests FD-bench publiés par l’entreprise. Cette rapidité ouvre la voie à des usages exigeants comme la coédition de documents, l’assistance médicale ou le pilotage d’outils de programmation en direct.

Une architecture conçue pour le raisonnement permanent

Pour tenir la cadence, Thinking Machines a adopté une structure Mixture-of-Experts de grande échelle. Seul un sous-ensemble de paramètres reste actif à chaque instant, ce qui limite la consommation tout en gardant une forte capacité de raisonnement. Le modèle principal traite l’interaction immédiate tandis qu’un second modèle de fond continue d’élaborer des raisonnements plus complexes en arrière-plan.

Audio, vidéo et texte traités dans un même flux

Contrairement aux systèmes qui enchaînent reconnaissance vocale, grand modèle de langage et synthèse vocale, l’approche de Thinking Machines unifie tout le traitement. Les tokens multimodaux circulent dans un flux unique et synchronisé. Cette conception réduit les goulots d’étranglement de bande passante et évite les erreurs accumulées entre les différentes briques logicielles.

MoE et spécialisation dynamique

Les 276 milliards de paramètres sont répartis entre plusieurs experts. Seuls 12 milliards s’activent par token traité. Cette sélection dynamique permet au modèle de mobiliser les bonnes compétences au bon moment tout en conservant une latence très faible. Les premiers tests internes montrent une stabilité maintenue même quand l’utilisateur mobilise simultanément la voix et la caméra.

Les fragilités d’une jeune structure face aux géants

La sortie technique ne masque pas les difficultés internes de Thinking Machines Lab. Deux cofondateurs majeurs, Barrett Zoph et Luke Metz, ont rejoint OpenAI en janvier 2026. Ces départs interviennent alors que l’entreprise cherche à lever jusqu’à 50 milliards de dollars pour financer son prochain cycle de développement. La dépendance aux puces Nvidia Vera Rubin accentue encore sa vulnérabilité logistique.

Preview limité aux partenaires

Le 11 mai, l’entreprise a ouvert une phase de recherche réservée à quelques partenaires sélectionnés. Aucune date de disponibilité grand public n’a été communiquée. Les observateurs s’interrogent sur la capacité de l’entreprise à conserver ses performances une fois les charges d’inférence déportées hors du laboratoire.

Quelle place pour Tinker, l’outil précédent ?

Lancé fin 2025, Tinker proposait une API de fine-tuning efficace via LoRA. Le pivot vers des modèles propriétaires full-duplex marque un changement stratégique net. Ce virage interroge la pérennité de l’offre précédente et la cohérence du portefeuille produit de la jeune société.


Sur le même Thème :

Laisser un commentaire

Trop d’infos IA ?

Inscrivez-vous à la newsletter pour recevoir un résumé hebdomadaire directement dans ta boite email (et rien d’autre)