Alors que les laboratoires d’intelligence artificielle chinois s’affrontent dans une course effrénée avant les congés du Nouvel An lunaire, Zhipu AI vient de frapper un grand coup en dévoilant GLM-5, un modèle open source qui pousse plus loin l’agentic engineering. Contrairement à ses prédécesseurs, ce géant de 744 milliards de paramètres ne se contente plus d’imiter l’intelligence humaine : il l’automatise à grande échelle, transformant la programmation approximative – ce que les développeurs appellent le vibe coding – en une ingénierie d’agents capables de s’auto-organiser. Et point clé : ce modèle, entraîné sans une seule puce Nvidia, défie déjà les champions américains sur leur propre terrain, avec un coût d’usage divisé par dix.
À retenir
- GLM-5, le nouveau modèle de Zhipu AI, combine une architecture Mixture-of-Experts (MoE) de 744 milliards de paramètres avec un framework d’apprentissage par renforcement asynchrone baptisé Slime, pour une génération de données flexible et performante.
- Entraîné sur des puces chinoises (Huawei Ascend et Kunlunxin de Baidu) et optimisé pour la DeepSeek Sparse Attention (DSA), il réduit les coûts de déploiement tout en dépassant des modèles comme Claude 4.5 ou Gemini 3 Pro sur plusieurs benchmarks stratégiques.
- Avec un taux d’hallucination historiquement bas (grâce à une stratégie d’abstention) et une capacité à générer directement des fichiers .docx, .pdf ou .xlsx via son Agent Mode, GLM-5 se pose en alternative souveraine et économique aux modèles occidentaux.
- Disponible en open source sous licence MIT, il est proposé sur OpenRouter à un tarif agressif de 0,80 $ à 1,00 $ par million de tokens, soit 5 à 15 fois moins cher que ses concurrents.
- Son lancement intervient dans un contexte géopolitique tendu, où la Chine cherche à réduire sa dépendance aux semi-conducteurs américains, tout en accélérant son autonomie technologique.
Si GLM-5 fait parler de lui aujourd’hui, c’est moins pour ses performances brutes – déjà solides – que pour la manière dont il rebat les cartes d’un écosystème en pleine mutation. D’un côté, des laboratoires américains comme Anthropic ou Google DeepMind misent sur des modèles fermés, ultra-optimisés pour des tâches spécifiques, mais coûteux et opaques. De l’autre, la Chine parie sur l’open source et l’interopérabilité, avec des modèles comme GLM-5 conçus pour être modifiés, combinés et déployés à grande échelle, y compris sur des infrastructures locales.
Ce n’est plus une question de taille du modèle, mais de maîtrise de l’automatisation des workflows.
Yuan Bo, cofondateur de Zhipu AI, lors d’une conférence à Shenzhen
Au cœur de cette stratégie, le framework Slime. Contrairement aux méthodes classiques d’apprentissage par renforcement (RL), qui exigent des ressources massives et des temps d’entraînement très longs, Slime fonctionne de manière asynchrone et découplée. En combinant Megatron (outil d’entraînement distribué) avec SGLang (langage spécialisé pour les grands modèles), il permet de générer des données d’entraînement en continu, sans attendre la convergence complète du modèle. Résultat : GLM-5 a été entraîné sur 28,5 billions de tokens – près de trois fois plus que son prédécesseur GLM-4.5 – dans des délais resserrés.
L’innovation se joue aussi dans l’architecture. Le Mixture-of-Experts (MoE) de GLM-5, avec seulement 40 milliards de paramètres activés à chaque requête (sur 744 milliards au total), réduit drastiquement les coûts de calcul. Grâce à la DeepSeek Sparse Attention (DSA), une technique développée avec l’équipe de DeepSeek, le modèle baisse de près de 40 % les ressources nécessaires pour traiter des contextes longs – un avantage décisif pour l’analyse de documents juridiques, la conformité ou la gestion de bases de données volumineuses.
Nous ne voulons pas seulement un modèle plus intelligent, mais surtout un modèle plus efficace.
Liang Xue, directeur technique de Zhipu AI
Pour Zhipu AI, l’enjeu n’est plus de courir après le plus gros modèle, mais de proposer un système capable d’être déployé partout, y compris sur des serveurs modestes, sans sacrifier les performances. Ce positionnement explique en grande partie l’attention que suscite GLM-5 auprès des entreprises cherchant des solutions industrialisables plutôt qu’un simple démonstrateur technologique.
Un modèle qui exécute, et qui prouve
Les benchmarks sont régulièrement critiqués pour leur côté artificiel, mais ceux de GLM-5 donnent des arguments solides à ses promoteurs. Sur le Vending Bench 2, un test qui simule la gestion autonome d’un distributeur automatique sur un an, le modèle affiche un solde final de 4 432 $. Il se hisse ainsi en tête des modèles open source et se place à seulement quelques longueurs de Claude Opus 4.5, la référence actuelle.

GLM-5 ne répond pas seulement à des questions, il prend des décisions et gère des ressources en continu.
Chen Wei, chercheur à l’Institut des sciences et technologies de Shenzhen
Les résultats restent solides sur des évaluations plus techniques. Avec un score de 77,8 % sur SWE-bench Verified (résolution de bugs et de problèmes de code) et de 56,2 % sur Terminal Bench 2.0 (exécution de commandes système), GLM-5 dépasse Gemini 3 Pro et se rapproche des modèles fermés les plus avancés. Là où ces derniers exigent souvent des infrastructures coûteuses, GLM-5 mise sur sa polyvalence opérationnelle : son Agent Mode génère directement des fichiers .docx, .pdf ou .xlsx et orchestre des sous-agents spécialisés pour des tâches complexes, comme l’automatisation de workflows métiers, la préparation de rapports ou l’analyse prédictive.
Un test mené par Zhipu AI avec un acteur chinois de la logistique illustre ce virage. En pilotant la planification et l’ajustement d’une chaîne d’approvisionnement en temps réel, GLM-5 a permis de réduire les délais de livraison de 22 % et les coûts opérationnels de 15 %, sans intervention humaine directe. Dans ce scénario, le modèle ne se limite pas à assister des opérateurs : il prend des décisions, les justifie et les exécute.
On passe d’une IA assistante à une IA exécutante, capable de prendre la main sur des systèmes critiques.
Wang Jia, directeur R&D chez Pony Alpha
Pour de nombreuses entreprises, cette capacité à piloter des actions de bout en bout – du raisonnement à l’exécution – compte désormais autant que le score sur les benchmarks académiques. C’est sur ce terrain que GLM-5 entend se distinguer face aux géants américains aux modèles fermés.
La souveraineté technologique à prix cassé
Derrière ces performances se joue une stratégie géopolitique assumée. Alors que les restrictions américaines sur l’export de puces Nvidia (comme les H100 et A100) compliquent l’accès aux ressources pour les laboratoires chinois, Zhipu AI a fait le pari de l’autonomie. GLM-5 a été entièrement entraîné sur des puces domestiques : les Huawei Ascend 910B et les Kunlunxin 900 de Baidu. Une première pour un modèle de cette taille.

La conséquence est immédiate sur les prix. Sur OpenRouter, la plateforme d’accès à des modèles d’IA via API, GLM-5 est facturé entre 0,80 $ et 1,00 $ par million de tokens, soit 5 à 15 fois moins cher que Claude Opus 4.5 (12 $/M) ou Gemini 3 Pro (8 $/M). À ce niveau, l’IA générative devient accessible non seulement aux grands groupes, mais aussi à des PME ou des administrations qui ne pouvaient pas absorber les tarifs des modèles américains.
Nous voulons rendre l’IA de pointe abordable, pour que les entreprises locales puissent rivaliser à armes égales.
Yuan Bo, cofondateur de Zhipu AI
Cette autonomie a toutefois ses limites. Zhipu AI reconnaît que les capacités de calcul restent « très tendues », ce qui a conduit l’entreprise à réserver d’abord GLM-5 à ses offres d’abonnement orientées coding. À court terme, cette contrainte pourrait freiner une adoption vraiment massive, notamment hors de Chine, où les attentes en matière de disponibilité et de latence sont élevées.
La Chine dispose des données et de la volonté politique, mais n’a pas encore les infrastructures pour suivre le rythme américain.
James Lewis, expert au Center for Strategic and International Studies (CSIS)
Reste que le signal envoyé est clair : l’ère des modèles souverains open source a commencé. Avec GLM-5, Pékin montre qu’il est possible de combiner coûts maîtrisés, performances élevées et entraînement sur du matériel national. Et ce modèle pourrait n’être qu’une première salve d’une future « guerre des agents », bien plus structurante pour les entreprises que la seule course aux grands modèles de langage.
















