Alibaba Cloud a marqué un coup d’éclat le 16 février 2026 en dévoilant Qwen 3.5, un modèle d’intelligence artificielle qui repousse les limites de l’efficacité et de l’autonomie des agents IA. Avec une architecture hybride inédite combinant Mixture-of-Experts (MoE) et Gated Delta Networks, ce modèle parvient à activer seulement 17 milliards de paramètres sur les 397 milliards disponibles, tout en égalant – voire en dépassant – des modèles bien plus volumineux comme GPT-5.2 ou Claude 4.5 Opus. Pour la première fois, Qwen 3.5 intègre également une multimodalité native, capable de traiter texte, images, audio et vidéo dans un seul système, avec une fenêtre de contexte étendue à 1 million de tokens. Une performance qui pourrait marquer un tournant pour les entreprises et renforcer la pression sur les géants américains du secteur.
À retenir
- Qwen 3.5 combine une architecture hybride MoE + Gated Delta Networks pour activer seulement 17 milliards de paramètres sur 397 milliards, réduisant coûts et latence sans sacrifier la puissance.
- Il intègre une multimodalité native (texte, images, audio, vidéo) et une fenêtre de contexte de 1 million de tokens, une première pour un modèle grand public.
- Les benchmarks montrent une supériorité en raisonnement (88,7 sur GPQA Diamond) et en vision mathématique (88,6 sur MathVision), malgré un léger retard en codage pur face à GPT-5.2.
- Le modèle est 60 % moins cher à l’inférence et 8 fois plus efficace que son prédécesseur, avec un débit de décodage jusqu’à 19 fois plus rapide pour les tâches longues.
- Alibaba Cloud mise sur l’open source (via Hugging Face) et une adoption massive en Chine, où Qwen a déjà généré 10 millions de commandes en 9 heures grâce à des coupons promotionnels.
- Ce lancement s’inscrit dans une guerre des IA en Chine, où ByteDance (avec Doubao) et DeepSeek dominent, mais où Alibaba entend regagner des parts de marché via l’efficacité et l’interopérabilité.
Si Qwen 3.5 fait sensation, c’est d’abord parce qu’il répond à un besoin criant : rendre l’IA accessible, puissante et économique pour les entreprises et les développeurs. Jusqu’ici, les modèles les plus performants – comme ceux d’OpenAI ou d’Anthropic – exigeaient des infrastructures coûteuses et une expertise pointue pour être déployés à grande échelle. Avec Qwen 3.5, Alibaba Cloud casse cette barrière en proposant une solution 60 % moins chère à l’inférence et 8 fois plus efficace que sa version précédente. Ce changement de cap pourrait bien redéfinir la manière dont les entreprises intègrent l’IA dans leurs workflows, surtout en Asie, où la concurrence est déjà intense.
Mais l’innovation ne se limite pas à l’efficacité. Pour la première fois, un modèle grand public intègre une multimodalité native grâce à une technique appelée early fusion. Contrairement aux approches traditionnelles qui traitent chaque modalité (texte, image, audio) séparément avant de les fusionner, Qwen 3.5 les combine dès l’entraînement. Il peut ainsi analyser une vidéo de deux heures, en extraire des informations clés et générer une réponse contextualisée, en quasi temps réel. Cette capacité ouvre la voie à des usages concrets comme l’analyse automatique de réunions vidéo, la traduction en direct de contenus multimédias, ou encore l’automatisation de tâches complexes dans des environnements visuels, par exemple en maintenance industrielle.
Autre atout majeur : sa fenêtre de contexte de 1 million de tokens. Pour mettre cela en perspective, un token représente environ trois quarts de mot. Qwen 3.5 peut donc traiter des documents de plus de 750 000 mots – soit l’équivalent de plusieurs romans – en une seule fois, sans perte de cohérence. Une performance qui le place au-dessus des modèles disponibles aujourd’hui, devant des concurrents comme GPT-5.2 (32 000 tokens) ou Claude 4.5 Opus (200 000 tokens). Cette capacité intéresse particulièrement la recherche juridique, la finance (analyse de rapports volumineux) ou encore l’éducation, où les modèles doivent assimiler de grands volumes de données hétérogènes.
Une architecture hybride pour concilier puissance et efficacité
Derrière les performances de Qwen 3.5 se trouve une architecture hybride avancée, combinant deux techniques de pointe : le Mixture-of-Experts (MoE) et les Gated Delta Networks. Ces deux approches, souvent utilisées séparément, sont ici fusionnées pour créer un système à la fois puissant et économe en ressources, ce qui en fait un candidat crédible pour des déploiements massifs en production.

Le Mixture-of-Experts : diviser pour mieux régner
Le principe du MoE est simple : au lieu d’utiliser l’intégralité d’un modèle (comme les 397 milliards de paramètres de Qwen 3.5), on le divise en plusieurs experts spécialisés, chacun géré par un sous-ensemble de paramètres. Lors d’une requête, seul un petit nombre de ces experts est activé, en fonction de la tâche. Dans le cas de Qwen 3.5, cela signifie que seuls 17 milliards de paramètres sont utilisés par passage, contre 397 milliards pour un modèle dense classique. Résultat : une réduction marquée des coûts de calcul (jusqu’à environ 70 % de VRAM en moins) et une latence parfois divisée par dix selon les scénarios.
Cette approche n’est pas totalement nouvelle – des modèles comme Switch Transformers (Google) ou DeepSpeed-MoE (Microsoft) l’exploitent déjà. Mais Qwen 3.5 pousse le concept plus loin en ajustant dynamiquement le nombre d’experts activés selon la complexité de la requête. Une question triviale (« Quel temps fait-il à Paris ? ») n’activera que quelques experts, tandis qu’une tâche complexe, comme l’analyse d’un contrat juridique de 50 pages, mobilisera une partie bien plus large du réseau. Cette flexibilité permet de maintenir un haut niveau de performance tout en évitant le gaspillage de ressources.
Les Gated Delta Networks : une attention linéaire pour plus d’efficacité
Si le MoE réduit la charge de calcul globale, les Gated Delta Networks – une forme d’attention linéaire – optimisent la façon dont le modèle traite les séquences. Les transformers classiques reposent sur une attention quadratique, dont le coût augmente fortement avec la longueur de l’entrée, ce qui limite la taille de la fenêtre de contexte. Les Gated Delta Networks, à l’inverse, utilisent une attention dont le coût croît de manière linéaire, ce qui permet de traiter des séquences beaucoup plus longues, comme le million de tokens pris en charge par Qwen 3.5, sans explosion des coûts.
Concrètement, cette technique repose sur deux mécanismes clés :
- Un gating dynamique : le modèle décide en temps réel quelles parties de l’attention doivent être calculées finement et lesquelles peuvent être simplifiées.
- Des delta networks : des sous-réseaux légers qui affinent les sorties des experts, sans alourdir significativement le modèle.
Au bout de la chaîne, Qwen 3.5 se montre capable de décoder jusqu’à 19 fois plus vite que Qwen 3-Max pour les tâches à long contexte, tout en maintenant une précision élevée. Cette caractéristique en fait un outil pertinent pour des agents IA autonomes qui doivent digérer des flux continus de données, comme des logs système, des transcriptions audio ou des flux de capteurs industriels.
Une multimodalité native grâce à l’early fusion
L’une des innovations les plus marquantes de Qwen 3.5 tient à son approche de la multimodalité. Jusqu’ici, la plupart des modèles traitaient chaque type de données (texte, image, audio) séparément avant de les rassembler. Qwen 3.5, lui, utilise l’early fusion : toutes les modalités sont intégrées dès l’entraînement, comme si le modèle raisonnait en combinant naturellement texte, images et sons dans un même espace.
Cette approche présente plusieurs avantages opérationnels :
- Une meilleure compréhension contextuelle : le modèle peut, par exemple, analyser une vidéo en tenant compte à la fois des sous-titres, des expressions faciales et de l’environnement sonore.
- Une latence réduite : il n’est plus nécessaire de traiter chaque modalité séparément avant de les assembler dans une étape coûteuse.
- Des capacités d’inférence plus riches : le modèle peut générer des réponses qui combinent plusieurs types de données, comme résumer une vidéo en texte tout en produisant une image explicative.
Alibaba Cloud cite notamment l’exemple d’un agent visuel autonome capable de :
- Identifier un problème sur une machine industrielle à partir d’une simple image.
- Consulter un manuel technique (texte) pour trouver la bonne procédure de réparation.
- Générer des instructions pas à pas, accompagnées de schémas ou d’images annotées.
- Envoyer une alerte en cas d’urgence, avec un résumé vocal destiné aux opérateurs sur le terrain.
Un tel niveau d’intégration ouvre la voie à des automatisations bien plus poussées que ce que permettent la plupart des modèles actuels, où texte et image restent souvent gérés comme des canaux séparés.
Des benchmarks impressionnants, mais des limites à relativiser
Qwen 3.5 ne se contente pas d’annonces ambitieuses : les benchmarks publiés par Alibaba Cloud le placent au niveau des modèles les plus avancés, voire devant eux sur certains indicateurs. Ces chiffres restent toutefois à interpréter avec prudence, tant les conditions de test et les cas d’usage réels peuvent diverger.

Un leader en raisonnement et en vision, mais un retard en codage
Les tests indiquent que Qwen 3.5 excelle dans deux domaines clés :
- Le raisonnement complexe : avec un score de 88,7 sur GPQA Diamond, un benchmark qui évalue la capacité à résoudre des problèmes de niveau doctoral, il devance GPT-5.2 (87,2) et Claude 4.5 Opus (86,8). De quoi en faire l’un des modèles les plus solides pour l’analyse de données exigeante ou la planification stratégique.
- La vision mathématique : avec 88,6 sur MathVision, il surpasse ses concurrents pour résoudre des problèmes mathématiques présentés sous forme d’images, comme l’interprétation de graphiques ou d’équations manuscrites. Un atout pour l’éducation avancée ou certains domaines de la recherche.
En revanche, Qwen 3.5 affiche un léger retard en codage pur, avec un score de 68,3 sur LiveCodeBench, contre 72,1 pour GPT-5.2. L’écart peut sembler limité, mais il compte pour les équipes techniques qui s’appuient au quotidien sur ces outils. Alibaba Cloud tente de combler cette faiblesse avec Qwen Code, un module spécialisé dans l’automatisation de bases de code, qui reste toutefois moins mature que des solutions dédiées comme GitHub Copilot.
Une domination sur les tâches multimodales et le suivi d’instructions
Sur les tâches mêlant instructions complexes et données multimodales, Qwen 3.5 se distingue nettement. Avec un score de 76,5 sur IFBench, un benchmark qui mesure la capacité à suivre des consignes longues et détaillées, il surpasse GPT-5.2 (74,1) et Claude 4.5 Opus (73,8). Cette performance est clé pour les agents IA autonomes, qui doivent souvent enchaîner plusieurs actions complexes – par exemple : « Analyse ce rapport, extrais les tendances, génère un tableau et envoie un email résumé à l’équipe. »
En multimodalité, Qwen 3.5 se positionne comme l’un des meilleurs modèles grand public disponibles. Alors que des modèles comme GPT-4o ou Gemini 1.5 Pro commencent à intégrer des capacités multimodales, Qwen 3.5 va plus loin avec une intégration native, plutôt qu’un assemblage de briques séparées. Il peut par exemple :
- Analyser une vidéo de deux heures et en extraire les moments clés, avec transcription, synthèse et analyse des émotions.
- Générer un rapport visuel complet, combinant texte, graphiques et images à partir d’un jeu de données brutes.
- Assister un médecin en confrontant images médicales, dossiers patients (texte) et enregistrements audio de consultation pour proposer des pistes de diagnostic.
Cette polyvalence en fait un candidat sérieux pour les secteurs où l’analyse croisée de données hétérogènes est devenue indispensable, comme la santé, la finance ou certaines branches de la recherche scientifique.
Un modèle open source qui bouscule les géants américains
Au-delà de la performance brute, le choix d’un modèle open source – Qwen 3.5-Open-Source – pourrait être l’arme la plus décisive d’Alibaba. Disponible sur Hugging Face, il permet aux développeurs et aux entreprises de déployer le modèle sur leurs propres infrastructures, sans dépendre uniquement des API payantes d’OpenAI ou d’Anthropic. Cette approche séduit particulièrement en Chine, où la souveraineté technologique est devenue un enjeu stratégique.
Les indicateurs d’adoption sont parlants :
- En décembre 2025, les téléchargements de Qwen sur Hugging Face ont dépassé ceux de tous les autres modèles ouverts réunis.
- La version Qwen 3.5-Plus, hébergée sur Alibaba Cloud Model Studio, est compatible avec les API d’OpenAI et d’Anthropic, ce qui simplifie son intégration pour les entreprises déjà familières de ces standards.
- La campagne de lancement en Chine, combinant coupons d’achat et intégration dans l’écosystème Alibaba, a généré 10 millions de commandes en 9 heures, au point de provoquer des pannes temporaires de serveurs.
Cette adoption éclair s’explique par plusieurs leviers :
- Un coût réduit : avec une efficacité de 3,5 à 7 fois supérieure à la génération précédente, Qwen 3.5 permet à de nombreux clients de diviser par deux ou trois leurs dépenses en IA.
- Une interopérabilité avancée : grâce à sa compatibilité avec les API les plus répandues, le modèle peut être intégré sans refonte majeure des systèmes, un critère décisif pour les grandes organisations.
- Un écosystème ouvert : les développeurs peuvent modifier, affiner et optimiser le modèle pour leurs propres cas d’usage, une flexibilité encore rare chez les géants américains.
Pour Alibaba Cloud, la feuille de route est claire : devenir le standard des modèles open source en Asie, puis étendre progressivement cette présence en Europe et aux États-Unis. Une stratégie susceptible d’ébranler la domination d’OpenAI et d’Anthropic, surtout si les entreprises cherchent à réduire leur dépendance aux clouds américains pour des raisons de coûts ou de réglementation.

















Laisser un commentaire
Vous devez vous connecter pour publier un commentaire.