Alibaba a lancé Qwen3.7-Max le 20 mai 2026 lors de son sommet cloud à Hangzhou. Ce modèle, strictement propriétaire, sert de base aux agents autonomes de nouvelle génération. Pour Alibaba, c’est un vrai changement de cap : le groupe s’éloigne de l’approche open-weights de ses prédécesseurs comme Qwen 2.5 ou 3.6.
À retenir
- Qwen3.7-Max est le premier grand modèle phare d’Alibaba entièrement propriétaire, pensé pour les agents autonomes.
- Il prend en charge une fenêtre de contexte de 1 million de tokens et se montre solide sur le code comme sur les tâches longues.
- Son architecture hybride Mixture-of-Experts, avec Gated DeltaNet, améliore l’efficacité sur les longs contextes.
- Disponible via OpenRouter, il se présente comme une alternative plus abordable aux modèles américains, avec un support explicite du prompt caching pour réduire les coûts récurrents.
Ce modèle fermé, accessible uniquement via API, vise directement les systèmes les plus avancés de la Silicon Valley. Il se distingue surtout sur le code et l’automatisation complexe. Son architecture hybride et son mode de pensée intégré cherchent à garder une logique stable sur des tâches qui s’étalent sur plusieurs jours.
Lancement stratégique : un modèle « Agent Foundation »
Le 20 mai 2026, lors du sommet Alibaba Cloud à Hangzhou, le groupe a officiellement dévoilé Qwen3.7-Max. Ce lancement marque un changement net. Pour la première fois, Alibaba fait de son modèle phare un produit strictement propriétaire, accessible uniquement via les API d’Alibaba Cloud Model Studio et de la plateforme internationale OpenRouter. Le groupe ne partage plus les poids et mise sur un écosystème fermé.

Alibaba le présente comme une base pour les agents autonomes, avec un usage pensé pour des tâches réelles, longues et complexes. Le groupe parle d’un moteur de « manufacture d’intelligence » destiné à l’industrie technologique chinoise. L’objectif affiché est de tenir tête aux systèmes les plus avancés de la Silicon Valley, comme ceux d’OpenAI ou d’Anthropic, sur des cas d’usage qui demandent de la durée et de la rigueur.
Le modèle intègre aussi un mode « Thinking ». Contrairement à d’autres modèles où la réflexion doit être déclenchée par une instruction, Qwen3.7-Max peut l’activer seul pour conserver ses traces de raisonnement.
Ce modèle ne prédit pas seulement du texte ; il construit et suit un plan.
Un ingénieur cité par VentureBeat
Une sortie qui accélère le rythme d’Alibaba
Arrivé moins de deux mois après la génération précédente, ce modèle montre qu’Alibaba va vite. Le groupe mise sur des cycles courts pour suivre la pression de la concurrence mondiale. Le modèle est déjà disponible sur OpenRouter, ce qui facilite son intégration pour les développeurs internationaux sans les contraintes de conformité géographique directe avec la Chine.
Architecture hybride et spécifications techniques de pointe
Qwen3.7-Max repose sur un système hybride Sparse Mixture-of-Experts (MoE). Pour gérer sa fenêtre de contexte de 1 million de tokens, l’une des plus grandes du marché, Alibaba a combiné des couches d’attention linéaire Gated DeltaNet avec des couches d’attention traditionnelles. Cette approche permet de maintenir des performances élevées tout en limitant la charge de calcul sur de longs contextes.
Cette flexibilité vise surtout les entreprises déjà investies dans d’autres écosystèmes. Une caractéristique notable est sa compatibilité native avec le protocole API d’Anthropic. Les développeurs peuvent ainsi utiliser Qwen3.7-Max comme un remplacement direct dans des outils comme Claude Code, sans réécrire leur intégration. Le modèle supporte également YaRN pour étendre la portée de l’attention si nécessaire.
Des capacités de sortie étendues pour les flux de travail complexes
La capacité de sortie est étendue à 64 000 tokens, ce qui laisse une vraie marge pour le code complexe ou les rapports longs. Le modèle est optimisé pour les processeurs T-Head ZW-M890 PPUs, la puce maison d’Alibaba, bien qu’il reste performant sur des configurations GPU standards. Cela aide à réduire les coûts d’inférence à grande échelle.
Performances de référence : code et autonomie longue
Selon l’Intelligence Index v4.0 d’Artificial Analysis, Qwen3.7-Max obtient 56,6 et se place parmi les cinq meilleurs modèles mondiaux. Le modèle se distingue surtout dans les environnements de terminaux réels, avec un score de 69,7 sur Terminal-Bench 2.0, devant ses concurrents directs comme DeepSeek et Claude. En mathématiques, il devance aussi Claude Opus 4.6 Max avec 44,5 sur le benchmark Apex Math Reasoning.
Cette puissance se voit aussi dans des démonstrations d’autonomie record. Lors d’un test, Qwen3.7-Max a optimisé un noyau d’attention pendant 35 heures d’affilée sans intervention humaine. Durant cette séquence, il a effectué plus de 1 000 appels d’outils et diagnostiqué des erreurs de compilation sur une architecture matérielle inconnue lors de son entraînement. Sur SWE-Verified, il atteint 80,4, presque au niveau de Claude Opus 4.6 Max (80,8).
Une stabilité utile pour les processus automatisés longs
Il se distingue aussi sur les benchmarks d’automatisation de bureau comme MCP-Atlas, avec un score de 76,4. La précision de ses appels de fonctions (BFCL-V4 à 75,0) aide à garder des processus automatisés stables sur la durée. Ces résultats suggèrent que Qwen3.7-Max ne se limite pas à générer du texte. Il suit aussi des flux de travail opérationnels, ce qui compte pour des agents chargés de missions complexes.
Économie du modèle : tarification agressive et prompt caching
Sur le plan financier, Alibaba adopte une tarification agressive pour attirer les charges de travail d’entreprise. Sur OpenRouter, Qwen3.7-Max est proposé à 2,13 € par million de tokens en entrée et 6,38 € en sortie (conversion depuis 2,50 $ et 7,50 $). Cette tarification le place comme une alternative économique aux modèles de pointe d’OpenAI et d’Anthropic tout en restant compétitif sur les capacités de raisonnement.

Le vrai plus pour les développeurs, c’est le support du cache de prompt explicite (Explicit Prompt Caching). Cette fonctionnalité permet de ne payer que 0,21 € (10 % du prix d’entrée) pour les données déjà traitées lors de tours précédents, avec un TTL (Time-to-Live) de 5 minutes. Bien que l’écriture initiale du cache soit facturée à 2,66 € (125 % du tarif normal), l’économie devient vite importante pour des agents qui reviennent des centaines de fois sur le même codebase.
Pour un flux de travail de débogage itératif, le coût peut être divisé par dix.
Un analyste cité par Alibaba Cloud
Une structure tarifaire ciblant les flux de travail complexes
Cette structure pousse à utiliser le mode Deep Thinking avec parcimonie, puisque les jetons de pensée sont facturés au tarif standard. Alibaba le dit clairement : ce modèle n’est pas un produit de masse, mais un moteur de raisonnement haut de gamme. La disponibilité via OpenRouter simplifie l’intégration sans les contraintes de conformité géographique directe avec la Chine, un point important pour les développeurs occidentaux.
Un modèle fermé dans un monde ouvert : le contrepoint à considérer
Le principal frein reste son caractère strictement propriétaire. Contrairement à la tendance récente des géants de la tech vers davantage d’open-source ou de modèles « ouvertement accessibles », Alibaba fait le choix inverse avec Qwen3.7-Max. Cette fermeture limite les possibilités de recherche indépendante, de personnalisation locale et d’intégration dans des projets communautaires. Pour les entreprises soucieuses de souveraineté numérique ou souhaitant modifier le modèle en profondeur, cette approche peut être un frein.
Pour autant, Alibaba mise sur la facilité d’intégration via les API et sur la performance brute pour séduire les grands comptes. Le modèle est présenté comme une infrastructure de production. « Nous fournissons un moteur de raisonnement fiable et puissant, que les entreprises peuvent brancher directement à leurs systèmes », a déclaré un responsable produit. Cette stratégie rappelle celle d’OpenAI avec GPT-4, qui privilégie le contrôle et la monétisation via des services cloud plutôt que la diffusion large des poids du modèle.
En faisant de Qwen3.7-Max une base pour la prochaine génération d’agents, Alibaba ne propose pas seulement un modèle de langage, mais une direction très nette pour l’automatisation. Avec sa fenêtre de contexte massive, son mode de pensée intégré et ses résultats solides sur les tâches longues, il résume l’ambition chinoise de compter dans l’ère post-conversationnelle. La bataille des agents est lancée, et Qwen3.7-Max en est déjà l’un des premiers symboles.
















Laisser un commentaire
Vous devez vous connecter pour publier un commentaire.