Alibaba lance Tongyi DeepResearch, un agent IA Open-Source musclé

·

·

Tongyi DeepResearch bouleverse le paysage de l'IA mondiale
Résumer cet article avec :

Le 17 septembre 2025, la Chine a marqué un tournant dans la course mondiale à l’intelligence artificielle. Pour la première fois, un modèle de langage chinois, DeepSeek-R1, a fait la couverture de la revue Nature, validant scientifiquement une performance rivalisant avec les géants américains. Deux jours plus tard, Alibaba rendait public Tongyi DeepResearch, un agent IA open-source spécialisé dans la recherche approfondie, capable de surpasser les outils propriétaires d’OpenAI sur des benchmarks clés. Ces avancées, couplées à une architecture Mixture-of-Experts (MoE) optimisant coûts et efficacité, redessinent les rapports de force technologiques — et posent une question pressante : l’ère des agents autonomes est-elle en train de basculer vers l’Asie ?


À retenir

  • 17 septembre 2025 : Publication dans Nature de l’étude sur DeepSeek-R1, premier modèle chinois en couverture et évalué par les pairs.
  • 16-18 septembre 2025 : Alibaba open-source Tongyi DeepResearch, un agent IA spécialisé dans la recherche approfondie, avec une architecture MoE (30,5 milliards de paramètres, dont 3 à 3,3 milliards actifs par token).
  • Performances : Tongyi DeepResearch dépasse OpenAI o3 sur Humanity’s Last Exam (32,9 % vs 24,9 %) et BrowseComp (46,7 % en chinois vs 35,2 % pour Google Gemini).
  • Coûts disruptifs : DeepSeek-V3 développé pour 6 millions de dollars (vs 100+ millions pour GPT-4 en 2023), entraînant une dévalorisation de 600 milliards de dollars pour Nvidia.
  • Open-source : Modèle accessible via Hugging Face (licence Apache-2.0), avec scripts d’inférence et utilitaires d’évaluation inclus.
  • Concurrence : 5 des 10 premiers modèles du classement ChatBot Arena (février 2025) sont chinois (DeepSeek-V3, Qwen2.5-Max, etc.).

Une alternative chinoise qui s’impose

La publication de Tongyi DeepResearch par Alibaba et les résultats de DeepSeek dans Nature ne sont pas des avancées isolées, mais les signes d’un basculement stratégique. Jusqu’ici dominée par les modèles américains — GPT-4o, Claude-3.5-Sonnet ou Gemini —, l’IA générative voit émerger une alternative chinoise, à la fois performante, open-source et économiquement compétitive. Ce changement intervient alors que les agents IA, capables d’agir de manière autonome (réserver un vol, analyser des données financières, ou générer un rapport de recherche), deviennent une priorité industrielle. Pour les entreprises européennes, la question n’est plus seulement technologique, mais géopolitique : faut-il dépendre des solutions américaines, ou miser sur des alternatives comme Tongyi DeepResearch, dont le code et les poids sont librement accessibles ?

Tongyi DeepResearch bouleverse le paysage de l'IA mondiale
Tongyi DeepResearch bouleverse le paysage de l’IA mondiale

L’ascension des agents IA chinois : quand l’open-source bouscule les géants

L’annonce de Tongyi DeepResearch s’inscrit dans une dynamique plus large, où la Chine combine innovation algorithmique, réduction des coûts et stratégie open-source pour contester la suprématie occidentale. Contrairement aux modèles propriétaires comme GPT-4o, ces agents sont conçus pour être déployés localement, sans dépendre d’API coûteuses.

Une architecture Mixture-of-Experts pour des performances optimisées

Tongyi DeepResearch repose sur une architecture MoE (30,5 milliards de paramètres au total, mais seulement 3 à 3,3 milliards activés par token), ce qui permet un débit élevé tout en limitant la consommation énergétique. Cette approche, déjà utilisée par DeepSeek-V3.1, a permis de diviser par 10 les coûts d’entraînement par rapport à GPT-4 (6 millions de dollars vs 100+ millions). Résultat : une efficacité énergétique et financière qui rend ces modèles accessibles à des acteurs moins capitalisés. Le modèle supporte un contexte de 128 000 tokens (soit environ 200 pages de texte), idéal pour des sessions de recherche longues ou des synthèses multi-sources.

Deux modes d’inférence sont proposés :

  • ReAct : Évalue les capacités de raisonnement intrinsèques et l’utilisation d’outils (navigateur, traitement de données).
  • IterResearch « Heavy » : Stratégie de mise à l’échelle au moment du test, avec synthèse contextuelle structurée sur plusieurs tours pour réduire le bruit accumulé.

Des benchmarks qui défient OpenAI et Google

Les performances de Tongyi DeepResearch ont été validées sur plusieurs benchmarks clés, où il surpasse systématiquement les modèles concurrents :

BenchmarkTongyi DeepResearchMeilleur concurrent
Humanity’s Last Exam (HLE)32,9 %24,9 % (OpenAI o3)
BrowseComp (EN)43,4 %
BrowseComp (ZH)46,7 %35,2 % (Google Gemini)
GAIA90,6 %— (Claude 3.5 Sonnet)
WebWalkerQASOTA

Ces résultats s’expliquent par un entraînement spécifique : contrairement aux LLM classiques, Tongyi DeepResearch est conçu dès l’origine comme un agent, avec un fine-tuning supervisé (SFT) et un apprentissage par renforcement (RL) adaptés aux tâches de recherche approfondie. Le laboratoire Tongyi d’Alibaba utilise notamment un moteur de données automatisé générant des trajectoires synthétiques à partir de corpus organisés et de traces d’outils historiques.

Tongyi DeepResearch bouleverse le paysage de l'IA mondiale
Tongyi DeepResearch dépasse les outils propriétaires et ouvre la voie

Une stratégie open-source qui change la donne

Le choix de l’open-source n’est pas anodin. En rendant Tongyi DeepResearch disponible sur Hugging Face (licence Apache-2.0), Alibaba permet aux développeurs d’exécuter le modèle localement, sans dépendre d’API externes. Cette approche contraste avec celle d’OpenAI, dont les agents comme o3 restent propriétaires et inaccessibles à l’étude. Conséquence : une adoption accélérée en Chine, où des acteurs comme DeepSeek ou Manus (un autre agent autonome) bénéficient d’un écosystème favorable, avec des coûts cloud en chute libre (guerre des prix entre Alibaba, Tencent et Baidu).

La guerre des agents IA : enjeux économiques et géopolitiques

Un choc économique pour les acteurs historiques

Le DeepSeek moment, comme l’ont surnommé les analystes, a eu un impact immédiat sur les valorisations boursières. En février 2025, la publication des performances de DeepSeek-V3 (et son coût de développement réduit) a entraîné une perte de 600 milliards de dollars pour Nvidia, dont les puces haut de gamme étaient jusqu’alors indispensables à l’entraînement des LLM. Les investisseurs ont pris acte d’un changement de paradigme : l’IA de pointe n’est plus l’apanage des acteurs capables d’injecter des dizaines de milliards de dollars.

Les modèles chinois occupent désormais la moitié du top 10 du classement ChatBot Arena (février 2025), avec des performances supérieures dans des domaines critiques :

  • Programmation : Qwen2.5-Max (Alibaba) devance GPT-4o et Claude-3.5-Sonnet.
  • Mathématiques : DeepSeek-V3 surpasse Llama-3.1-405B (Meta).
  • Prompts complexes : Manus (agent autonome) revendique un score record sur GAIA.

Vers une souveraineté technologique chinoise ?

La Chine mise sur une intégration verticale de sa filière IA : des modèles open-source comme Tongyi DeepResearch aux puces domestiques optimisées pour le format FP8 (précision réduite mais suffisante pour l’inférence). Cette stratégie vise à réduire la dépendance aux technologies américaines, notamment après les restrictions commerciales sur les semi-conducteurs. DeepSeek-V3.1, présenté comme un premier pas vers l’ère des agents, intègre déjà des optimisations pour les futures puces chinoises.

Pour l’Europe, le défi est double :

  • Accès aux technologies : Les modèles open-source chinois offrent une alternative aux solutions américaines, mais posent des questions de confiance et de sécurité (risque d’espionnage via des backdoors, conformité RGPD).
  • Compétitivité industrielle : Sans acteurs européens capables de rivaliser avec Alibaba ou DeepSeek, le continent pourrait devenir un simple consommateur de technologies conçues ailleurs.

Les risques des agents autonomes : hallucinations et sécurité

Si les agents IA comme Tongyi DeepResearch ou WebWatcher (un autre outil d’Alibaba combinant recherche web, OCR et exécution de code) promettent une automatisation poussée, ils introduisent aussi de nouveaux risques :

  • Hallucinations actives : Un chatbot peut se tromper dans une réponse ; un agent peut réserver un vol incorrect ou exécuter une transaction erronée, avec des conséquences immédiates.
  • Sécurité des actions : Confier à une IA l’accès à des outils (navigateur, base de données, API bancaires) nécessite un niveau de confiance sans précédent. Les benchmarks actuels ne mesurent pas encore ces risques.
  • Complexité des commandes : Traduire une requête humaine vague (« Organise-moi un voyage ») en une séquence d’actions exécutables reste un défi ouvert.

Sur le même Thème :