À Shanghai, une jeune pousse baptisée Stepfun bouscule la hiérarchie de l’IA générative chinoise, en misant à la fois sur des modèles géants et sur leur déploiement massif dans les terminaux du quotidien. Fondée en avril 2023 par Jiang Daxin et désormais présidée par Yin Qi, l’entreprise a franchi un cap en janvier 2026 avec une levée de fonds Série B+ de 5 milliards de yuans, tout en accélérant sa stratégie “AI + Terminals”. Au-delà de l’annonce, le message est net : la compétition ne se jouera pas seulement sur les benchmarks, mais aussi dans les smartphones, les voitures et les puces.
À retenir
- Stepfun (Shanghai Jieyue Xingchen) a été fondée en avril 2023 à Shanghai par Jiang Daxin (ex-Microsoft/MSRA).
- En janvier 2026, l’entreprise a bouclé une levée de fonds Série B+ de 5 milliards de yuans (≈ 719 M$, soit ≈ 618 M€).
- Positionnement : l’un des “Six Petits Tigres” de l’IA chinoise, avec une trajectoire visant une IPO à Hong Kong.
- Modèles phares : Step-2 (seuil du trillion de paramètres), Step-1.5V (multimodalité), Step-3 (raisonnement multimodal), Step-3.5 Flash (open source, Apache 2.0).
- Choix technique clé : Mixture of Experts (MoE), une architecture qui n’active qu’une partie du modèle, pour gagner en efficacité.
- Déploiement : plus de 42 millions d’appareils, couvrant 60% des grandes marques de smartphones chinoises (dont Oppo, Honor, ZTE).
- Automobile : partenariat avec Geely sur AgentOS et le smart cockpit, objectif annoncé de plus d’un million de véhicules équipés d’ici fin 2026.
- Souveraineté : alliance “modèle-puce” avec Huawei, Biren Technology, Moore Threads pour optimiser l’IA sur des puces locales.
- Point de vigilance : la course à l’AGI se joue aussi sur l’écosystème matériel et les développeurs, pas uniquement sur la taille des modèles.
Un tigre de plus dans l’arène des modèles chinois
Si vous cherchez le signal faible qui devient signal fort, regardez du côté de Shanghai : Stepfun a transformé une trajectoire de startup en trajectoire d’infrastructure en moins de trois ans. Cette montée en puissance accélère la recomposition du marché chinois de l’IA générative.
Du laboratoire à l’usine : la méthode Jiang Daxin
Stepfun, de son nom complet Shanghai Jieyue Xingchen Intelligent Technology, naît en avril 2023. À sa tête, Jiang Daxin, passé par Microsoft et le Microsoft Research Asia (MSRA). Autrement dit, une culture d’ingénierie qui combine recherche de pointe et mise en production rapide.
Ce positionnement pèse lourd dans l’IA générative. La différence entre un modèle impressionnant et un produit utile tient souvent à des paramètres concrets : latence, coûts d’inférence, intégration dans des systèmes existants, cadence de mise à jour. Stepfun s’est constituée comme une équipe qui veut livrer des services stables, pas seulement publier des articles scientifiques.

Une Série B+ hors norme, et un objectif clair
En janvier 2026, Stepfun boucle une levée de fonds Série B+ de 5 milliards de yuans, annoncée à environ 719 millions de dollars (soit environ 618 millions d’euros au taux de conversion de 0,86). Le tour attire des investisseurs privés majeurs et des acteurs publics, et fait basculer l’entreprise dans une autre catégorie : celle des organisations capables de financer durablement calcul, talents, données et distribution.
À ce niveau, le capital ne sert plus uniquement à pousser une application, il soutient une base technologique destinée à durer. Stepfun affiche d’ailleurs une trajectoire vers une IPO à Hong Kong. Ce n’est plus un sprint de croissance, mais un projet d’industrialisation assumé.
Les “Six Petits Tigres” : compétition interne, enjeu global
Dans le paysage chinois, Stepfun est souvent rangée parmi les “Six Petits Tigres”. L’étiquette a une dimension marketing, mais la réalité derrière est celle d’un peloton de sociétés qui cherchent à devenir des plateformes centrales, capables de fournir modèles, outils et écosystèmes à grande échelle.
Pourquoi cela concerne la France et l’Europe ? Parce que l’IA est devenue une chaîne de valeur complète. Lorsqu’un acteur maîtrise à la fois les modèles, les déploiements et les partenariats industriels, il influence les standards de fait : formats, interfaces, pratiques de développement, et même les attentes des utilisateurs finaux.
Le pari du très grand modèle… sans exploser la facture
La taille ne fait pas tout, mais elle reste un indicateur rapide de puissance. Stepfun l’a compris, tout en cherchant à éviter le piège classique : des modèles géants brillants sur le papier, mais impossibles à servir à grande échelle.
Step-2 : le trillion de paramètres comme seuil symbolique
Le modèle phare, Step-2, atteint le seuil du trillion de paramètres. Concrètement, un “paramètre” est un réglage interne appris pendant l’entraînement. Plus il y en a, plus le modèle peut capturer des régularités complexes, mais plus il coûte cher à entraîner et à exécuter au quotidien.
Le cap du trillion est donc à la fois technique et narratif. Il signifie : “nous jouons dans la cour des très grands”. Reste la question centrale, moins spectaculaire : non pas “combien de paramètres”, mais “avec quelle efficacité opérationnelle”.
MoE : un peu comme une entreprise où seuls les bons experts répondent
Step-2 s’appuie sur une architecture Mixture of Experts (MoE). L’idée : au lieu d’activer tout le réseau à chaque requête, le modèle sélectionne certains “experts” spécialisés. C’est un peu comme une entreprise où, pour chaque dossier, vous ne mobilisez pas tout le siège social : vous routez la demande vers les équipes compétentes.
Concrètement, cette approche porte une promesse d’efficacité : de bonnes performances perçues, sans multiplier mécaniquement les coûts d’inférence. Pour une IA destinée à un déploiement de masse sur des terminaux variés, cette maîtrise des coûts de calcul devient une condition de survie.
Multimodalité et agents : la gamme Step se diversifie
La famille de modèles s’étend désormais au-delà du texte. Step-1.5V cible la multimodalité (texte + image, et plus largement la combinaison de plusieurs types de données). Step-3 vise le raisonnement multimodal avec 321 milliards de paramètres, tandis que Step-3.5 Flash est présenté comme un modèle optimisé pour les agents d’IA et publié en open source sous licence Apache 2.0.
À noter aussi : Step-2-16k s’est classé 5e mondial sur LiveBench, devançant plusieurs rivaux domestiques. Ce type de classement n’est jamais une vérité absolue, mais il sert de thermomètre : Stepfun ne se contente pas de déployer ses modèles, elle cherche aussi à tenir son rang dans les comparaisons publiques.
“AI + Terminals” : quand le modèle quitte le cloud
Le mouvement le plus structurant de Stepfun n’est peut-être pas la taille de Step-2, mais sa stratégie “AI + Terminals” : installer l’IA là où se trouve l’utilisateur, pas uniquement dans les data centers.

42 millions d’appareils : la distribution comme avantage compétitif
Stepfun annonce déjà plus de 42 millions d’appareils équipés, couvrant 60% des grandes marques de smartphones chinoises, dont Oppo, Honor et ZTE. Ce volume constitue un levier majeur de distribution et de collecte de retours d’usage.
Pour un lecteur français, la comparaison utile est celle des assistants vocaux ou des systèmes d’exploitation. Une fois que vous êtes intégré par défaut dans le terminal, vous n’êtes plus une simple fonctionnalité : vous devenez une couche logicielle. Et cette couche crée des coûts de sortie, des routines d’usage, des données d’interaction et des marges de manœuvre pour ajuster en continu les modèles.
Geely, AgentOS et le smart cockpit : l’IA comme copilote
Dans l’automobile, Stepfun collabore avec Geely pour alimenter AgentOS et des smart cockpits, notamment sur des modèles cités comme le Galaxy M9. L’objectif annoncé est un déploiement dans plus d’un million de véhicules d’ici fin 2026, un jalon qui placerait ses agents dans un volume significatif de voitures connectées.
Ici encore, l’enjeu est celui de la position dans la chaîne de valeur. Le cockpit intelligent, c’est l’équivalent d’un smartphone sur roues : interface, commandes, recommandations, et demain, agents capables d’enchaîner des tâches. Celui qui contrôle la couche “agent” contrôle une partie de l’expérience de conduite, mais aussi une part des services à forte marge qui l’accompagnent.
Edge computing et vision-language-action : vers des agents qui agissent
Stepfun travaille aussi sur des modèles “vision-language-action” : des systèmes capables de percevoir (vision), de comprendre ou d’instruire (langage) et d’exécuter (action). La logique est claire : l’agent ne doit pas seulement répondre, il doit accomplir des tâches à la place de l’utilisateur.
C’est là que l’edge computing prend de l’ampleur. Au lieu d’envoyer chaque requête dans le cloud, une partie du calcul peut se faire localement, sur le terminal. Cela réduit la latence, améliore la réactivité et limite certains risques liés au transfert de données sensibles. En contrepartie, cela impose une discipline d’ingénierie : modèles plus efficaces, intégrations matérielles précises et arbitrages permanents entre qualité perçue et coût.
Souveraineté, open source et bataille des écosystèmes
On parle souvent de “modèles”, mais la souveraineté se joue sur un triptyque : modèles, puces, développeurs. Stepfun semble l’avoir intégré dans sa feuille de route et dans ses alliances industrielles.
L’alliance modèle-puce : faire tourner l’IA sur du matériel local
En 2025, Stepfun a lancé la Model-Chip Ecosystem Innovation Alliance avec des partenaires comme Huawei, Biren Technology et Moore Threads. L’objectif affiché : optimiser les modèles Step pour des puces domestiques et réduire la dépendance vis-à-vis des technologies étrangères.
Un grand modèle n’est pas seulement du code. C’est du code qui doit rester performant sur une génération précise de GPU ou d’accélérateurs, avec des bibliothèques adaptées, des pilotes, des outils de compilation et des choix d’architecture (comme le MoE) qui influencent directement le matériel requis. Dans ce contexte, l’alliance ressemble moins à un club qu’à une chaîne d’industrialisation coordonnée.
Starry Plan : la traction par la communauté
Avec son Starry Plan, Stepfun dit vouloir soutenir des startups et développeurs indépendants. L’intuition est claire : une IA utilisée comme plateforme dépend de son écosystème, de la documentation aux SDK, en passant par les modèles dérivés, les outils d’évaluation, les connecteurs et les retours de terrain.
Les cas d’usage décisifs ne naissent pas toujours dans les grands groupes. Ils émergent souvent chez des équipes petites et rapides, qui bricolent une solution pour un problème très concret : support client, automatisation de processus, aide à la vente, cockpit automobile, robotique, terminaux mobiles. Si Stepfun parvient à capter ces usages, elle captera aussi une partie des standards qui s’imposeront ensuite.
Apache 2.0 et l’open source : ouverture… et accélérateur industriel
Stepfun a ouvert certains de ses modèles en 2025 (dont Step-Video-T2V et Step-Audio) et met en avant Step-3.5 Flash sous licence Apache 2.0. L’open source, dans ce cas, n’est pas un geste altruiste : c’est un accélérateur industriel, avec une adoption plus rapide, des contributions externes, des intégrations facilitées et une diffusion dans des environnements de production variés.
En toile de fond, reste la question de l’AGI. Non pas comme slogan marketing, mais comme direction de travail : des systèmes plus généraux, capables d’enchaîner des tâches, de s’adapter et d’orchestrer des outils. Si l’on suit la trajectoire “AI + Terminals”, une forme d’AGI du quotidien pourrait d’abord ressembler à un agent discret, présent partout, qui exécute des actions pour l’utilisateur sans occuper le devant de la scène.
La prochaine grande confrontation pourrait alors opposer moins des modèles “plus intelligents” que des écosystèmes plus utilisables, plus intégrés et plus faciles à adopter pour les industriels comme pour les développeurs.
Les actus IA de Stepfun :
Découvrez Step-3.5 Flash, le LLM rapide et déployable en local
Step‑3.5 Flash, le nouveau LLM de StepFun, combine une puissance comparable à GPT‑4o avec la rapidité d’un modèle léger grâce à son architecture sparse Mixture of Experts. Lancé début 2026, il répond à la montée en puissance des usages d’automatisation avancée en offrant un coût d’inférence réduit et la possibilité de déploiement local sur du…


Laisser un commentaire
Vous devez vous connecter pour publier un commentaire.