Le laboratoire chinois MiniMax a créé la surprise le 31 mai 2026 en lançant MiniMax M3, un modèle à poids ouverts qui affiche des performances de premier plan en codage, en multimodalité et en gestion de contexte étendu. Pour la première fois, un modèle accessible publiquement rivalise avec GPT-5.5 d’OpenAI ou Claude 4.7 Opus d’Anthropic sur les bancs d’essai les plus exigeants. L’annonce bouscule l’IA agentique, jusque-là dominée par des API propriétaires.
À retenir
- Premier modèle open-weights à associer codage agentique, contexte d’un million de tokens et multimodalité native.
- Score de 59,0 % sur SWE-Bench Pro, devant GPT-5.5 (58,6 %).
- L’architecture MiniMax Sparse Attention (MSA) accélère le décodage de 15,6x à 1M de tokens.
- Coût de calcul par token réduit à 1/20e par rapport à la génération précédente.
- Distribution immédiate via OpenRouter, l’API officielle et Ollama pour un usage local.
Sans les barrières tarifaires des offres fermées, MiniMax M3 pourrait accélérer l’adoption d’agents autonomes dans les entreprises. C’est aussi une réponse chinoise aux modèles américains dans la course à l’IA utilitaire.
Un modèle ouvert au niveau des champions du code et de la vision
MiniMax M3 ne se contente pas d’égaler les ténors fermés : il les dépasse sur plusieurs indicateurs critiques, tout en restant téléchargeable et modifiable par la communauté.

Des scores éloquents sur les bancs d’essai du codage agentique
Sur SWE-Bench Pro, qui mesure la capacité à résoudre des bugs réels dans du code logiciel, MiniMax M3 obtient 59,0 %, devant GPT-5.5 (58,6 %) et Gemini 3.1 Pro (54,2 %). Sur Terminal Bench 2.1, il atteint 66,0 %, et 74,2 % sur MCP Atlas, qui mesure l’adoption du protocole agentique MCP. La démonstration la plus parlante reste la reproduction autonome d’un article de recherche de la conférence ICLR 2025.
Le modèle a mené tout le cycle, sans intervention humaine.
Extrait du rapport technique de MiniMax
En douze heures, M3 a produit 18 commits et 23 figures expérimentales. Il a aussi travaillé sur l’optimisation matérielle, en améliorant des noyaux CUDA d’un facteur 9,4 sur des GPU Hopper, ce qui montre une bonne maîtrise des architectures de calcul modernes.
L’atout multimodal dès le premier token
Contrairement aux modèles qui ajoutent la vision après un entraînement textuel, MiniMax M3 a été conçu nativement multimodal. Son pipeline « Step Zero » a absorbé plus de 100 000 milliards de tokens mêlant texte, images et vidéos. Résultat : le modèle lit avec précision les diagrammes, les formules ou les interfaces logicielles. Sur BrowseComp, un test de navigation visuelle, il atteint 83,5, un score supérieur à Claude Opus 4.7. Cette aptitude native laisse entrevoir des agents capables d’utiliser un poste de travail complet (Computer Use) en interprétant l’écran et en agissant directement.
MiniMax Sparse Attention, le turbo du contexte à un million de tokens
Le deuxième pilier de M3, c’est une architecture d’attention pensée pour traiter de très longs documents sans faire grimper les coûts.

Comment l’attention éparse fait chuter les besoins en calcul
L’attention classique compare chaque mot à tous les autres : sa complexité quadratique rend le traitement d’un million de tokens prohibitif. MiniMax Sparse Attention (MSA) s’appuie sur un index léger qui sélectionne uniquement les blocs de clés-valeurs utiles. Les gains sont immédiats : 15,6x d’accélération du décodage et 9,7x du pré-remplissage pour une fenêtre d’un million de tokens. Le coût par token tombe alors à un vingtième de celui du précédent MiniMax M2, ce qui rend le traitement de romans entiers ou de longues vidéos enfin tenable.
Des applications concrètes pour les développeurs d’agents
Les professionnels peuvent confier à M3 l’analyse d’une base de code géante ou d’un manuel technique de 700 pages sans redouter une facture salée. L’API officielle facture 0,30 $ (environ 0,25 €) par million de tokens en entrée et 1,20 $ (1,00 €) en sortie, des prix bas pour un modèle de cette puissance. Avec Ollama, l’exécution locale reste aussi possible, ce qui aide les entreprises régulées à garder leurs données en interne.
Des promesses à confirmer en conditions réelles
Si les chiffres impressionnent, la notion d’open-weights ne veut pas dire transparence totale : le code d’entraînement et les données restent confidentiels. Maintenir une cohérence sur des tâches agentiques de plusieurs heures exigera des validations indépendantes. Enfin, la réglementation chinoise pourrait encadrer certains usages, un paramètre à surveiller pour les déploiements hors de Chine.
Avec M3, MiniMax montre qu’elle peut produire des architectures d’IA à la fois innovantes et économiques, tout en les diffusant largement. Pour les créateurs d’agents autonomes, la boîte à outils gagne un allié redoutable.
















Laisser un commentaire
Vous devez vous connecter pour publier un commentaire.