MiniMax M3 dépasse GPT-5.5 sur SWE-Bench Pro en open-weights

·

·

Laboratoire d’intelligence artificielle en Chine avec de grands écrans affichant des visualisations de réseaux de neurones et le logo MiniMax, des ingénieurs travaillant sur le modèle open-weights MiniMax M3.
Résumer cet article avec :

Le laboratoire chinois MiniMax a créé la surprise le 31 mai 2026 en lançant MiniMax M3, un modèle à poids ouverts qui affiche des performances de premier plan en codage, en multimodalité et en gestion de contexte étendu. Pour la première fois, un modèle accessible publiquement rivalise avec GPT-5.5 d’OpenAI ou Claude 4.7 Opus d’Anthropic sur les bancs d’essai les plus exigeants. L’annonce bouscule l’IA agentique, jusque-là dominée par des API propriétaires.


À retenir

  • Premier modèle open-weights à associer codage agentique, contexte d’un million de tokens et multimodalité native.
  • Score de 59,0 % sur SWE-Bench Pro, devant GPT-5.5 (58,6 %).
  • L’architecture MiniMax Sparse Attention (MSA) accélère le décodage de 15,6x à 1M de tokens.
  • Coût de calcul par token réduit à 1/20e par rapport à la génération précédente.
  • Distribution immédiate via OpenRouter, l’API officielle et Ollama pour un usage local.

Sans les barrières tarifaires des offres fermées, MiniMax M3 pourrait accélérer l’adoption d’agents autonomes dans les entreprises. C’est aussi une réponse chinoise aux modèles américains dans la course à l’IA utilitaire.

Un modèle ouvert au niveau des champions du code et de la vision

MiniMax M3 ne se contente pas d’égaler les ténors fermés : il les dépasse sur plusieurs indicateurs critiques, tout en restant téléchargeable et modifiable par la communauté.

Équipe de développeurs dans un open space devant plusieurs écrans remplis de code flouté et d’images, représentant les performances de MiniMax M3 en codage agentique et en vision multimodale.
MiniMax M3 égale ou dépasse les modèles fermés sur des bancs d’essai comme SWE-Bench Pro ou BrowseComp, en codage comme en vision.

Des scores éloquents sur les bancs d’essai du codage agentique

Sur SWE-Bench Pro, qui mesure la capacité à résoudre des bugs réels dans du code logiciel, MiniMax M3 obtient 59,0 %, devant GPT-5.5 (58,6 %) et Gemini 3.1 Pro (54,2 %). Sur Terminal Bench 2.1, il atteint 66,0 %, et 74,2 % sur MCP Atlas, qui mesure l’adoption du protocole agentique MCP. La démonstration la plus parlante reste la reproduction autonome d’un article de recherche de la conférence ICLR 2025.

Le modèle a mené tout le cycle, sans intervention humaine.
Extrait du rapport technique de MiniMax

En douze heures, M3 a produit 18 commits et 23 figures expérimentales. Il a aussi travaillé sur l’optimisation matérielle, en améliorant des noyaux CUDA d’un facteur 9,4 sur des GPU Hopper, ce qui montre une bonne maîtrise des architectures de calcul modernes.

L’atout multimodal dès le premier token

Contrairement aux modèles qui ajoutent la vision après un entraînement textuel, MiniMax M3 a été conçu nativement multimodal. Son pipeline « Step Zero » a absorbé plus de 100 000 milliards de tokens mêlant texte, images et vidéos. Résultat : le modèle lit avec précision les diagrammes, les formules ou les interfaces logicielles. Sur BrowseComp, un test de navigation visuelle, il atteint 83,5, un score supérieur à Claude Opus 4.7. Cette aptitude native laisse entrevoir des agents capables d’utiliser un poste de travail complet (Computer Use) en interprétant l’écran et en agissant directement.

MiniMax Sparse Attention, le turbo du contexte à un million de tokens

Le deuxième pilier de M3, c’est une architecture d’attention pensée pour traiter de très longs documents sans faire grimper les coûts.

Chercheur en IA dans un datacenter devant un écran ultra-large affichant un très long document flouté et des visualisations de type cartes d’attention, symbolisant un contexte d’un million de tokens.
MiniMax Sparse Attention permet à M3 de gérer des contextes d’un million de tokens tout en divisant fortement le coût par token.

Comment l’attention éparse fait chuter les besoins en calcul

L’attention classique compare chaque mot à tous les autres : sa complexité quadratique rend le traitement d’un million de tokens prohibitif. MiniMax Sparse Attention (MSA) s’appuie sur un index léger qui sélectionne uniquement les blocs de clés-valeurs utiles. Les gains sont immédiats : 15,6x d’accélération du décodage et 9,7x du pré-remplissage pour une fenêtre d’un million de tokens. Le coût par token tombe alors à un vingtième de celui du précédent MiniMax M2, ce qui rend le traitement de romans entiers ou de longues vidéos enfin tenable.

Des applications concrètes pour les développeurs d’agents

Les professionnels peuvent confier à M3 l’analyse d’une base de code géante ou d’un manuel technique de 700 pages sans redouter une facture salée. L’API officielle facture 0,30 $ (environ 0,25 €) par million de tokens en entrée et 1,20 $ (1,00 €) en sortie, des prix bas pour un modèle de cette puissance. Avec Ollama, l’exécution locale reste aussi possible, ce qui aide les entreprises régulées à garder leurs données en interne.

Des promesses à confirmer en conditions réelles

Si les chiffres impressionnent, la notion d’open-weights ne veut pas dire transparence totale : le code d’entraînement et les données restent confidentiels. Maintenir une cohérence sur des tâches agentiques de plusieurs heures exigera des validations indépendantes. Enfin, la réglementation chinoise pourrait encadrer certains usages, un paramètre à surveiller pour les déploiements hors de Chine.

Avec M3, MiniMax montre qu’elle peut produire des architectures d’IA à la fois innovantes et économiques, tout en les diffusant largement. Pour les créateurs d’agents autonomes, la boîte à outils gagne un allié redoutable.


Sur le même Thème :

Laisser un commentaire

Trop d’infos IA ?

Inscrivez-vous à la newsletter pour recevoir un résumé hebdomadaire directement dans ta boite email (et rien d’autre)