Le 16 mars 2026, Mistral AI a dévoilé Mistral Small 4, un modèle de 119 milliards de paramètres qui réunit les fonctions habituellement réparties entre plusieurs IA. Grâce à une architecture Mixture‑of‑Experts qui active seulement 6 milliards de paramètres par token, il promet une réduction de 40 % du temps d’exécution et un débit triplé. Cette unification vise à simplifier les workflows des développeurs, qui n’ont plus à changer de modèle selon la tâche, tout en conservant un niveau de performance élevé sur des cas d’usage variés.
À retenir
- 119 B paramètres, 6 B actifs par token ; MoE à 128 experts.
- Réduction de 40 % de latence, débit triplé, coût d’inférence inférieur à celui de GPT‑OSS 120B.
- Licence Apache 2.0, intégration NVIDIA, disponible via API, Hugging Face et conteneurs NIM.
« Mistral Small 4 marque une nouvelle étape pour les entreprises qui veulent combiner performance et flexibilité avec un seul modèle. »
déclare le directeur technique de Mistral AI
En consolidant le suivi d’instructions, le raisonnement complexe, la compréhension multimodale et le codage agentique, le modèle répond à une demande croissante d’outils « tout‑en‑un ». Les équipes peuvent traiter texte, code et images dans un même environnement, sans multiplier les déploiements ni les configurations.
Une architecture unifiée pour gagner en efficacité
Ce nouveau modèle réunit sous une même couche les capacités autrefois distribuées sur plusieurs produits Mistral. Il vise ainsi à réduire la fragmentation des outils en production, souvent source de coûts opérationnels et de complexité pour les équipes techniques.

Un modèle hybride tout‑en‑un
Mistral Small 4 remplace les modèles séparés Mistral Small, Magistral, Pixtral et Devstral en offrant un seul point d’accès. Cette homogénéité élimine les temps de chargement supplémentaires et les erreurs de configuration qui surviennent lors du passage d’un modèle à l’autre. Les développeurs peuvent ainsi utiliser la même API pour du texte, du code ou des images, ce qui simplifie le développement d’assistants virtuels, d’outils d’analyse de documents et de services automatisés de support.
Fusion des lignées Magistral, Pixtral et Devstral
Chaque lignée conserve son expertise : Magistral pour le raisonnement avancé, Pixtral pour la vision, Devstral pour le code. La fusion se traduit par une cohérence sémantique accrue entre les réponses textuelles et visuelles, ce qui réduit les contradictions entre modules dans un même flux applicatif. Sur le benchmark AA LCR, le modèle atteint un score de 0,72 avec seulement 1 600 caractères, contre près de 6 000 caractères requis par les modèles Qwen, ce qui limite la quantité de texte à transmettre et donc le coût.
Architecture MoE à 128 experts
L’architecture Mixture‑of‑Experts mobilise 128 experts spécialisés sélectionnés dynamiquement selon la requête. En ne faisant travailler que 6 milliards de paramètres actifs à chaque token, le modèle conserve une puissance de calcul comparable à un réseau de 119 milliards de paramètres tout en limitant la consommation d’énergie. Ce design optimise le throughput et la latence, comme le montre le gain de triple débit en configuration de haute performance, notamment sur des charges de requêtes simultanées.
Fonctionnalités avancées et impact économique
Au‑delà des performances brutes, le modèle introduit des options de configuration qui permettent de maîtriser le coût d’inférence. Ces réglages offrent aux équipes la possibilité d’ajuster finement le compromis entre vitesse, précision et dépense de calcul.

Paramètre reasoning_effort configurable
Le nouveau paramètre reasoning_effort offre deux modes : fast mode pour des réponses rapides et deep reasoning pour un raisonnement plus détaillé. Les développeurs ajustent ce paramètre à chaque appel, ce qui évite le sur‑calcul inutile et réduit les dépenses de calcul. Cette flexibilité permet une gestion en temps réel du temps de traitement, particulièrement utile pour les applications à forte charge comme les services de support client ou les assistants internes.
Multimodalité intégrée et fenêtre de contexte de 256 k tokens
Le modèle accepte nativement des entrées texte + image, ce qui ouvre des usages d’extraction de données à partir de documents scannés, de captures d’écran ou de schémas annotés. Sa fenêtre de contexte de 256 000 tokens permet d’analyser des bases de code complètes ou des rapports longs sans segmentation, ce qui améliore la précision et la cohérence des réponses. Cette capacité est déjà utilisée dans des projets de revue de contrats où la totalité du texte doit être prise en compte, y compris les annexes et les notes de bas de page.
Alliance stratégique avec NVIDIA et disponibilité open‑source
Mistral AI a signé un partenariat avec NVIDIA en tant que membre fondateur de la Nemotron Coalition. Le modèle est diffusé sous licence Apache 2.0, qui autorise un usage commercial libre et une intégration directe dans les pipelines existants. Les développeurs peuvent le déployer sur l’infrastructure DGX Cloud ou sur des serveurs équipés de 4 × NVIDIA HGX H100 ou d’un DGX B200. Il est disponible via l’API Mistral, Hugging Face et sous forme de conteneurs NIM (NVIDIA Inference Microservices), ce qui accélère l’adoption par les équipes IA déjà outillées avec ces environnements.















