NVIDIA a dévoilé hier Nemotron 3 Nano Omni, un modèle multimodal ouvert qui réunit vision, audio et langage. Pensé comme une couche de perception unique pour les systèmes d’IA agentique, il évite les allers-retours entre modèles spécialisés qui ralentissaient les agents. Le gain annoncé atteint 9 fois le débit d’inférence des autres modèles omni ouverts, avec une précision élevée et un coût réduit.
À retenir
- Nemotron 3 Nano Omni est un modèle hybride 30B-A3B (MoE + Mamba-2) qui n’active que 3,2 à 3,5 milliards de paramètres par passage.
- Il traite nativement texte, images, audio, vidéo, documents et interfaces graphiques avec une fenêtre de contexte de 256K jetons.
- Il affiche jusqu’à 9 fois plus de débit d’inférence que les modèles omni concurrents.
- Il arrive en tête de six benchmarks majeurs, dont OCRBench-V2, MMLongBench-Doc, WorldSense et OSWorld.
- Il sert de couche de perception aux côtés de Nemotron 3 Super ou Ultra dans les flux agentiques.
- Les poids ouverts sont disponibles depuis le 28 avril 2026 sur Hugging Face, OpenRouter et NVIDIA NIM.
- Déjà, Palantir, Foxconn, Dell Technologies, Oracle, H Company et plusieurs acteurs français et européens l’évaluent ou l’utilisent.
Nemotron 3 Nano Omni met fin à la fragmentation des agents
Jusqu’ici, un agent IA qui devait analyser une capture d’écran, écouter un appel client et croiser ces éléments avec un PDF passait d’un modèle à l’autre. Chaque transition faisait perdre du contexte, allongeait la latence et gonflait les coûts.
Nemotron 3 Nano Omni change cette logique. Ce n’est pas un modèle de langage adapté a posteriori pour “voir” ou “entendre”, mais un modèle de raisonnement multimodal conçu dès l’origine pour traiter ces modalités en un seul passage et alimenter des agents plus larges.

Cette unification apporte un gain immédiat : 9 fois plus de débit d’inférence que les autres modèles omni ouverts, sans perte annoncée de précision ni de réactivité. Pour les entreprises qui déploient des milliers d’agents, l’impact économique et énergétique est direct.
Une architecture hybride pensée pour l’efficacité réelle
Derrière ces performances, le modèle repose sur une architecture 30B-A3B originale. Il totalise 31,6 milliards de paramètres, mais n’en active que 3,2 à 3,5 milliards par passage grâce à un système Mixture of Experts (MoE) comprenant 128 experts, dont seulement 6 sont sollicités à chaque fois.
NVIDIA y a intégré 23 couches Mamba-2 pour le traitement séquentiel et 23 couches MoE. Pour la vidéo, le modèle utilise des Conv3D et l’Efficient Video Sampling (EVS), qui lui permettent de comprendre de longues séquences sans faire exploser la mémoire. Sa fenêtre de contexte de 256K jetons autorise le raisonnement sur de longs documents ou des échanges audio-vidéo étendus.
Deux encodeurs spécialisés complètent l’ensemble : le C-RADIOv4-H pour la vision, capable de traiter nativement des résolutions jusqu’à 1840×1840 pixels, et le Parakeet-TDT-0.6B-v2 pour l’audio. Plus besoin de transcription intermédiaire ni de description par un modèle séparé. Le modèle perçoit directement.
Des performances validées sur les benchmarks
Nemotron 3 Nano Omni arrive en tête de six classements majeurs, notamment en intelligence documentaire (OCRBench-V2, MMLongBench-Doc) et en compréhension audio-visuelle (WorldSense, DailyOmni, VoiceBench). Ces résultats montrent qu’un modèle plus léger et plus efficace peut dépasser des architectures plus lourdes quand il est conçu pour l’usage visé.
Computer use et document intelligence : les cas d’usage qui changent tout
L’application la plus spectaculaire concerne le Computer Use. Les agents doivent comprendre une interface graphique en mouvement, suivre l’état d’une fenêtre, lire des textes fins et prendre des décisions en temps réel.
« Avec Nemotron 3 Nano Omni, nos agents interprètent des enregistrements Full HD 1920×1080 en temps réel. »
Gautier Cloix, CEO de H Company
Sur OSWorld, l’intégration montre un saut net dans la navigation d’interfaces complexes. Le modèle traite les captures à résolution native, comprend la structure visuelle et garde la mémoire temporelle de l’interface. C’est ce qu’attend un agent autonome.

Dans la finance et le support client, le même modèle traite simultanément PDF, tableaux Excel, graphiques, enregistrements vocaux et captures d’écran dans un seul flux de raisonnement. Les résumés ne cassent plus le contexte, et les informations restent reliées entre elles.
Palantir, Foxconn, Aible, Applied Scientific Intelligence, Eka Care et Dell Technologies font déjà partie des entreprises qui déploient ou testent le modèle en production. Docusign, Infosys et Oracle l’évaluent activement.
Un modèle ouvert conçu pour la souveraineté et le déploiement universel
NVIDIA a publié les poids du modèle, les jeux de données et les recettes d’entraînement sous licence NVIDIA Nemotron Open Model. Les organisations peuvent donc le modifier, le quantifier, le distiller ou l’adapter avec NVIDIA NeMo à leurs cas d’usage spécifiques.
Le format NVIDIA NIM permet un déploiement cohérent du edge au cloud : NVIDIA Jetson pour l’embarqué, DGX Station pour les stations de travail, et les infrastructures massives d’Oracle Cloud, d’AWS ou de clouds européens. Cette flexibilité répond aux exigences de souveraineté et de localisation des données qui pèsent sur de nombreuses entreprises et administrations françaises et européennes.
Avec plus de 50 millions de téléchargements de la famille Nemotron ces douze derniers mois, NVIDIA confirme que sa stratégie ouverte accélère l’adoption tout en maintenant un écosystème technique puissant.
Nemotron 3 Nano Omni ne remplace pas les gros modèles de raisonnement. Il leur apporte une perception multimodale rapide, précise et économique. Pour l’IA agentique, c’est un maillon qui manquait jusqu’ici dans la chaîne de perception.

















Laisser un commentaire
Vous devez vous connecter pour publier un commentaire.