Le serveur Atlas de Positron AI optimise l’inférence face aux GPU NVIDIA

·

·

Atlas de Positron AI bouscule l’inférence face aux GPU NVIDIA
Résumer cet article avec :

Positron AI a levé 51,6 millions de dollars en juillet dernier pour accélérer le déploiement de son système Atlas, une alternative spécialisée aux GPU NVIDIA pour l’inférence en IA générative. Ce serveur, optimisé pour les modèles de langage large (LLM), promet trois fois plus de tokens générés par watt que les solutions actuelles, en se focalisant sur la bande passante mémoire comme principal goulot d’étranglement. Alors que les pénuries de puces NVIDIA persistent, cette innovation pourrait démocratiser l’accès à l’IA en réduisant les coûts et la consommation énergétique.


À retenir

  • Positron AI, fondée en 2023 à Reno, cible l’inférence des LLM avec son accélérateur Atlas.
  • L’architecture FPGA atteint 93 % d’utilisation de la bande passante mémoire, contre 10 à 30 % pour les GPU.
  • Supporte des modèles jusqu’à 500 milliards de paramètres dans un serveur de 2 kW.
  • Compatible avec Hugging Face et l’API OpenAI pour une intégration aisée.
  • Premiers clients : Cloudflare et Parasail, avec déploiement en production.
  • Financement Série A de 51,6 millions de dollars (environ 44,4 millions d’euros), total levé en 2025 supérieur à 75 millions de dollars.

Dans un marché de l’IA saturé par la domination des GPU NVIDIA, Positron AI émerge comme une réponse ciblée à l’inefficacité croissante des infrastructures actuelles. Lancée en 2023, l’entreprise basée à Reno au Nevada a bouclé en juillet 2025 un tour de table de Série A sursouscrit, signe d’un intérêt marqué pour ses solutions hardware spécialisées. Cet angle d’efficacité énergétique et de coût réduit est crucial aujourd’hui, alors que les centres de données peinent à scaler les LLM sans exploser les budgets et la consommation électrique. Pour les acteurs européens de l’IA, qui visent la souveraineté numérique, Atlas offre une voie vers une démocratisation pratique, loin des pénuries mondiales de semi-conducteurs.

Positron AI défie la suprématie des GPU généralistes

Positron AI positionne son système Atlas comme une alternative précise aux architectures universelles, en se concentrant sur les besoins spécifiques de l’inférence en IA générative.

Atlas de Positron AI - illustration 1

Le créneau défendable de l’inférence low-cost

Le Positron AI Atlas est un accélérateur hardware dédié aux workloads Transformer, ces architectures au cœur des LLM comme ceux d’OpenAI ou de Hugging Face. Contrairement aux GPU polyvalents tels que le H100 ou le DGX H200 de NVIDIA, qui excellent en entraînement mais gaspillent en inférence, Atlas optimise les tâches de génération de texte ou d’images. Fondée en 2023 par le CEO Mitesh Agrawal, le CTO Thomas Sohmers et le Chief Scientist Edward Kmett, la société cible les goulots d’étranglement actuels : coûts prohibitifs et pénuries de puces. Le marché de l’IA générative, en pleine expansion, voit ses centres de données plafonner en puissance brute, rendant urgente une solution comme Atlas. Cette approche spécialisée promet une efficacité maximale, avec une génération de tokens triplée par watt consommé.

Résolution des contraintes infrastructurelles majeures

Les architectures traditionnelles souffrent d’une faible utilisation de la bande passante mémoire, limitée à 10-30 % sur les GPU. Positron identifie ce paramètre comme le vrai frein à l’IA moderne, bien plus que la puissance de calcul. Atlas résout cela en priorisant les flux de données internes, réduisant ainsi la consommation d’énergie et les coûts opérationnels. Dans un contexte de tensions géopolitiques sur les semi-conducteurs, cette focalisation offre une souveraineté accrue aux opérateurs européens. Les promesses d’Atlas incluent un support pour des contextes longs dans les LLM, essentiels pour des applications comme l’analyse de documents volumineux. Enfin, son coût total de propriété (TCO) le plus bas vise à multiplier les revenus des data centers en rendant l’inférence scalable sans surinvestissement.

Une architecture FPGA au service de performances inédites

L’innovation technique de Positron repose sur une conception mémoire-centrique, validée par un prototype FPGA avant passage à l’ASIC, pour une efficacité démontrée en conditions réelles.

Atlas de Positron AI - illustration 2

Composants et intégration logicielle fluide

Basé sur une architecture FPGA optimisée, Atlas intègre 256 Go de HBM (High Bandwidth Memory) et 384 Go de DDR5, pour une capacité agrégée massive dans un châssis de seulement 2 kW. Ce choix permet de valider le logiciel avant de développer une puce custom ASIC, garantissant une compatibilité immédiate. Le système gère des modèles jusqu’à 500 milliards de paramètres en un seul serveur, une densité sans précédent pour l’inférence. Compatible avec les bibliothèques Hugging Face Transformer, il expose un endpoint aligné sur l’API OpenAI, facilitant l’adoption par les développeurs non spécialistes. Chez Cloudflare, Atlas alimente déjà la plateforme Workers AI, traitant des inférences en production pour des millions d’utilisateurs. Parasail, autre client précoce, valide sa robustesse dans des workloads Transformer variés.

Comparaisons chiffrées avec les standards de l’industrie

Atlas atteint 93 % d’utilisation de la bande passante mémoire, un bond par rapport aux 10-30 % des GPU NVIDIA. Face au H100, il délivre 3,5 fois plus de performance par dollar investi, avec jusqu’à 66 % de consommation en moins. Cette efficacité se traduit par une inférence plus rapide et économe, cruciale pour les data centers européens soumis à des régulations strictes sur l’énergie. À long terme, l’architecture vise des modèles de 16 trillions de paramètres par système, ouvrant la voie à des IA plus contextuelles. Bien que les FPGA soient flexibles, leur coût initial reste élevé comparé aux ASIC matures de NVIDIA ; Positron contre cet objection en misant sur un TCO inférieur via une spécialisation accrue. Le déploiement commercial, entamé fin 2025, confirme ces métriques en production.

Perspectives économiques et feuille de route ambitieuse

Le financement massif de Positron soutient non seulement Atlas, mais prépare une génération Titan pour scaler l’IA générative à l’horizon 2026.

Succès du tour de table et soutien des investisseurs

En juillet 2025, Positron a levé 51,6 millions de dollars (environ 44,4 millions d’euros) en Série A, menée par Valor Equity Partners, Atreides Management et DFJ Growth. Des fonds comme Flume Ventures (avec Scott McNealy), Resilience Reserve, 1517 Fund et Unless ont participé, portant le total 2025 à plus de 75 millions de dollars. Ce capital valide l’approche d’efficacité, attirant des investisseurs tech rodés aux disruptions hardware. Pour l’Europe, où la souveraineté en semi-conducteurs est un enjeu, ce financement accélère l’accès à des alternatives non dépendantes d’Asie ou d’États-Unis. Les fonds soutiennent les expéditions d’Atlas et les tests en production.

Vers Titan et l’ère des ASIC custom

La seconde génération, Titan, débarquera en 2026 avec la puce Asimov, offrant jusqu’à 2 téraoctets de mémoire haute vitesse par accélérateur. Cette évolution passera du FPGA à l’ASIC pour une efficacité ultime en inférence. Les premiers déploiements d’Atlas chez Cloudflare et Parasail préfigurent un impact : réduction des coûts pour les plateformes cloud, et démocratisation des LLM pour les PME. Titan visera les modèles massifs, boostant l’innovation en IA générative. Pourtant, la dépendance à une supply chain stable pose un contrepoint : les retards ASIC pourraient freiner ce momentum, comme vu chez d’autres startups hardware. Positron, fort de son focus, semble prête à transformer l’inférence en un levier économique accessible.


Sur le même Thème :

Laisser un commentaire