Les modèles ternaires proposent une approche de compression native des réseaux de neurones qui conserve une précision élevée tout en réduisant fortement la mémoire et l’énergie nécessaires. En 2026, PrismML a publié les premiers modèles industriels fondés sur cette logique de 1,58 bit, baptisée Ternary Bonsai. Cette avancée rend l’inférence en local bien plus efficace qu’avec le FP16.
La quantification ternaire et ses fondements
Cette méthode repose sur une contrainte stricte des poids pendant l’entraînement, plutôt que sur une compression tardive du modèle.
Origine et définition mathématique
La quantification ternaire limite chaque poids à trois valeurs possibles : -1, 0 ou 1. Le stockage de ces trois états réclame log2(3), soit environ 1,58 bit par paramètre.
Entraînement sensible à la quantification plutôt que post-training
Les équipes de PrismML entraînent directement les modèles dans ce format avec Quantization-Aware Training. Cette technique évite la perte de qualité habituellement observée lors de la conversion d’un modèle FP16 existant.

Fin du format FP16 comme standard
Un modèle ternaire consomme neuf à dix fois moins de mémoire qu’un équivalent en FP16. Cette économie permet de faire fonctionner localement des réseaux qui, jusqu’ici, exigeaient des cartes graphiques dédiées.
L’impact du zéro sur la précision
L’introduction de la valeur zéro apporte une capacité de filtrage que les modèles purement binaires ne possèdent pas.
Filtrage des features et distribution des activations
Avec le zéro, le réseau peut neutraliser l’influence d’un paramètre jugé inutile. Ce mécanisme suit mieux les distributions de type gaussien observées dans les activations des transformers.
Comparaison avec les modèles 1-bit
Sur les benchmarks standards, Ternary Bonsai 8B obtient un score moyen de 75,5, contre 70,5 pour un modèle 1-bit de taille comparable. Les 600 Mo supplémentaires pèsent peu au regard du gain de précision.
Une architecture sans multiplication matricielle
La suppression des opérations MatMul réduit la consommation énergétique et accélère l’inférence.
Remplacement par des additions d’entiers
Multiplier par 1 conserve la valeur, par -1 inverse le signe et par 0 annule le terme. Les calculs se ramènent alors à des additions et des soustractions.
Gains observés sur processeurs modernes
Sur une puce Apple M4 Pro, Ternary Bonsai 8B atteint 82 tokens par seconde, soit un débit cinq fois supérieur à celui d’un modèle FP16 de même taille. Sur iPhone 17 Pro Max, le débit reste à 27 tokens par seconde, pour une consommation d’environ 0,105 mWh par token.
Optimisation via SIMD et NPU
Les bibliothèques comme bitnet.cpp exploitent les instructions AVX2 et NEON pour traiter les poids compressés. Ces optimisations profitent des unités SIMD des processeurs récents.
Performances réelles et densité d’intelligence
La taille seule ne détermine plus la capacité de raisonnement ; la densité d’intelligence par unité de mémoire devient le critère pertinent.
Comparaison avec Qwen et Llama
Ternary Bonsai 8B pèse 1,75 Go et obtient des résultats comparables à ceux de Qwen3 8B (16,4 Go). Le modèle BitNet b1.58, avec trois milliards de paramètres, commence aussi à égaler Llama 2 en perplexité zero-shot.
Scaling laws au-delà de trois milliards de paramètres
À partir de trois milliards de paramètres, les lois d’échelle montrent que la logique 1,58 bit rattrape la précision des modèles pleine résolution. On mesure désormais l’intelligence par gigaoctet consommé.
Contraintes et perspectives pour l’Edge AI
La technologie impose encore des choix d’entraînement qui freinent son adoption immédiate, mais elle ouvre la voie à une IA locale plus large.

Coût de l’entraînement initial
Il reste impossible de convertir un grand modèle FP16 existant sans perte importante. Un réentraînement complet depuis zéro est nécessaire, ce qui demande plusieurs milliers d’heures sur GPU et des trillions de tokens.
Accessibilité et confidentialité
Une fois entraîné, le modèle fonctionne sans connexion sur téléphone, ordinateur portable ou système embarqué. Cette caractéristique renforce la confidentialité des données et supprime la latence du cloud.
Vers des puces natives ternaires
L’étape suivante consiste à concevoir des circuits intégrés qui éliminent physiquement les multiplieurs en virgule flottante. Ces puces pourraient encore multiplier par dix l’efficacité énergétique actuelle des modèles ternaires.
















Laisser un commentaire
Vous devez vous connecter pour publier un commentaire.