Comprendre les modèles d’IA ternaires et la compression 1,58 bit

·

·

Smartphone et ordinateur portable récents posés sur un bureau, symbolisant l’exécution locale de modèles d’IA ternaires très compressés sur les appareils.
Résumer cet article avec :

Les modèles ternaires proposent une approche de compression native des réseaux de neurones qui conserve une précision élevée tout en réduisant fortement la mémoire et l’énergie nécessaires. En 2026, PrismML a publié les premiers modèles industriels fondés sur cette logique de 1,58 bit, baptisée Ternary Bonsai. Cette avancée rend l’inférence en local bien plus efficace qu’avec le FP16.


La quantification ternaire et ses fondements

Cette méthode repose sur une contrainte stricte des poids pendant l’entraînement, plutôt que sur une compression tardive du modèle.

Origine et définition mathématique

La quantification ternaire limite chaque poids à trois valeurs possibles : -1, 0 ou 1. Le stockage de ces trois états réclame log2(3), soit environ 1,58 bit par paramètre.

Entraînement sensible à la quantification plutôt que post-training

Les équipes de PrismML entraînent directement les modèles dans ce format avec Quantization-Aware Training. Cette technique évite la perte de qualité habituellement observée lors de la conversion d’un modèle FP16 existant.

Gros plan sur une puce électronique montée sur une carte mère, avec plusieurs points de contact mis en valeur pour évoquer les trois états possibles des poids ternaires.
La quantification ternaire limite chaque poids du réseau de neurones à trois valeurs, réduisant drastiquement la mémoire nécessaire.

Fin du format FP16 comme standard

Un modèle ternaire consomme neuf à dix fois moins de mémoire qu’un équivalent en FP16. Cette économie permet de faire fonctionner localement des réseaux qui, jusqu’ici, exigeaient des cartes graphiques dédiées.

L’impact du zéro sur la précision

L’introduction de la valeur zéro apporte une capacité de filtrage que les modèles purement binaires ne possèdent pas.

Filtrage des features et distribution des activations

Avec le zéro, le réseau peut neutraliser l’influence d’un paramètre jugé inutile. Ce mécanisme suit mieux les distributions de type gaussien observées dans les activations des transformers.

Comparaison avec les modèles 1-bit

Sur les benchmarks standards, Ternary Bonsai 8B obtient un score moyen de 75,5, contre 70,5 pour un modèle 1-bit de taille comparable. Les 600 Mo supplémentaires pèsent peu au regard du gain de précision.

Une architecture sans multiplication matricielle

La suppression des opérations MatMul réduit la consommation énergétique et accélère l’inférence.

Remplacement par des additions d’entiers

Multiplier par 1 conserve la valeur, par -1 inverse le signe et par 0 annule le terme. Les calculs se ramènent alors à des additions et des soustractions.

Gains observés sur processeurs modernes

Sur une puce Apple M4 Pro, Ternary Bonsai 8B atteint 82 tokens par seconde, soit un débit cinq fois supérieur à celui d’un modèle FP16 de même taille. Sur iPhone 17 Pro Max, le débit reste à 27 tokens par seconde, pour une consommation d’environ 0,105 mWh par token.

Optimisation via SIMD et NPU

Les bibliothèques comme bitnet.cpp exploitent les instructions AVX2 et NEON pour traiter les poids compressés. Ces optimisations profitent des unités SIMD des processeurs récents.

Performances réelles et densité d’intelligence

La taille seule ne détermine plus la capacité de raisonnement ; la densité d’intelligence par unité de mémoire devient le critère pertinent.

Comparaison avec Qwen et Llama

Ternary Bonsai 8B pèse 1,75 Go et obtient des résultats comparables à ceux de Qwen3 8B (16,4 Go). Le modèle BitNet b1.58, avec trois milliards de paramètres, commence aussi à égaler Llama 2 en perplexité zero-shot.

Scaling laws au-delà de trois milliards de paramètres

À partir de trois milliards de paramètres, les lois d’échelle montrent que la logique 1,58 bit rattrape la précision des modèles pleine résolution. On mesure désormais l’intelligence par gigaoctet consommé.

Contraintes et perspectives pour l’Edge AI

La technologie impose encore des choix d’entraînement qui freinent son adoption immédiate, mais elle ouvre la voie à une IA locale plus large.

Personne utilisant un smartphone posé à côté d’un ordinateur portable fermé, dans un intérieur chaleureux, pour illustrer une IA fonctionnant en local sans connexion.
Les modèles ternaires ouvrent la voie à une IA d’edge computing plus accessible, économe et respectueuse de la confidentialité des données.

Coût de l’entraînement initial

Il reste impossible de convertir un grand modèle FP16 existant sans perte importante. Un réentraînement complet depuis zéro est nécessaire, ce qui demande plusieurs milliers d’heures sur GPU et des trillions de tokens.

Accessibilité et confidentialité

Une fois entraîné, le modèle fonctionne sans connexion sur téléphone, ordinateur portable ou système embarqué. Cette caractéristique renforce la confidentialité des données et supprime la latence du cloud.

Vers des puces natives ternaires

L’étape suivante consiste à concevoir des circuits intégrés qui éliminent physiquement les multiplieurs en virgule flottante. Ces puces pourraient encore multiplier par dix l’efficacité énergétique actuelle des modèles ternaires.


Sur le même Thème :

Laisser un commentaire

Trop d’infos IA ?

Inscrivez-vous à la newsletter pour recevoir un résumé hebdomadaire directement dans ta boite email (et rien d’autre)