Former un grand modèle d’IA exige aujourd’hui des quantités massives de calcul, d’énergie et d’argent. La technique CompreSSM permet de compresser ces modèles pendant leur entraînement, et non après, ce qui réduit nettement le temps, la mémoire et la consommation électrique tout en préservant les performances. Développée par des chercheurs du MIT CSAIL et de Liquid AI, cette approche vise une IA plus frugale, adaptée à l’edge computing et aux appareils du quotidien.
Le coût prohibitif de l’entraînement des modèles d’IA
Chaque nouvelle génération de modèles voit ses besoins computationnels s’envoler, rendant leur développement accessible seulement aux organisations disposant de parcs de GPU massifs.

L’explosion des dépenses énergétiques et financières
L’entraînement d’un grand modèle peut se chiffrer à plusieurs centaines de milliers d’euros et à de nombreuses dizaines de mégawattheures. Cette échelle pose des questions de consommation d’énergie, de dépendance aux infrastructures cloud et d’empreinte carbone. En 2026, ces coûts limitent l’innovation et concentrent le pouvoir technique dans quelques mains.
Le compromis historique entre taille et performance
Pour obtenir un modèle léger, les ingénieurs devaient traditionnellement soit entraîner un géant puis le réduire, soit partir d’un petit modèle et accepter une précision inférieure. Sur certains benchmarks, un modèle compact atteignait 81,8 % tandis que sa version compressée après entraînement massif montait à 85,7 %. Ce plafond bloquait le déploiement sur smartphones, drones ou objets industriels.
Les limites des méthodes classiques de compression
Pruning, quantization et distillation ont longtemps constitué les principaux outils disponibles, mais chacune de ces techniques impose des contraintes fortes en termes de coût ou de qualité finale.
Le pruning structurel après entraînement
Cette technique supprime les connexions ou neurones jugés peu utiles. Elle oblige cependant à payer d’abord le coût complet d’un modèle massif avant de l’élaguer. Le pruning structurel réalisé trop tard ne réduit donc ni le temps ni l’énergie dépensés pendant la phase d’apprentissage.
La quantization et le Quantization-Aware Training (QAT)
Passer de 32 bits à 8 ou 4 bits divise l’empreinte mémoire par quatre ou huit. Sans entraînement spécifique (QAT), la perte de précision est souvent trop forte. Même avec QAT, le modèle complet doit d’abord être entraîné en haute précision avant d’être converti en faible précision.
La distillation de connaissances
Un grand modèle « enseignant » transmet son savoir à un modèle « élève » plus petit. Cette approche double quasiment la charge de calcul puisque deux réseaux doivent être entraînés. Elle reste donc coûteuse et complexe à mettre en œuvre à très grande échelle.
CompreSSM : compresser un modèle tout en l’entraînant
Cette nouvelle méthode, fondée sur la théorie du contrôle, identifie très tôt dans le processus d’apprentissage les parties du modèle qui contribuent le moins aux performances et les élimine pour le reste de l’entraînement.

La stabilisation rapide de l’importance des états internes
Les chercheurs ont observé que l’importance relative de chaque composant se stabilise dès les 10 % initiaux de l’entraînement. Il devient alors possible de prendre une décision de compression très tôt, sans attendre la fin du processus d’apprentissage.
L’usage des valeurs singulières de Hankel
CompreSSM s’appuie sur les valeurs singulières de Hankel, un outil issu de la théorie du contrôle. Ces valeurs mesurent précisément la contribution de chaque dimension d’état interne. Le système supprime ensuite les dimensions les moins contributives, créant une sparsity structurelle progressive.
Une complexité réduite par rapport aux approches spectrales antérieures
Contrairement aux méthodes qui recalculent des valeurs propres à chaque pas de gradient, CompreSSM évite ces opérations coûteuses. Elle est ainsi quarante fois plus rapide que les précédentes techniques spectrales, tout en produisant une compression plus fine.
Des gains concrets sur les State-Space Models et perspectives 2026
Les résultats les plus marquants ont été obtenus sur l’architecture Mamba, une famille de State-Space Models (SSM) particulièrement efficace pour les séquences longues.
Accélération du temps d’entraînement et réduction de la mémoire
CompreSSM permet de diviser par quatre la dimension d’état tout en maintenant une précision de 85,7 % sur CIFAR-10. Le temps d’entraînement est réduit jusqu’à quatre fois et le nombre de FLOPs diminue fortement, ce qui abaisse à la fois le coût financier et la consommation électrique.
Complémentarité avec TurboQuant pour lever l’inference bottleneck
Parallèlement, l’approche TurboQuant de Google réduit de six fois la taille du KV cache et accélère l’inférence par huit sans perte de précision. Ensemble, la compression pendant l’entraînement et l’optimisation de l’inférence s’attaquent au principal goulot d’étranglement mémoire qui empêchait le déploiement local.
Bonnes pratiques et correction d’idées reçues
Contrairement à une idée répandue, un modèle compressé n’est pas forcément moins intelligent. Dans certains cas, la compression agit comme une régularisation et améliore la généralisation en limitant l’overfitting. La stratégie la plus efficace consiste à combiner pruning structurel pendant l’entraînement via CompreSSM, puis une quantization en précision mixte (certaines couches en 16 bits, d’autres en 8 ou 4 bits) pour l’inférence.
Les enjeux concrets pour l’edge computing
Ces techniques rendent possible une IA réellement embarquée, fonctionnant sans connexion permanente au cloud. Elles améliorent la confidentialité des données, réduisent la dépendance aux centres de calcul et diminuent la consommation énergétique globale des systèmes d’intelligence artificielle. En 2026, la compression pendant l’apprentissage n’est plus une simple optimisation, mais une condition de viabilité pour déployer des modèles performants sur des appareils aux ressources limitées.















