LFM2.5, des performances record pour l’IA embarquée

·

·

Smartphone et objets connectés illustrant l’IA embarquée LFM2.5 fonctionnant en local sur CPU et NPU avec performances record
Résumer cet article avec :

Le 5 janvier, Liquid AI a dévoilé la famille LFM2.5, la première série de modèles à combiner efficacité edge et performances record sur CPU et NPU. Ses variantes, allant du modèle 1,2 milliard de paramètres au VL‑1,6B et Audio‑1,5B, promettent une IA embarquée sans compromis. Ce lancement marque une avancée décisive vers des assistants intelligents souverains, fonctionnant hors ligne dans nos appareils quotidiens.


À retenir

  • LFM2.5‑1,2B‑Instruct atteint 86,23 points IFEval, surpassant nettement Llama 3.2 et Qwen3 de même taille.
  • La quantification INT4 rend le modèle 8× plus rapide en audio, sans perte auditive majeure.
  • Des partenariats avec AMD et Nexa AI assurent une exécution native sur Snapdragon Gen4 et les NPU des appareils.
  • Les modèles open‑weight sont disponibles sur Hugging Face et la plateforme LEAP dès le lancement.
  • La stratégie de post‑entraînement RL transforme un simple LLM en agent capable de raisonnement complexe.

LFM2.5 apparaît comme le premier pas d’une IA décentralisée où chaque smartphone, voiture ou capteur IoT possède son propre copilote. Cette approche répond à la demande croissante de confidentialité et de résilience hors ligne, tout en conservant des performances comparables à des modèles beaucoup plus volumineux. Le public cible, des développeurs d’applications embarquées aux ingénieurs systèmes, retrouve ici une solution prête à l’emploi, issue d’une recherche poussée sur l’architecture hybride de Liquid AI.

Un bond technologique pour l’intelligence décentralisée

La famille LFM2.5 a été entraînée sur 28 T de tokens, un gain de 180 % par rapport à la génération précédente. Cette expansion s’accompagne d’un post‑entraînement RL à grande échelle, afin de convertir le modèle en véritable agent. Le résultat est une capacité de suivi d’instructions nettement améliorée, comme le montre l’évaluation IFEval.

Ingénieur français devant plusieurs écrans analysant l’entraînement massif et le post-entraînement RL du modèle LFM2.5 pour l’intelligence décentralisée
L’entraînement massif sur 28 T de tokens et le post‑entraînement RL transforment LFM2.5 en véritable agent, moteur du bond technologique vers une IA décentralisée.

Extension massive de l’entraînement

L’augmentation de tokens de 10 T à 28 T a permis d’absorber davantage de contextes, notamment dans les langues asiatiques et européennes. Cette hausse se traduit par un score de 86,23 sur IFEval, alors que Llama 3.2 obtient 52,37 avec un même nombre de paramètres, illustrant le saut de qualité sur les tâches d’instructions.

Architecture hybride et performances record

L’architecture hybride, qui combine convolutions à portes courtes et attention par requêtes groupées (GQA), confère au modèle une forte efficacité mémoire. Sur un AMD Ryzen AI 9 HX 370, LFM2.5 décode 116 tokens/s en utilisant seulement 856 Mo de RAM, contre 62 tokens/s et 1,4 Go pour Qwen3‑1,7B dans des conditions comparables.

Open‑weight et accessibilité immédiate

Les modèles sont open‑weight, publiés sur Hugging Face et la plateforme LEAP. Cette transparence facilite l’expérimentation, l’audit et l’intégration dans des projets open source, en phase avec la volonté de démocratiser l’IA embarquée.

Capacités multimodales : vision et audio nativement intégrés

La multimodalité native distingue LFM2.5 des systèmes qui enchaînent transcription, LLM et synthèse vocale. Les deux modèles dédiés, LFM2.5‑VL‑1,6B et LFM2.5‑Audio‑1,5B, ouvrent de nouvelles perspectives pour les assistants sans connexion, capables de traiter directement images et voix.

Habitacle d’une voiture connectée en France avec assistant embarqué multimodal LFM2.5 fonctionnant hors ligne sur l’appareil
Grâce à ses capacités multimodales et à l’optimisation pour les NPU embarqués, LFM2.5 permet des assistants réactifs dans les véhicules, même sans connexion réseau.

Vision‑langage : LFM2.5‑VL‑1,6B

Avec un support multilingue couvrant arabe, chinois, français, allemand, japonais, coréen, espagnol, le modèle dépasse LFM2‑VL sur les indicateurs MMStar et OCRBench v2. Il excelle dans la compréhension multi‑images, grâce à l’architecture GQA qui permet un traitement rapide, tout en maintenant un haut niveau de précision sur les scènes complexes.

Audio‑langage : LFM2.5‑Audio‑1,5B

Contrairement aux pipelines classiques (ASR + LLM + TTS), LFM2.5‑Audio s’appuie sur un dé‑tokeniseur audio natif, entraîné en INT4. Cette approche réduit la latence d’un facteur , tout en conservant une fidélité proche du format FP32. Sur mobile, la performance est portée par l’NPU Snapdragon Gen4, qui prend directement en charge l’inférence audio.

Traitement natif vs approches traditionnelles

Les modèles audio natifs éliminent la boucle de conversion, réduisant le temps d’inférence et la consommation d’énergie. Les tests montrent une latence de l’ordre de 3 ms par seconde d’audio, contre plus de 30 ms pour les solutions classiques, ce qui change la perception de réactivité pour l’utilisateur final.

Écosystème et partenariats : une IA prête pour le déploiement réel

Pour assurer une intégration fluide, Liquid AI a aligné son architecture avec les principaux fabricants de processeurs et les frameworks populaires. L’objectif est de réduire au minimum le travail d’adaptation nécessaire côté développeurs pour passer en production.

Soutien matériel et optimisation

Les partenariats avec AMD et Nexa AI garantissent une exécution native sur les NPU et les CPU. Sur les Snapdragon Gen4, la phase de préremplissage atteint 4391 tokens/s, un débit suffisant pour une interaction instantanée en voiture ou sur des appareils mobiles exigeants.

Intégration logicielle

Les modèles sont compatibles avec llama.cpp, vLLM, MLX et ONNX. Cette pluralité de frameworks assure une forte portabilité multiplateforme, couvrant Apple Silicon, Android, les environnements GPU et les déploiements sur serveur d’entreprise.

Cas d’usage concrets

Les principaux domaines d’application sont les assistants embarqués dans les véhicules, les outils de productivité locale (copilotes sans connexion) et les capteurs IoT pour la maison intelligente. La confidentialité est renforcée, car les données restent locales à l’appareil, un point clé pour les secteurs réglementés comme la santé ou l’automobile.

Limites et défis à surmonter

Si le déploiement en edge ouvre de nouvelles possibilités, il impose également des contraintes, notamment en termes de taille de modèle et de maîtrise de la quantification. Les équipes doivent arbitrer finement entre qualité, latence et consommation énergétique.

Taille et contraintes matérielles

Un modèle de 1,2 milliard de paramètres exige encore environ 856 Mo de RAM, ce qui peut rester un frein pour les smartphones plus anciens ou les microcontrôleurs limités. Les optimisations actuelles misent sur les prochaines générations de puces, qui devraient offrir davantage de mémoire et de puissance en edge.

Complexité de l’entraînement et de la quantification

Le post‑entraînement RL et la quantification INT4 requièrent des ressources de calcul importantes, pouvant rendre le processus d’optimisation coûteux pour les petits acteurs. Toutefois, la disponibilité des modèles en open‑weight permet aux équipes de partir de bases existantes, d’ajuster les poids et de se concentrer sur leurs données et cas d’usage spécifiques.


Sur le même Thème :

Laisser un commentaire