Le 22 décembre 2025 marque un tournant dans le champ de l’intelligence artificielle avec la Joint Embedding Predictive Architecture (JEPA). Cette approche, portée par Yann LeCun, entend dépasser les limites des grands modèles de langage en introduisant un modèle du monde interne capable d’apprendre le bon sens en observant des flux de données non étiquetées. À la clé, une efficacité de calcul jusqu’à dix fois supérieure aux auto‑encodeurs utilisés aujourd’hui.
À retenir
- JEPA : architecture non générative qui prédit des embeddings, pas des pixels.
- Paradoxe de Moravec : une IA ne comprend pas la physique sans modèle du monde.
- I‑JEPA : vision – 72 heures d’entraînement sur 16 GPU A100.
- V‑JEPA : vidéo – focus sur la structure sémantique, élimine le bruit.
- H‑JEPA : planification hiérarchique, action à multiples échelles.
- Object‑Driven AI : agents autonomes avec garde‑fous intégrés.
Définition et périmètre : l’architecture qui va au‑delà de la prédiction de mots
Contrairement aux Large Language Models (LLM), fondés sur la prédiction statistique de tokens, la JEPA est une architecture d’apprentissage auto‑supervisé conçue pour comprendre les structures d’espace latent. Elle vise à instaurer un modèle du monde, c’est‑à‑dire une représentation interne des lois physiques et des relations causales. L’objectif, selon Yann LeCun, est de passer d’une IA qui « parle » à une IA qui raisonne et planifie de façon plus proche d’un humain.

Quelles limites rendent une nouvelle architecture nécessaire ?
Les LLM ne peuvent pas planifier sur le long terme ni comprendre la causalité. Ils restent contraints par le paradoxe de Moravec, où la perception sensorielle est bien modélisée mais la logique physique échappe en grande partie aux réseaux. Cette faiblesse rend les modèles génératifs fragiles dès qu’on les confronte à des tâches qui exigent une compréhension fine du monde réel et des conséquences des actions.
Un modèle entraîné sans étiquettes
La JEPA s’entraîne en observant des flux de données — images, vidéos, sons — sans nécessiter de balisage humain. C’est une approche self‑supervised qui s’inspire de la manière dont un enfant apprend en observant son environnement, en testant et en corrigeant ses prédictions. Le réseau devient ainsi capable de prévoir l’évolution d’une scène à partir de représentations abstraites plutôt que via une reconstruction pixel par pixel.
Publics concernés et contexte actuel
Les ingénieurs en vision par ordinateur, les chercheurs en robotique et les développeurs de systèmes autonomes trouvent dans JEPA un nouveau levier pour concevoir des agents plus robustes. Depuis 2024, Meta a publié plusieurs variantes : I‑JEPA pour l’image, V‑JEPA pour la vidéo et l’anticipation de H‑JEPA pour la planification. Le champ d’application s’étend de la reconnaissance d’images à la prise de décision hiérarchique dans des environnements complexes.
Notions clés et fonctionnement : comment l’architecture réalise la prédiction abstraite
JEPA s’appuie sur trois composants essentiels : le Context Encoder, le Target Encoder et le Predictor. Au lieu de reconstruire chaque pixel, le réseau prédit les embeddings de la zone masquée, ce qui réduit la charge de calcul et renforce la pertinence des représentations apprises pour la tâche visée.
Prédiction dans l’espace latent vs reconstruction de pixels
La reconstruction pixel par pixel est coûteuse et souvent superflue : un modèle n’a pas besoin de connaître la position précise de chaque feuille d’arbre pour comprendre qu’il observe un arbre. En se concentrant sur la prédiction d’embeddings sémantiques, JEPA capture l’essentiel de la scène tout en évitant les détails inutiles qui alourdissent l’entraînement.
Gestion de l’incertitude grâce aux Energy‑Based Models
Les Energy‑Based Models (EBM) attribuent une énergie basse aux prédictions plausibles et une énergie élevée aux scénarios improbables. Cette approche permet au réseau de gérer la stochasticité et de s’adapter à des environnements non statiques, comme la vidéo où l’action évolue dans le temps et où plusieurs futurs restent possibles.
Le processus d’apprentissage, étape par étape
- Encodage du contexte : le réseau lit la partie visible de la scène et génère un vecteur de représentation qui résume l’information utile.
- Encodage cible : la zone masquée est traitée séparément pour extraire ses caractéristiques essentielles, sans chercher à reproduire chaque détail visuel.
- Prédiction : le Predictor associe les deux vecteurs pour estimer l’embedding manquant, puis ajuste ses paramètres en fonction de l’énergie associée à l’erreur.
Usages concrets et ordres de grandeur : des applications concrètes et chiffrées
Meta a démontré la puissance de l’I‑JEPA en entraînant un modèle en moins de 72 heures sur 16 GPU A100, soit un temps réduit de plus de 80 % par rapport aux auto‑encodeurs classiques. Le modèle obtient des représentations sémantiques robustes, immédiatement réutilisables pour la classification d’images, la détection d’anomalies ou encore la navigation autonome dans des environnements encombrés.

Vision par ordinateur avec I‑JEPA
En masquant des blocs d’images et en demandant au réseau de les prédire, I‑JEPA apprend à distinguer les objets, même en présence de bruit de fond ou de conditions lumineuses changeantes. Cette capacité est déterminante pour les systèmes de surveillance, les véhicules autonomes et les outils d’analyse d’images médicales, où la robustesse prime sur la génération d’images photoréalistes.
Vidéo et dynamique avec V‑JEPA
V‑JEPA analyse les interactions temporelles au sein d’une séquence, en identifiant la structure sémantique sous‑jacente aux mouvements. Cela ouvre la voie à des modèles capables de prédire le déplacement d’objets, d’anticiper des trajectoires ou de détecter des comportements anormaux, un prérequis pour la robotique, la vidéosurveillance intelligente et les jeux vidéo réalistes.
Planification hiérarchique avec H‑JEPA
La prochaine étape, la H‑JEPA, introduira la capacité de décomposer une tâche complexe en sous‑objectifs et d’organiser les actions à plusieurs horizons temporels. Un exemple typique est le rangement d’une table : l’agent identifie les actions nécessaires (déplacer la nappe, empiler les assiettes, trier les verres) et les exécute dans un ordre cohérent pour atteindre le résultat attendu.
Effets d’échelle et coûts
Les modèles JEPA étant plus légers, ils nécessitent moins de mémoire et d’énergie à performance équivalente. Par rapport à un MAE, ils consomment jusqu’à dix fois moins de ressources GPU pour un niveau de représentation comparable. En 2025, le coût de formation se situe entre 30 000 € et 100 000 € pour un laboratoire disposant déjà des ressources matérielles, la réduction du besoin en données étiquetées apportant un gain supplémentaire de productivité et de temps homme.
Avantages, limites et alternatives : où se situe la JEPA dans le paysage IA
La JEPA offre un compromis intéressant entre efficacité énergétique et richesse des représentations sémantiques, mais elle ne couvre pas encore tous les usages. L’absence de décodeur complet limite, par exemple, les applications qui reposent sur la génération d’images haute résolution ou sur la production directe de texte.
Avantages clés
- Économie de calcul : entraînement plus rapide, consommation matérielle réduite.
- Apprentissage sans étiquette : pas besoin de données annotées massives, ce qui facilite l’accès à la technologie.
- Capacité d’abstraction utile : la prédiction d’embeddings permet une compréhension plus générale du monde observé.
Limites et risques
Le modèle ne dispose pas encore de garde‑fous complets pour la prise de décision en temps réel, notamment dans les environnements critiques. L’incertitude, bien que mieux gérée grâce aux EBM, peut entraîner des prédictions erronées dans des contextes très bruités ou rarement observés. Par ailleurs, l’absence de génération de texte ou d’images finit par cantonner JEPA à un rôle de « moteur de représentation » plutôt qu’à un système de réponse clé en main pour le grand public.
Alternatives et confusions fréquentes
- MAE (Masked Autoencoder) : modèle génératif qui reconstruit les pixels, plus gourmand en calcul et en mémoire.
- Vision Transformer (ViT) : architecture de base pour I‑JEPA, mais sans mécanisme natif de prédiction dans l’espace latent.
- Apprentissage auto‑supervisé classique : JEPA s’en distingue par une approche centrée sur la prédiction abstraite plutôt que sur la simple reconstruction de données.
Cadre légal et perspectives d’avenir
En France et dans l’UE, les modèles JEPA ne font pas encore l’objet d’une régulation spécifique, mais le concept d’Objective‑Driven AI soulève des questions de responsabilité en cas de décision automatisée. Les acteurs devront intégrer des garde‑fous vérifiables pour garantir la sûreté des agents autonomes déployés dans le monde physique. En 2026, la Commission européenne prévoit d’élaborer des directives dédiées aux systèmes d’IA dotés de capacités de planification hiérarchique et d’autonomie élargie.

















Laisser un commentaire
Vous devez vous connecter pour publier un commentaire.