DeepMind dévoile le 5 août 2025 Genie 3, un modèle d’IA capable de générer des mondes 3D interactifs en temps réel à partir de simples descriptions textuelles. Cette avancée ouvre la voie à de nouvelles méthodes d’entraînement des agents IA et pose les bases d’environnements simulés dynamiques pour l’éducation, la robotique ou la réalité virtuelle.
À retenir
- Genie 3 produit des environnements 3D cohérents à 720 p/24 ips.
- Les changements dans la scène persistent même hors champ visuel.
- Accès restreint à un cercle de chercheurs et créateurs.
- Première cible : l’entraînement des agents d’IA plutôt que le marché grand public.
- Objectif affiché : contribuer à l’Intelligence Artificielle Générale (AGI).
Genie 3 : un world model signé DeepMind
Google DeepMind présente Genie 3 comme une évolution majeure de ses précédents modèles Genie 1 et Genie 2. Contrairement à un simple outil de génération vidéo, ce système crée des environnements 3D entièrement navigables et réactifs, exploitant le même principe que les modèles vidéo Veo 2 et Veo 3 mais dans un cadre spatial.
Des fondations héritées de Genie 1 et Genie 2
Les deux premières versions posaient les bases de la génération procédurale d’espaces virtuels interactifs. Genie 3 intègre désormais une mémoire visuelle et une persistance d’objet qui dépassent les capacités de ses prédécesseurs. Aucun moteur physique n’est codé en dur : l’apprentissage auto-supervisé permet au modèle de comprendre la physique par l’observation massive de séquences vidéo.
Une portée stratégique au-delà du jeu vidéo
DeepMind insiste : l’objectif n’est pas de remplacer Unreal Engine ou Unity, mais de fournir un bac à sable sécurisé pour tester les comportements d’agents IA. Le projet est aujourd’hui accessible en préversion limitée à un groupe restreint de laboratoires et de créateurs, afin d’évaluer les risques liés à la sécurité et à la responsabilité dès la conception.

Technique : cohérence, persistance et prompt-driven events
Genie 3 rend l’exploration fluide à 720 p et 24 images par seconde. Les scènes restent visuellement et physiquement cohérentes sur plusieurs minutes, un progrès notable sur les précédentes tentatives qui produisaient des environnements instables au-delà de quelques dizaines de secondes.
Mémoire visuelle et persistance d’objet
Peindre un graffiti sur un mur suffit : le marquage restera visible même si l’utilisateur tourne la caméra, quitte la zone et y revient plus tard. Cette persistance d’objet repose sur une mémoire visuelle distribuée qui retient l’état modifié de chaque élément de la scène.
Commandes textuelles en temps réel
Une simple phrase suffit pour faire apparaître une tempête de sable, ouvrir un portail vers une île flottante ou animer une créature mythologique. Ces prompt-driven events sont traités quasi instantanément, sans rupture de framerate ni perte de cohérence physique.
Physique apprise, non programmée
Contrairement aux simulateurs classiques qui reposent sur des lois codées, Genie 3 infère la physique à partir de la seule observation de vidéos. Résultat : l’eau s’écoule, la lave enflamme le bois, et la fumée obéit aux vents latéraux, le tout sans paramètres explicites.

Des cas d’usage qui dépassent le gaming
Le premier bénéficiaire est SIMA, l’agent généraliste de DeepMind testé dans les mondes générés pour apprendre des compétences transférables. Les laboratoires européens voient également dans Genie 3 un outil de prototypage rapide pour la robotique et la formation professionnelle.
Entraînement sécurisé des agents IA
Plutôt que d’exposer des robots réels à des scènes dangereuses, les chercheurs peuvent simuler des incendies, des inondations ou des accidents industriels à faible coût et sans risque. Les agents apprennent à anticiper et à réagir dans des contextes extrêmes.
Éducation immersive et scénarios « et si ? »
Un enseignant peut demander la reconstitution de l’agora d’Athènes en 400 av. J.-C. ou la maquette 3D de Knossos. Les élèves explorent, modifient la lumière du jour ou déclenchent un tremblement de terre pour observer les conséquences sur le bâti.
Robotique et embodied AI
Les équipes de robotique testent des stratégies de navigation en milieu urbain ou naturel sans avoir à construire de décors physiques. Les environnements générés offrent une variété quasi illimitée de terrains, d’obstacles et de conditions météo.
Positionnement concurrentiel et limites actuelles
Genie 3 n’est pas un concurrent direct d’Copilot 3D (conversion d’images 2D en modèles 3D) ni d’OpenAI Sora (vidéos réalistes mais non interactives). Il se distingue également de simulateurs comme Meta Habitat ou NVIDIA Isaac Sim qui exigent des assets pré-construits.
Limites techniques et perspectives
L’horizon d’interaction est encore limité à quelques minutes et le spectre d’actions reste restreint. Les interactions multi-agents et la reproductibilité exacte de lieux réels ne sont pas garanties. DeepMind recommande aux organisations d’anticiper l’intégration de ces world models tout en restant conscientes de ces contraintes.
Recommandations aux entreprises
Les équipes R&D doivent expérimenter ces environnements pour les phases de test, de sécurité et de prototypage, mais ne pas considérer Genie 3 comme un moteur de jeu complet prêt pour la production grand public.
















