Black Forest Labs a dévoilé Flux.2, son modèle d’intelligence visuelle de pointe, capable de générer et d’éditer des images jusqu’à 4 mégapixels en moins de dix secondes pour sa variante professionnelle. Cette architecture unifiée surpasse les limites actuelles en combinant un modèle de langage-vision et un transformateur à flux rectifié. Elle marque un tournant pour les workflows professionnels en IA générative.
À retenir
- Flux.2 combine génération et édition d’images dans une architecture unifiée de latent flow matching.
- Résolution maximale de 4 mégapixels, avec support de tout rapport d’aspect dès 64×64 pixels.
- Fonction multi-référence jusqu’à 10 images pour éliminer la dérive stochastique.
- Variante Flux.2 [dev] open-weight de 32 milliards de paramètres, gratuite pour usage non commercial.
- Optimisations FP8 pour GPU NVIDIA RTX, réduisant la VRAM de 40 %.
- Accès via API à partir de 0,026 euro pour Flux.2 [pro].
Ce lancement, survenu fin 2025, positionne Black Forest Labs (BFL) comme un acteur clé dans la course à l’intelligence visuelle. Pour les professionnels de la création visuelle – publicitaires, designers, éditeurs – Flux.2 résout des frustrations accumulées : cohérence identitaire, réalisme et vitesse. Son ouverture partielle démocratise l’accès à des performances autrefois réservées aux géants fermés comme OpenAI ou Google, tout en maintenant des offres premium pour la production. À l’heure où l’IA générative transforme l’économie créative, ce modèle hybride open-core change la donne pour les entreprises européennes cherchant souveraineté et efficacité.
Une architecture unifiée pour des images sans compromis
Flux.2 repose sur une conception novatrice qui intègre génération et édition au sein d’un même flux, évitant les sauts entre modèles distincts.
Latent flow matching et hybridation VLM-transformateur
L’architecture adopte le latent flow matching, une méthode qui optimise l’espace latent réentraîné pour trancher le trilemme apprentissabilité-qualité-compression. Elle couple un modèle de langage-vision (VLM) Mistral-3 de 24 milliards de paramètres à un transformateur à flux rectifié. Ce VLM injecte une connaissance du monde pour une logique spatiale cohérente.
Le VAE (Variational Autoencoder) de Flux.2, sous licence Apache 2.0, assure une compression fidèle. Résultat : des images natives jusqu’à 4 mégapixels, avec édition à même résolution. Toute entrée dès 64×64 pixels est acceptée, quel que soit le rapport d’aspect.

Performances mesurables et optimisées localement
La variante Flux.2 [pro] génère une image en moins de 10 secondes. Flux.2 [dev], avec ses 32 milliards de paramètres, cible les expérimentateurs. Sur GPU NVIDIA RTX, des quantifications FP8 via ComfyUI divisent la VRAM requise de 40 % et boostent les performances du même ordre.
Malgré une exigence initiale de 90 Go de VRAM, ces optimisations rendent le modèle accessible sur hardware grand public. Les tests locaux confirment une stabilité accrue en inférence prolongée.
Capacités taillées pour l’excellence professionnelle
Conçu pour les chaînes de production, Flux.2 cible les pains chroniques de l’IA visuelle : incohérences et manque de contrôle fin.
Multi-référence : fin de la dérive stochastique
La fonction multi-référence ingère jusqu’à 10 images d’entrée – huit en API, dix en playground pro – pour ancrer identité, style ou produit sur scènes complexes. Elle éradique la dérive stochastique, ce phénomène où un personnage ou objet varie d’une génération à l’autre.
Publicitaires génèrent ainsi 50 variantes avec le même acteur. Photographes produisent des vues de produits fiables en changeant d’environnement sans altérer le sujet. Éditoriaux dynamiques conservent un mannequin identique panel après panel.
Photoréalisme, typographie et guidages précis
Flux.2 excelle en photoréalisme : mains, visages, tissus, logos saillent avec textures nettes et éclairage stable. Sa connaissance du monde impose une physique réaliste aux objets.
La typographie rend fiablement textes complexes, infographies, mockups UI ou mèmes. Le structured prompting – séquences JSON – et l’exact color control via codes Hex assurent conformité marque. Le pose guidance affine les attitudes corporelles.

Écosystème ouvert face à une concurrence féroce
L’approche open-core de BFL, fondée en 2024 à Freiburg avec antenne à San Francisco, équilibre recherche publique et services pros.
Variantes accessibles et déploiement fluide
Flux.2 [pro] convient aux productions via API, à 0,026 euro minimum par T2I. Flux.2 [flex], à 0,052 euro, ajuste étapes et guidage pour qualité suprême.
Flux.2 [dev] open-weight est gratuit non-commercialement sur Hugging Face. Flux.2 [klein], distillé et Apache 2.0, arrive bientôt pour devs légers. Accès via BFL Playground, API et partenaires comme FAL, Replicate, Cloudflare Workers AI – multilingue, prompts français inclus.

Sécurité renforcée, malgré des défis hardware
BFL évalue Flux.2 via tiers contre CSAM/NCII et prompts sensibles. Filtres NSFW et IP sont embarqués dans Flux.2 [dev].
Objection principale : l’appétit VRAM de dev. Pourtant, partenariats NVIDIA–ComfyUI et Cloudflare la contournent efficacement. Face à Google’s Nano Banana ou OpenAI, Flux.1 dominait déjà les opens ; Flux.2 vise à
« transformer l’économie de la génération »
selon la philosophie de BFL, en rendant la frontière visuelle collective.

















Laisser un commentaire
Vous devez vous connecter pour publier un commentaire.