La conversion texte-en-image est une catégorie d'intelligence artificielle générative qui produit des images directement à partir de descriptions écrites. L'utilisateur saisit une phrase telle que « un corgi astronaute flottant dans l'espace, art numérique » et le modèle renvoie une image correspondante en quelques secondes, sans avoir besoin de dessin, de photographie ou de banques d'images. Le domaine a progressé rapidement après 2021, lorsque les modèles de diffusion ont démontré que de courtes invites textuelles pouvaient être transformées en images de haute qualité et diversifiées à grande échelle.
Comment fonctionne la conversion texte-en-image
Les systèmes modernes de conversion texte-en-image reposent sur un modèle de diffusion associé à un encodeur de langage. L'entraînement se déroule en deux étapes. Tout d'abord, un modèle vision-langage tel que CLIP apprend à placer textes et images dans un espace mathématique partagé, de sorte que l'expression « ballon rouge » se trouve à proximité d'images de ballons rouges. Ensuite, un réseau de diffusion apprend à inverser un processus de bruitage : il part d'un écran de parasites et, étape par étape, les débruite pour obtenir une image cohérente, guidé à chaque étape par l'embedding textuel produit par le modèle de langage.
Au moment de l'inférence, l'invite de l'utilisateur est tokenisée, intégrée par l'encodeur de langage, puis utilisée pour conditionner la boucle de débruitage. Une technique connexe, souvent appelée diffusion latente, exécute le bruitage et le débruitage dans un espace latent compressé plutôt que sur des pixels en pleine résolution, ce qui rend la génération bien moins coûteuse. Le guidage sans classifieur, introduit en 2022, mélange les prédictions conditionnelles et inconditionnelles afin que le résultat suive l'invite de manière plus littérale sans perdre en réalisme.
Pourquoi c'est important
La conversion texte-en-image fait passer la création visuelle de l'artisanat manuel au dialogue. Les designers l'utilisent pour le prototypage rapide et les moodboards, les marketeurs génèrent des visuels de campagne sans séances photo, les enseignants illustrent leurs cours, et les studios de jeux prototypent des personnages et des environnements. Cette technologie soulève également des questions pratiques concernant le droit d'auteur des données d'entraînement, les deepfakes et les biais dans la représentation des personnes, des métiers et des cultures, c'est pourquoi la plupart des plateformes ajoutent des filtres de contenu, des signaux de provenance tels que les métadonnées C2PA, ainsi que des politiques d'utilisation.
Principaux types et approches
- Modèles de diffusion — l'approche dominante, utilisée par Stable Diffusion, Imagen et DALL·E 2/3. Ils débruitent itérativement du bruit aléatoire en une image conditionnée par du texte.
- Modèles d'image autorégressifs — traitent la génération d'images comme la génération de texte en prédisant séquentiellement des tokens visuels, comme dans Parti et la version originale de DALL·E.
- Générateurs basés sur des GAN — des systèmes plus anciens tels que StackGAN et DALL·E mini utilisaient des réseaux antagonistes génératifs, aujourd'hui largement remplacés pour un usage général.
- Assistants multimodaux — des modèles plus récents comme GPT-4o et Gemini combinent compréhension et génération d'images dans une interface de chat unique.
Pour un aperçu technique plus approfondi, l'article High-Resolution Image Synthesis with Latent Diffusion Models documente l'architecture derrière Stable Diffusion, et l'annonce de DALL·E 3 par OpenAI explique comment les systèmes modernes intègrent les modèles de langage pour le suivi des invites.