📖

Qu'est-ce que Texte-vers-Image ?

La conversion texte-en-image est une IA générative qui transforme des invites écrites en images. Découvrez comment fonctionnent les modèles de diffusion et les transformers et où ils sont utilisés.

La conversion texte-en-image est une catégorie d'intelligence artificielle générative qui produit des images directement à partir de descriptions écrites. L'utilisateur saisit une phrase telle que « un corgi astronaute flottant dans l'espace, art numérique » et le modèle renvoie une image correspondante en quelques secondes, sans avoir besoin de dessin, de photographie ou de banques d'images. Le domaine a progressé rapidement après 2021, lorsque les modèles de diffusion ont démontré que de courtes invites textuelles pouvaient être transformées en images de haute qualité et diversifiées à grande échelle.

Comment fonctionne la conversion texte-en-image

Les systèmes modernes de conversion texte-en-image reposent sur un modèle de diffusion associé à un encodeur de langage. L'entraînement se déroule en deux étapes. Tout d'abord, un modèle vision-langage tel que CLIP apprend à placer textes et images dans un espace mathématique partagé, de sorte que l'expression « ballon rouge » se trouve à proximité d'images de ballons rouges. Ensuite, un réseau de diffusion apprend à inverser un processus de bruitage : il part d'un écran de parasites et, étape par étape, les débruite pour obtenir une image cohérente, guidé à chaque étape par l'embedding textuel produit par le modèle de langage.

Au moment de l'inférence, l'invite de l'utilisateur est tokenisée, intégrée par l'encodeur de langage, puis utilisée pour conditionner la boucle de débruitage. Une technique connexe, souvent appelée diffusion latente, exécute le bruitage et le débruitage dans un espace latent compressé plutôt que sur des pixels en pleine résolution, ce qui rend la génération bien moins coûteuse. Le guidage sans classifieur, introduit en 2022, mélange les prédictions conditionnelles et inconditionnelles afin que le résultat suive l'invite de manière plus littérale sans perdre en réalisme.

Pourquoi c'est important

La conversion texte-en-image fait passer la création visuelle de l'artisanat manuel au dialogue. Les designers l'utilisent pour le prototypage rapide et les moodboards, les marketeurs génèrent des visuels de campagne sans séances photo, les enseignants illustrent leurs cours, et les studios de jeux prototypent des personnages et des environnements. Cette technologie soulève également des questions pratiques concernant le droit d'auteur des données d'entraînement, les deepfakes et les biais dans la représentation des personnes, des métiers et des cultures, c'est pourquoi la plupart des plateformes ajoutent des filtres de contenu, des signaux de provenance tels que les métadonnées C2PA, ainsi que des politiques d'utilisation.

Principaux types et approches

  • Modèles de diffusion — l'approche dominante, utilisée par Stable Diffusion, Imagen et DALL·E 2/3. Ils débruitent itérativement du bruit aléatoire en une image conditionnée par du texte.
  • Modèles d'image autorégressifs — traitent la génération d'images comme la génération de texte en prédisant séquentiellement des tokens visuels, comme dans Parti et la version originale de DALL·E.
  • Générateurs basés sur des GAN — des systèmes plus anciens tels que StackGAN et DALL·E mini utilisaient des réseaux antagonistes génératifs, aujourd'hui largement remplacés pour un usage général.
  • Assistants multimodaux — des modèles plus récents comme GPT-4o et Gemini combinent compréhension et génération d'images dans une interface de chat unique.

Pour un aperçu technique plus approfondi, l'article High-Resolution Image Synthesis with Latent Diffusion Models documente l'architecture derrière Stable Diffusion, et l'annonce de DALL·E 3 par OpenAI explique comment les systèmes modernes intègrent les modèles de langage pour le suivi des invites.

Questions fréquemment posées

What is the difference between text-to-image and text-to-video?
Text-to-image produces a single still image from a prompt, while text-to-video generates a sequence of frames that play as a short clip. Text-to-video models, such as Sora and Runway Gen, build on the same diffusion and transformer ideas as text-to-image systems but add a temporal dimension, which makes them far more compute-intensive and still less mature.
Are text-to-image images copyrighted?
Copyright treatment varies by country and is still being settled in court. In the United States, pure AI-generated images without meaningful human authorship have generally not been granted copyright, though a human's selection, arrangement, or editing of AI output can qualify. Commercial platforms also layer their own licensing terms on top of any baseline copyright rules.
How long does it take to generate one image?
On a modern consumer GPU, a single 512x512 image typically takes 1 to 10 seconds with a standard latent diffusion model. Cloud services that run on larger models or higher resolutions can take 10 to 30 seconds. Time scales with image size, the number of denoising steps, and the hardware used.
What is a negative prompt?
A negative prompt is a separate text input that tells the model what to avoid, such as "blurry, extra fingers, watermark." During guidance, the model steers away from these concepts, which is a practical way to suppress common artifacts and unwanted styles without rewriting the main prompt.