Il text-to-image è una categoria di intelligenza artificiale generativa che produce immagini direttamente da descrizioni scritte. L'utente digita una frase come "un pastore corgi astronauta che fluttua nello spazio, arte digitale" e il modello restituisce un'immagine corrispondente in pochi secondi, senza bisogno di disegnare, fotografare o ricorrere a librerie stock. Il campo è progredito rapidamente dopo il 2021, quando i modelli di diffusione hanno dimostrato che brevi prompt testuali potevano essere trasformati in immagini di alta qualità e diversificate su larga scala.
Come funziona il text-to-image
I moderni sistemi di text-to-image sono costruiti su un modello di diffusione abbinato a un codificatore linguistico. L'addestramento avviene in due fasi. Innanzitutto, un modello vision-language come CLIP impara a collocare testo e immagini in uno spazio matematico condiviso, così che la frase "palloncino rosso" si trovi vicino a immagini di palloncini rossi. In secondo luogo, una rete di diffusione impara a invertire un processo di rumorizzazione: parte da uno schermo di statico e, passo dopo passo, lo ripulisce fino a ottenere un'immagine coerente, guidata a ogni passaggio dall'embedding testuale prodotto dal modello linguistico.
Al momento dell'inferenza, il prompt dell'utente viene tokenizzato, incorporato dal codificatore linguistico e poi utilizzato per condizionare il ciclo di denoising. Una tecnica correlata, spesso chiamata diffusione latente, esegue la rumorizzazione e il denoising in uno spazio latente compresso anziché su pixel a piena risoluzione, il che rende la generazione molto più economica. La classifier-free guidance, introdotta nel 2022, combina le previsioni condizionali e non condizionali, così che l'output segua il prompt in modo più letterale senza perdere realismo.
Perché è importante
Il text-to-image sposta la creazione visiva dal mestiere manuale al dialogo. I designer lo usano per prototipare rapidamente concept e moodboard, i marketer generano immagini per le campagne senza servizi fotografici, gli educatori illustrano le lezioni e gli studi di videogiochi prototipano personaggi e ambienti. La tecnologia solleva anche questioni pratiche sul copyright dei dati di addestramento, sui deepfake e sui bias nel modo in cui persone, professioni e culture vengono rappresentate: ecco perché la maggior parte delle piattaforme aggiunge filtri sui contenuti, segnali di provenienza come i metadati C2PA e politiche di utilizzo.
Tipi e approcci principali
- Modelli di diffusione — l'approccio dominante, usato da Stable Diffusion, Imagen e DALL·E 2/3. Denoisano iterativamente il rumore casuale in un'immagine condizionata dal testo.
- Modelli di immagine autoregressivi — trattano la generazione di immagini come la generazione di testo, prevedendo token visivi in sequenza, come in Parti e nell'originale DALL·E.
- Generatori basati su GAN — i primi sistemi come StackGAN e DALL·E mini utilizzavano reti generative avversarie, ora in gran parte superate per l'uso generale.
- Assistenti multimodali — i modelli più recenti come GPT-4o e Gemini combinano comprensione e generazione di immagini in un'unica interfaccia chat.
Per un'analisi tecnica più approfondita, il paper High-Resolution Image Synthesis with Latent Diffusion Models documenta l'architettura alla base di Stable Diffusion, e l'annuncio di DALL·E 3 di OpenAI spiega come i sistemi moderni integrino i modelli linguistici per il rispetto dei prompt.