Cos'è il text-to-image?

Il text-to-image è un'IA generativa che trasforma i prompt scritti in immagini. Scopri come funzionano i modelli di diffusione e transformer e dove vengono utilizzati.

HyperStore · Pubblicato il 2026-06-20

#AI art #computer vision #diffusion models #generative AI #text-to-image

Il text-to-image è una categoria di intelligenza artificiale generativa che produce immagini direttamente da descrizioni scritte. L'utente digita una frase come "un pastore corgi astronauta che fluttua nello spazio, arte digitale" e il modello restituisce un'immagine corrispondente in pochi secondi, senza bisogno di disegnare, fotografare o ricorrere a librerie stock. Il campo è progredito rapidamente dopo il 2021, quando i modelli di diffusione hanno dimostrato che brevi prompt testuali potevano essere trasformati in immagini di alta qualità e diversificate su larga scala.

Come funziona il text-to-image

I moderni sistemi di text-to-image sono costruiti su un modello di diffusione abbinato a un codificatore linguistico. L'addestramento avviene in due fasi. Innanzitutto, un modello vision-language come CLIP impara a collocare testo e immagini in uno spazio matematico condiviso, così che la frase "palloncino rosso" si trovi vicino a immagini di palloncini rossi. In secondo luogo, una rete di diffusione impara a invertire un processo di rumorizzazione: parte da uno schermo di statico e, passo dopo passo, lo ripulisce fino a ottenere un'immagine coerente, guidata a ogni passaggio dall'embedding testuale prodotto dal modello linguistico.

Al momento dell'inferenza, il prompt dell'utente viene tokenizzato, incorporato dal codificatore linguistico e poi utilizzato per condizionare il ciclo di denoising. Una tecnica correlata, spesso chiamata diffusione latente, esegue la rumorizzazione e il denoising in uno spazio latente compresso anziché su pixel a piena risoluzione, il che rende la generazione molto più economica. La classifier-free guidance, introdotta nel 2022, combina le previsioni condizionali e non condizionali, così che l'output segua il prompt in modo più letterale senza perdere realismo.

Perché è importante

Il text-to-image sposta la creazione visiva dal mestiere manuale al dialogo. I designer lo usano per prototipare rapidamente concept e moodboard, i marketer generano immagini per le campagne senza servizi fotografici, gli educatori illustrano le lezioni e gli studi di videogiochi prototipano personaggi e ambienti. La tecnologia solleva anche questioni pratiche sul copyright dei dati di addestramento, sui deepfake e sui bias nel modo in cui persone, professioni e culture vengono rappresentate: ecco perché la maggior parte delle piattaforme aggiunge filtri sui contenuti, segnali di provenienza come i metadati C2PA e politiche di utilizzo.

Tipi e approcci principali

Modelli di diffusione — l'approccio dominante, usato da Stable Diffusion, Imagen e DALL·E 2/3. Denoisano iterativamente il rumore casuale in un'immagine condizionata dal testo.
Modelli di immagine autoregressivi — trattano la generazione di immagini come la generazione di testo, prevedendo token visivi in sequenza, come in Parti e nell'originale DALL·E.
Generatori basati su GAN — i primi sistemi come StackGAN e DALL·E mini utilizzavano reti generative avversarie, ora in gran parte superate per l'uso generale.
Assistenti multimodali — i modelli più recenti come GPT-4o e Gemini combinano comprensione e generazione di immagini in un'unica interfaccia chat.

Per un'analisi tecnica più approfondita, il paper High-Resolution Image Synthesis with Latent Diffusion Models documenta l'architettura alla base di Stable Diffusion, e l'annuncio di DALL·E 3 di OpenAI spiega come i sistemi moderni integrino i modelli linguistici per il rispetto dei prompt.

Come funziona il text-to-image

Perché è importante

Tipi e approcci principali

Potrebbe interessarti anche

Cos'è il text-to-video?

Cosa sono le AI Guardrails?

Cos'è un Knowledge Graph?

Articoli correlati

Cos'è il text-to-video?

Che cos'è il dato sintetico?

Cos'è la Temperature nell'IA?