What is the difference between text-to-image and text-to-video?

Text-to-image produces a single still image from a prompt, while text-to-video generates a sequence of frames that play as a short clip. Text-to-video models, such as Sora and Runway Gen, build on the same diffusion and transformer ideas as text-to-image systems but add a temporal dimension, which makes them far more compute-intensive and still less mature.

Are text-to-image images copyrighted?

Copyright treatment varies by country and is still being settled in court. In the United States, pure AI-generated images without meaningful human authorship have generally not been granted copyright, though a human's selection, arrangement, or editing of AI output can qualify. Commercial platforms also layer their own licensing terms on top of any baseline copyright rules.

How long does it take to generate one image?

On a modern consumer GPU, a single 512x512 image typically takes 1 to 10 seconds with a standard latent diffusion model. Cloud services that run on larger models or higher resolutions can take 10 to 30 seconds. Time scales with image size, the number of denoising steps, and the hardware used.

What is a negative prompt?

A negative prompt is a separate text input that tells the model what to avoid, such as "blurry, extra fingers, watermark." During guidance, the model steers away from these concepts, which is a practical way to suppress common artifacts and unwanted styles without rewriting the main prompt.

Cos'è il text-to-image? La generazione di immagini con l'IA spiegata

Il text-to-image è una categoria di intelligenza artificiale generativa che produce immagini direttamente da descrizioni scritte. L'utente digita una frase come "un pastore corgi astronauta che fluttua nello spazio, arte digitale" e il modello restituisce un'immagine corrispondente in pochi secondi, senza bisogno di disegnare, fotografare o ricorrere a librerie stock. Il campo è progredito rapidamente dopo il 2021, quando i modelli di diffusione hanno dimostrato che brevi prompt testuali potevano essere trasformati in immagini di alta qualità e diversificate su larga scala.

Come funziona il text-to-image

I moderni sistemi di text-to-image sono costruiti su un modello di diffusione abbinato a un codificatore linguistico. L'addestramento avviene in due fasi. Innanzitutto, un modello vision-language come CLIP impara a collocare testo e immagini in uno spazio matematico condiviso, così che la frase "palloncino rosso" si trovi vicino a immagini di palloncini rossi. In secondo luogo, una rete di diffusione impara a invertire un processo di rumorizzazione: parte da uno schermo di statico e, passo dopo passo, lo ripulisce fino a ottenere un'immagine coerente, guidata a ogni passaggio dall'embedding testuale prodotto dal modello linguistico.

Al momento dell'inferenza, il prompt dell'utente viene tokenizzato, incorporato dal codificatore linguistico e poi utilizzato per condizionare il ciclo di denoising. Una tecnica correlata, spesso chiamata diffusione latente, esegue la rumorizzazione e il denoising in uno spazio latente compresso anziché su pixel a piena risoluzione, il che rende la generazione molto più economica. La classifier-free guidance, introdotta nel 2022, combina le previsioni condizionali e non condizionali, così che l'output segua il prompt in modo più letterale senza perdere realismo.

Perché è importante

Il text-to-image sposta la creazione visiva dal mestiere manuale al dialogo. I designer lo usano per prototipare rapidamente concept e moodboard, i marketer generano immagini per le campagne senza servizi fotografici, gli educatori illustrano le lezioni e gli studi di videogiochi prototipano personaggi e ambienti. La tecnologia solleva anche questioni pratiche sul copyright dei dati di addestramento, sui deepfake e sui bias nel modo in cui persone, professioni e culture vengono rappresentate: ecco perché la maggior parte delle piattaforme aggiunge filtri sui contenuti, segnali di provenienza come i metadati C2PA e politiche di utilizzo.

Tipi e approcci principali

Modelli di diffusione — l'approccio dominante, usato da Stable Diffusion, Imagen e DALL·E 2/3. Denoisano iterativamente il rumore casuale in un'immagine condizionata dal testo.
Modelli di immagine autoregressivi — trattano la generazione di immagini come la generazione di testo, prevedendo token visivi in sequenza, come in Parti e nell'originale DALL·E.
Generatori basati su GAN — i primi sistemi come StackGAN e DALL·E mini utilizzavano reti generative avversarie, ora in gran parte superate per l'uso generale.
Assistenti multimodali — i modelli più recenti come GPT-4o e Gemini combinano comprensione e generazione di immagini in un'unica interfaccia chat.

Per un'analisi tecnica più approfondita, il paper High-Resolution Image Synthesis with Latent Diffusion Models documenta l'architettura alla base di Stable Diffusion, e l'annuncio di DALL·E 3 di OpenAI spiega come i sistemi moderni integrino i modelli linguistici per il rispetto dei prompt.

Cos'è Testo-immagine?

Come funziona il text-to-image

Perché è importante

Tipi e approcci principali

Domande frequenti