L'IA generativa è una classe di modelli di intelligenza artificiale che creano nuovi contenuti, come testo, immagini, audio, video o codice, invece di limitarsi a classificare o fare previsioni a partire da dati esistenti. Impara i pattern e la struttura del materiale di addestramento e usa queste conoscenze per produrre output originali in risposta a un prompt. Il termine copre un'ampia famiglia di tecniche, dai modelli linguistici di grandi dimensioni basati su transformer che alimentano i chatbot ai modelli di diffusione che sono alla base dei sistemi text-to-image.
Come funziona l'IA generativa
Ad alto livello, un modello generativo viene addestrato su un ampio corpus di esempi (libri e codice per il testo, immagini con didascalie per la visione, trascrizioni audio e forme d'onda per il parlato) e apprende i pattern statistici che collegano gli input agli output. Durante l'addestramento, il modello regola ripetutamente i suoi parametri interni in modo che le sue previsioni corrispondano alla realtà, un processo che può richiedere miliardi di esempi e un'enorme potenza di calcolo. Una volta addestrato, il modello riceve un prompt e genera un nuovo artefatto un pezzo alla volta: un modello linguistico di grandi dimensioni prevede il token successivo (approssimativamente, una parola o un frammento di parola) dato tutto ciò che lo precede, mentre un modello di diffusione affina iterativamente del rumore casuale trasformandolo in un'immagine coerente guidata da una descrizione testuale.
Ad esempio, dato il prompt "un haiku sul traffico mattutino a Tokyo", un modello di testo campionerà una prima parola probabile, poi condizionerà la scelta successiva sulle parole che ha già prodotto, e così via fino a quando la poesia risulterà completa. Il risultato non viene recuperato da un database; viene calcolato al volo a partire dai pattern appresi, ed è per questo che due esecuzioni dello stesso prompt possono produrre output diversi, ma ugualmente plausibili.
Perché è importante
L'IA generativa sta ridisegnando il modo in cui individui e organizzazioni creano, comunicano e lavorano. Redige email, riassume documenti, scrive e spiega codice, progetta mockup di prodotto, compone musica e accelera la ricerca scientifica suggerendo molecole e strutture proteiche. Poiché un singolo modello può gestire molti compiti espressi in linguaggio naturale, riduce il costo di produrre prime bozze e rende disponibile un'assistenza sofisticata anche ai non specialisti. Allo stesso tempo, solleva questioni complesse su paternità, copyright, allucinazioni, bias e sull'impronta energetica delle grandi sessioni di addestramento, tutte preoccupazioni centrali per sviluppatori, regolatori e utenti finali.
Tipi principali di modelli generativi
- Modelli linguistici di grandi dimensioni (LLM) — modelli basati su transformer come quelli delle famiglie GPT, Claude e Llama che generano testo e, sempre più spesso, interpretano immagini e audio.
- Modelli di diffusione — l'architettura alla base della maggior parte dei moderni sistemi text-to-image e text-to-video, tra cui Stable Diffusion, DALL·E e Imagen.
- Reti generative avversarie (GAN) — un approccio più datato ma ancora influente in cui un generatore e un discriminatore si addestrano a vicenda, ampiamente usato per la sintesi di immagini e il trasferimento di stile.
- Varianti autoregressive e transformer per audio e codice — modelli che generano parlato, musica o codice sorgente un token alla volta, come i sistemi in stile Codex e i modelli per la generazione di musica.
In sintesi, l'IA generativa è meno un singolo prodotto e più un nuovo modo di costruire software: invece di codificare regole esplicite, gli sviluppatori forniscono prompt a un modello addestrato e ne guidano l'output. Man mano che i modelli sottostanti diventano più capaci e meglio allineati con l'intento umano, la loro portata continua ad espandersi in quasi ogni ambito creativo e di lavoro intellettuale.