Cos'è un Foundation Model?

Un foundation model è un grande modello di intelligenza artificiale, per scopi generici, addestrato su dati ampi e adattabile a molti compiti successivi. Scopri come funziona e perché è importante.

Un foundation model è un grande modello di machine learning addestrato su dataset massicci e diversificati utilizzando metodi come l'apprendimento auto-supervisionato. Dopo questo ampio pre-addestramento, lo stesso modello può essere adattato, o messo a punto, per svolgere un'ampia varietà di compiti successivi, dal rispondere a domande e tradurre lingue alla generazione di immagini e all'analisi delle proteine. Il concetto è stato formalizzato nel 2021 dal Center for Research on Foundation Models (CRFM) della Stanford University, che ha coniato il termine per descrivere un nuovo paradigma nell'IA.

Come funzionano i Foundation Model

I foundation model vengono tipicamente costruiti utilizzando un'architettura di rete neurale, molto spesso il transformer, e addestrati su centinaia di miliardi di parole, immagini o altri punti dati estratti dal web aperto, libri, repository di codice e corpora con licenza. L'addestramento si basa generalmente sull'apprendimento auto-supervisionato, in cui il modello predice le parti mancanti o successive del proprio input, eliminando la necessità di esempi etichettati manualmente su larga scala. Il risultato è un modello con un'ampia conoscenza statistica del linguaggio, del codice, delle immagini o di altre modalità, che codifica schemi generali anziché un singolo compito specifico.

Una volta completato il pre-addestramento, il modello diventa una fondazione: gli sviluppatori lo adattano ad applicazioni specifiche attraverso tecniche come il fine-tuning, il prompt engineering o la retrieval-augmented generation. Lo stesso modello di base può quindi alimentare un chatbot per l'assistenza clienti, un sistema di sintesi delle cartelle cliniche e un assistente per il codice, ciascuno costruito su capacità condivise anziché addestrato da zero.

Perché è importante

I foundation model hanno ridisegnato l'economia dell'IA perché un singolo modello pre-addestrato può servire centinaia di utilizzi successivi, riducendo drasticamente il costo e i dati necessari per costruire nuove applicazioni. Alimentano sistemi ampiamente utilizzati come i large language model per il testo, i modelli di diffusione per la generazione di immagini e i modelli multimodali che elaborano testo, immagini e audio insieme. Allo stesso tempo, la loro scala concentra capacità, rischi e bias, sollevando questioni importanti su valutazione, sicurezza e governance.

Tipi principali di Foundation Model

  • Large language model (LLM): modelli basati su testo come la famiglia GPT, Claude e Llama, addestrati su enormi corpora di testo per generare e ragionare sul linguaggio.
  • Modelli di diffusione: modelli di generazione di immagini come Stable Diffusion, addestrati per invertire un processo di aggiunta di rumore e sintetizzare immagini a partire da prompt testuali.
  • Modelli multimodali: sistemi come CLIP e GPT-4V che elaborano congiuntamente testo, immagini, audio o video all'interno di un'unica fondazione.
  • Foundation specifici per dominio: modelli pre-addestrati su letteratura scientifica, sequenze proteiche o codice, poi adattati per compiti specialistici come la scoperta di farmaci o l'ingegneria del software.

Sostituendo il vecchio paradigma di addestrare un modello ristretto per ogni nuovo problema con un'unica base adattabile, i foundation model sono diventati il punto di partenza predefinito per lo sviluppo dell'IA moderna.

Potrebbe interessarti anche

Articoli correlati