What is the difference between a foundation model and a large language model?

All large language models are foundation models, but not all foundation models are LLMs. A foundation model is any large model trained on broad data that can be adapted to many tasks, including image, audio, and protein models. A large language model is a foundation model specifically designed to process and generate text.

Who coined the term foundation model?

The term was introduced in 2021 by Stanford's Center for Research on Foundation Models (CRFM) in a paper led by Rishi Bommasani and colleagues. It described the shift from task-specific AI systems to a single general-purpose model reused across applications.

How are foundation models trained?

Most foundation models are pre-trained with self-supervised learning on huge unlabeled datasets, typically using the transformer architecture. The model learns by predicting missing or next parts of its input, such as the next word in a sentence, which lets it scale to internet-sized corpora without manual labeling.

Can foundation models be fine-tuned?

Yes. After pre-training, foundation models are commonly adapted through fine-tuning, instruction tuning, reinforcement learning from human feedback (RLHF), or prompt engineering. These steps specialize a general-purpose model for particular tasks, domains, or safety requirements.

Cos'è un Foundation Model? Definizione e guida

Un foundation model è un grande modello di machine learning addestrato su dataset massicci e diversificati utilizzando metodi come l'apprendimento auto-supervisionato. Dopo questo ampio pre-addestramento, lo stesso modello può essere adattato, o messo a punto, per svolgere un'ampia varietà di compiti successivi, dal rispondere a domande e tradurre lingue alla generazione di immagini e all'analisi delle proteine. Il concetto è stato formalizzato nel 2021 dal Center for Research on Foundation Models (CRFM) della Stanford University, che ha coniato il termine per descrivere un nuovo paradigma nell'IA.

Come funzionano i Foundation Model

I foundation model vengono tipicamente costruiti utilizzando un'architettura di rete neurale, molto spesso il transformer, e addestrati su centinaia di miliardi di parole, immagini o altri punti dati estratti dal web aperto, libri, repository di codice e corpora con licenza. L'addestramento si basa generalmente sull'apprendimento auto-supervisionato, in cui il modello predice le parti mancanti o successive del proprio input, eliminando la necessità di esempi etichettati manualmente su larga scala. Il risultato è un modello con un'ampia conoscenza statistica del linguaggio, del codice, delle immagini o di altre modalità, che codifica schemi generali anziché un singolo compito specifico.

Una volta completato il pre-addestramento, il modello diventa una fondazione: gli sviluppatori lo adattano ad applicazioni specifiche attraverso tecniche come il fine-tuning, il prompt engineering o la retrieval-augmented generation. Lo stesso modello di base può quindi alimentare un chatbot per l'assistenza clienti, un sistema di sintesi delle cartelle cliniche e un assistente per il codice, ciascuno costruito su capacità condivise anziché addestrato da zero.

Perché è importante

I foundation model hanno ridisegnato l'economia dell'IA perché un singolo modello pre-addestrato può servire centinaia di utilizzi successivi, riducendo drasticamente il costo e i dati necessari per costruire nuove applicazioni. Alimentano sistemi ampiamente utilizzati come i large language model per il testo, i modelli di diffusione per la generazione di immagini e i modelli multimodali che elaborano testo, immagini e audio insieme. Allo stesso tempo, la loro scala concentra capacità, rischi e bias, sollevando questioni importanti su valutazione, sicurezza e governance.

Tipi principali di Foundation Model

Large language model (LLM): modelli basati su testo come la famiglia GPT, Claude e Llama, addestrati su enormi corpora di testo per generare e ragionare sul linguaggio.
Modelli di diffusione: modelli di generazione di immagini come Stable Diffusion, addestrati per invertire un processo di aggiunta di rumore e sintetizzare immagini a partire da prompt testuali.
Modelli multimodali: sistemi come CLIP e GPT-4V che elaborano congiuntamente testo, immagini, audio o video all'interno di un'unica fondazione.
Foundation specifici per dominio: modelli pre-addestrati su letteratura scientifica, sequenze proteiche o codice, poi adattati per compiti specialistici come la scoperta di farmaci o l'ingegneria del software.

Sostituendo il vecchio paradigma di addestrare un modello ristretto per ogni nuovo problema con un'unica base adattabile, i foundation model sono diventati il punto di partenza predefinito per lo sviluppo dell'IA moderna.

Cos'è Modello Fondativo?

Come funzionano i Foundation Model

Perché è importante

Tipi principali di Foundation Model

Domande frequenti