Un Large Language Model (LLM) è un tipo di intelligenza artificiale addestrata su enormi raccolte di testo, come libri, articoli e siti web, in modo da poter comprendere, generare e ragionare sul linguaggio umano. Il termine "large" (grande) nel nome si riferisce sia alle dimensioni dei dati di addestramento sia al numero di parametri interni, spesso miliardi o addirittura centinaia di miliardi, che il modello modifica durante l'addestramento. Gli LLM moderni sono ciò che viene chiamato un modello di base: un sistema general-purpose che può essere adattato a molti compiti linguistici downstream senza essere ricostruito da zero.
Come funziona un Large Language Model
La maggior parte degli LLM si basa sull'architettura transformer, introdotta nell'articolo del 2017 "Attention Is All You Need". Un transformer legge una sequenza di token (porzioni di testo) e utilizza un meccanismo chiamato self-attention per valutare quali token precedenti sono più rilevanti nella previsione di quello successivo. Durante l'addestramento, il modello indovina ripetutamente il token successivo in un passaggio, confronta la sua ipotesi con il token reale e aggiorna i suoi parametri per ridurre l'errore. Dopo aver visto abbastanza esempi, il modello interiorizza schemi di grammatica, fatti, stili di ragionamento e persino sintassi di programmazione.
Al momento dell'inferenza, l'LLM genera testo un token alla volta, campionando o selezionando la continuazione più probabile in base al prompt e a eventuali istruzioni di sistema. Un esempio semplice: dato il prompt "The capital of France is", il modello assegna un'elevata probabilità a "Paris" e lo produce in output. Lo stesso meccanismo, applicato su scala più ampia e addestrato su dati più diversificati, consente a un singolo modello di scrivere saggi, tradurre lingue, spiegare codice e sostenere una conversazione.
Perché è importante
Gli LLM sono il motore della maggior parte dell'IA conversazionale moderna, dai chatbot per l'assistenza clienti agli assistenti di programmazione e ai motori di ricerca. Permettono al software di interagire con le persone in linguaggio naturale, automatizzano la stesura e il riassunto di testi e offrono agli utenti non tecnici l'accesso a funzionalità che in precedenza richiedevano specialisti. Per le aziende, gli LLM riducono il costo di produzione e analisi del testo; per i ricercatori, forniscono un substrato flessibile per studiare linguaggio e ragionamento. Sollevano inoltre importanti interrogativi su accuratezza, bias, copyright e consumo energetico, poiché gli output riflettono i dati su cui il modello è stato addestrato.
Tipologie principali e concetti correlati
- Modelli di base (pretrained): modelli grezzi addestrati su ampi corpora di testo, utili come punto di partenza per un ulteriore fine-tuning.
- Modelli ottimizzati per istruzioni o chat: modelli di base ulteriormente addestrati con esempi di istruzioni e dialoghi, così da seguire le richieste degli utenti in modo più affidabile.
- LLM open-weight vs. proprietari: i modelli open-weight (ad esempio la famiglia Llama di Meta, Mistral) rendono pubblici i propri parametri; i modelli proprietari (ad esempio la serie GPT di OpenAI, Claude di Anthropic) sono accessibili tramite API.
- Modelli multimodali: LLM estesi per elaborare anche immagini, audio o video insieme al testo.
- Small Language Model (SLM): modelli compatti progettati per essere eseguiti localmente su dispositivi o in ambienti privati, con costi ridotti.
Un LLM è in definitiva un modello statistico del linguaggio, ma poiché è stato scalato a miliardi di parametri e addestrato su una porzione consistente del web pubblico, si comporta come un assistente straordinariamente versatile. Comprendere cosa sia un LLM, e cosa non sia, è il primo passo per utilizzare questi strumenti in modo efficace e critico.