How many parameters does a large language model have?

Frontier language models today typically range from around 7 billion to over 1 trillion parameters. Open-weights models such as Llama 3 ship in 8B, 70B, and larger variants, while closed systems like GPT-4 and Claude are believed to use hundreds of billions to over a trillion parameters based on third-party scaling analyses.

Are more parameters always better?

Not always. More parameters give a model more representational capacity and usually improve benchmark scores, but they also raise training cost, inference latency, and memory requirements. Modern research shows that data quality, architecture choices, and post-training alignment can matter as much as raw parameter count, which is why smaller well-trained models can sometimes match much larger ones on specific tasks.

What is the difference between parameters and tokens?

Parameters are the learned weights inside the model and stay fixed at inference time. Tokens are the chunks of text the model reads or generates, and the number of tokens processed is what determines compute cost per request. A 70B-parameter model handling a 4,000-token prompt still uses 70 billion weights, but the work scales with how many tokens flow through them.

Can parameters be updated after training?

Yes, through fine-tuning. Techniques like full fine-tuning, LoRA, and QLoRA adjust either all or a small subset of a model's parameters on new data so it specializes in a domain or follows new instructions. LoRA in particular adds only a tiny number of trainable parameters on top of frozen base weights, making adaptation cheap.

Cosa sono i parametri in un modello di IA?

I parametri in un modello di IA sono i valori numerici appresi, memorizzati all'interno di una rete neurale, che controllano come gli input vengono trasformati in output. Ogni parametro è essenzialmente un peso su una connessione tra neuroni artificiali, e un tipico modello linguistico di grandi dimensioni ne contiene da decine a centinaia di miliardi. L'insieme completo dei parametri, spesso chiamato pesi del modello, è l'artefatto prodotto dall'addestramento ed è ciò che viene salvato su disco e caricato al momento dell'inferenza.

Come funzionano i parametri

Durante l'addestramento, il modello elabora esempi, genera previsioni e le confronta con la risposta corretta. Un ottimizzatore modifica quindi leggermente ogni parametro nella direzione che avrebbe ridotto l'errore, un processo chiamato discesa del gradiente. Dopo trilioni di aggiornamenti di questo tipo, i parametri si stabilizzano su valori che codificano pattern statistici relativi al linguaggio, alle immagini o a qualsiasi dato su cui il modello è stato addestrato.

Al momento dell'inferenza, un prompt viene convertito in numeri e fatto passare attraverso decine o centinaia di strati. In ogni strato, l'input viene moltiplicato per matrici di pesi e passato attraverso semplici funzioni non lineari, con meccanismi di attenzione che permettono al modello di mescolare informazioni tra le posizioni. Nessuno dei dati di addestramento originali è memorizzato verbatim nei pesi; piuttosto, i parametri contengono una rappresentazione statistica compressa di essi. Un esempio concreto: in un transformer, le proiezioni di query, key e value per ogni testa di attenzione sono matrici di parametri che decidono a quali parole precedenti il modello presta attenzione quando ne prevede la successiva.

Perché è importante

Il numero di parametri è il proxy più citato per la capacità di un modello, e a ragione: più parametri danno a una rete maggiore capacità di memorizzare e generalizzare pattern, e i più grandi modelli moderni mostrano capacità emergenti che quelli più piccoli non possiedono. Il numero di parametri influenza anche aspetti pratici: la memoria (ogni parametro occupa tipicamente 2 byte in FP16 o 1 byte con una quantizzazione aggressiva), il costo di calcolo per token, la latenza e l'hardware necessario per eseguire o fine-tunare il modello. Ecco perché un modello da 7 miliardi di parametri può girare su un laptop, mentre uno da 400 miliardi solitamente no.

Tipi principali

Pesi: la parte principale dei parametri, memorizzati in matrici che moltiplicano input e stati nascosti.
Bias: piccoli offset additivi (uno per strato o per neurone) che spostano le attivazioni.
Parametri di embedding: le tabelle di lookup che convertono gli ID dei token in vettori, conteggiati nel budget totale dei parametri.
Parametri di attenzione: le proiezioni di query, key, value e output all'interno di ogni blocco transformer.
Parametri feed-forward: i due grandi strati densi in ogni blocco transformer, che di solito rappresentano la maggior parte dei pesi totali.

I parametri vengono anche comunemente raggruppati per precisione. Un modello descritto come "70B" ha 70 miliardi di parametri, ma la sua dimensione su disco dipende dal fatto che siano memorizzati in formato a 32, 16, 8 o 4 bit, ed è per questo che lo stesso modello può variare da circa 140 GB a circa 35 GB su disco. Comprendere i parametri chiarisce quasi ogni altro concetto dell'IA moderna, dal fine-tuning e la quantizzazione alla lunghezza del contesto e al costo di inferenza.

Cos'è Parametri (Modello AI)?

Come funzionano i parametri

Perché è importante

Tipi principali

Domande frequenti