Cosa sono i parametri in un modello di IA?

I parametri sono i pesi numerici appresi all'interno di una rete neurale. Scopri cosa sono, come funzionano e perché la dimensione dei modelli si misura in miliardi.

I parametri in un modello di IA sono i valori numerici appresi, memorizzati all'interno di una rete neurale, che controllano come gli input vengono trasformati in output. Ogni parametro è essenzialmente un peso su una connessione tra neuroni artificiali, e un tipico modello linguistico di grandi dimensioni ne contiene da decine a centinaia di miliardi. L'insieme completo dei parametri, spesso chiamato pesi del modello, è l'artefatto prodotto dall'addestramento ed è ciò che viene salvato su disco e caricato al momento dell'inferenza.

Come funzionano i parametri

Durante l'addestramento, il modello elabora esempi, genera previsioni e le confronta con la risposta corretta. Un ottimizzatore modifica quindi leggermente ogni parametro nella direzione che avrebbe ridotto l'errore, un processo chiamato discesa del gradiente. Dopo trilioni di aggiornamenti di questo tipo, i parametri si stabilizzano su valori che codificano pattern statistici relativi al linguaggio, alle immagini o a qualsiasi dato su cui il modello è stato addestrato.

Al momento dell'inferenza, un prompt viene convertito in numeri e fatto passare attraverso decine o centinaia di strati. In ogni strato, l'input viene moltiplicato per matrici di pesi e passato attraverso semplici funzioni non lineari, con meccanismi di attenzione che permettono al modello di mescolare informazioni tra le posizioni. Nessuno dei dati di addestramento originali è memorizzato verbatim nei pesi; piuttosto, i parametri contengono una rappresentazione statistica compressa di essi. Un esempio concreto: in un transformer, le proiezioni di query, key e value per ogni testa di attenzione sono matrici di parametri che decidono a quali parole precedenti il modello presta attenzione quando ne prevede la successiva.

Perché è importante

Il numero di parametri è il proxy più citato per la capacità di un modello, e a ragione: più parametri danno a una rete maggiore capacità di memorizzare e generalizzare pattern, e i più grandi modelli moderni mostrano capacità emergenti che quelli più piccoli non possiedono. Il numero di parametri influenza anche aspetti pratici: la memoria (ogni parametro occupa tipicamente 2 byte in FP16 o 1 byte con una quantizzazione aggressiva), il costo di calcolo per token, la latenza e l'hardware necessario per eseguire o fine-tunare il modello. Ecco perché un modello da 7 miliardi di parametri può girare su un laptop, mentre uno da 400 miliardi solitamente no.

Tipi principali

  • Pesi: la parte principale dei parametri, memorizzati in matrici che moltiplicano input e stati nascosti.
  • Bias: piccoli offset additivi (uno per strato o per neurone) che spostano le attivazioni.
  • Parametri di embedding: le tabelle di lookup che convertono gli ID dei token in vettori, conteggiati nel budget totale dei parametri.
  • Parametri di attenzione: le proiezioni di query, key, value e output all'interno di ogni blocco transformer.
  • Parametri feed-forward: i due grandi strati densi in ogni blocco transformer, che di solito rappresentano la maggior parte dei pesi totali.

I parametri vengono anche comunemente raggruppati per precisione. Un modello descritto come "70B" ha 70 miliardi di parametri, ma la sua dimensione su disco dipende dal fatto che siano memorizzati in formato a 32, 16, 8 o 4 bit, ed è per questo che lo stesso modello può variare da circa 140 GB a circa 35 GB su disco. Comprendere i parametri chiarisce quasi ogni altro concetto dell'IA moderna, dal fine-tuning e la quantizzazione alla lunghezza del contesto e al costo di inferenza.

Potrebbe interessarti anche

Articoli correlati