La temperature nell'IA è un iperparametro che controlla la casualità dell'output di un modello rimodellando la distribuzione di probabilità che il modello utilizza per scegliere il token, la parola o il pixel successivo. Viene discussa più comunemente nel contesto dei large language model (LLM) e di altri modelli generativi, dove funge da manopola tra prevedibilità e creatività. Abbassandola, il modello tende a scegliere ogni volta l'opzione più probabile; alzandola, è disposto a rischiare con opzioni meno probabili.
Come funziona la temperature
Prima di generare ogni token, un modello calcola un punteggio grezzo, chiamato logit, per ogni possibilità nel suo vocabolario. Questi logit vengono convertiti in probabilità tramite la funzione softmax, ed è qui che entra in gioco la temperature. Ogni logit viene diviso per il valore di temperature T prima che venga applicata la softmax.
Quando T = 1, la distribuzione rimane invariata. Quando T < 1, le probabilità divergono: i token già probabili diventano ancora più probabili, quindi il campionamento resta vicino alla "migliore ipotesi" del modello. Quando T > 1, la distribuzione si appiattisce e i token a bassa probabilità ottengono una quota maggiore, rendendo gli output più diversificati. Ad esempio, se un modello ritiene che la parola successiva sia "the" con il 60% di confidenza e "a" con il 20%, con temperature 0.2 potrebbe restituire "the" quasi ogni volta, mentre con temperature 1.2 restituirebbe "a" circa una volta su cinque.
Perché è importante
La temperature è una delle leve più semplici e potenti per modellare il comportamento di un modello senza doverlo riaddestrare. Temperature basse sono preferite per attività che richiedono precisione, come la generazione di codice, il question answering fattuale e l'estrazione di dati strutturati, dove le allucinazioni sono costose. Temperature più alte sono utili per brainstorming, storytelling e dialogo, dove novità e varietà contano più dell'esattezza.
È anche una parte fondamentale del prompt engineering. La maggior parte delle API per LLM, incluse quelle di OpenAI, Anthropic e Google, espone la temperature come parametro regolabile insieme a controlli correlati come top-p (nucleus sampling) e top-k. Poiché influisce direttamente sull'esperienza utente, è una delle prime impostazioni che gli sviluppatori regolano quando si passa da una demo a un modello in produzione.
Range di temperature chiave e quando usarli
- 0.0 — Decodifica greedy. Il modello sceglie sempre il token con la probabilità più alta. Determinismo massimo; utile per codice o matematica riproducibili.
- 0.0–0.3 — Bassa e focalizzata. Adatta per traduzione, riassunto, classificazione e risposte basate sui fatti.
- 0.4–0.7 — Bilanciata. Un default comune per assistenti conversazionali generici.
- 0.7–1.0 — Più varia. Utile per scrittura creativa, copy marketing e generazione di idee.
- 1.0+ — Altamente casuale. Gli output possono diventare incoerenti; raramente usata al di fuori della ricerca o dell'arte sperimentale.
La temperature va intesa come una manopola, non come un verdetto. Abbinala al campionamento top-p o top-k e regolala in base all'attività, al modello e al pubblico specifici, poiché lo stesso valore può risultare molto diverso a seconda delle applicazioni.