What is a good temperature value for ChatGPT or other LLMs?

A temperature between 0.2 and 0.7 is a sensible starting point for most tasks. Use the lower end for factual answers, coding, and summarization where consistency matters, and the higher end for brainstorming or creative writing where variety is welcome. Many production systems default to around 0.7 for general conversation.

What is the difference between temperature and top-p in AI?

Temperature rescales the entire probability distribution, making it sharper or flatter before a token is sampled. Top-p (nucleus sampling) instead trims the distribution to the smallest set of tokens whose combined probability exceeds a threshold like 0.9. The two settings are complementary: temperature changes how spread out probabilities are, while top-p changes how many candidates are considered at all.

Does temperature 0 make AI outputs identical every time?

Usually, yes, but not always. Temperature 0 (greedy decoding) makes the model pick the single most probable next token at every step, so on a fixed prompt with no other randomness in the pipeline, the output is reproducible. In practice, parallelism, batching, and floating-point quirks on GPUs can occasionally introduce small variations, which is why some teams still set very low values like 0.01 instead of true zero for strict reproducibility.

Can higher temperature make a model more accurate?

Not in general. Higher temperature increases diversity and creativity but also raises the chance of factual errors and hallucinations. For tasks where accuracy is measured against a known answer, lower temperatures almost always perform better on benchmarks. Higher temperatures can occasionally help on tasks with many valid responses, where exploration unlocks a better answer than the model's first guess.

Cos'è la Temperature nell'IA? Significato e guida

La temperature nell'IA è un iperparametro che controlla la casualità dell'output di un modello rimodellando la distribuzione di probabilità che il modello utilizza per scegliere il token, la parola o il pixel successivo. Viene discussa più comunemente nel contesto dei large language model (LLM) e di altri modelli generativi, dove funge da manopola tra prevedibilità e creatività. Abbassandola, il modello tende a scegliere ogni volta l'opzione più probabile; alzandola, è disposto a rischiare con opzioni meno probabili.

Come funziona la temperature

Prima di generare ogni token, un modello calcola un punteggio grezzo, chiamato logit, per ogni possibilità nel suo vocabolario. Questi logit vengono convertiti in probabilità tramite la funzione softmax, ed è qui che entra in gioco la temperature. Ogni logit viene diviso per il valore di temperature T prima che venga applicata la softmax.

Quando T = 1, la distribuzione rimane invariata. Quando T < 1, le probabilità divergono: i token già probabili diventano ancora più probabili, quindi il campionamento resta vicino alla "migliore ipotesi" del modello. Quando T > 1, la distribuzione si appiattisce e i token a bassa probabilità ottengono una quota maggiore, rendendo gli output più diversificati. Ad esempio, se un modello ritiene che la parola successiva sia "the" con il 60% di confidenza e "a" con il 20%, con temperature 0.2 potrebbe restituire "the" quasi ogni volta, mentre con temperature 1.2 restituirebbe "a" circa una volta su cinque.

Perché è importante

La temperature è una delle leve più semplici e potenti per modellare il comportamento di un modello senza doverlo riaddestrare. Temperature basse sono preferite per attività che richiedono precisione, come la generazione di codice, il question answering fattuale e l'estrazione di dati strutturati, dove le allucinazioni sono costose. Temperature più alte sono utili per brainstorming, storytelling e dialogo, dove novità e varietà contano più dell'esattezza.

È anche una parte fondamentale del prompt engineering. La maggior parte delle API per LLM, incluse quelle di OpenAI, Anthropic e Google, espone la temperature come parametro regolabile insieme a controlli correlati come top-p (nucleus sampling) e top-k. Poiché influisce direttamente sull'esperienza utente, è una delle prime impostazioni che gli sviluppatori regolano quando si passa da una demo a un modello in produzione.

Range di temperature chiave e quando usarli

0.0 — Decodifica greedy. Il modello sceglie sempre il token con la probabilità più alta. Determinismo massimo; utile per codice o matematica riproducibili.
0.0–0.3 — Bassa e focalizzata. Adatta per traduzione, riassunto, classificazione e risposte basate sui fatti.
0.4–0.7 — Bilanciata. Un default comune per assistenti conversazionali generici.
0.7–1.0 — Più varia. Utile per scrittura creativa, copy marketing e generazione di idee.
1.0+ — Altamente casuale. Gli output possono diventare incoerenti; raramente usata al di fuori della ricerca o dell'arte sperimentale.

La temperature va intesa come una manopola, non come un verdetto. Abbinala al campionamento top-p o top-k e regolala in base all'attività, al modello e al pubblico specifici, poiché lo stesso valore può risultare molto diverso a seconda delle applicazioni.

Cos'è Temperatura (AI)?

Come funziona la temperature

Perché è importante

Range di temperature chiave e quando usarli

Domande frequenti