Do all large language models benefit from chain-of-thought prompting?

The benefit scales with model size. The original 2022 paper found meaningful gains only on models with roughly 100B+ parameters, while smaller models often produced fluent but incorrect reasoning. Modern frontier models, including most released since 2023, respond well to chain-of-thought prompting across a wide range of tasks.

What is the difference between chain-of-thought prompting and chain-of-thought training?

Chain-of-thought prompting is a technique applied at inference time: the user simply asks the model to reason step by step, and no training occurs. Chain-of-thought training, sometimes called fine-tuning on reasoning traces, involves updating the model's weights on datasets of worked solutions so it produces step-by-step reasoning by default. The two are complementary and often combined.

Is chain-of-thought prompting the same as letting the model "think out loud"?

Functionally, yes, but the distinction matters for evaluation. "Thinking out loud" describes any free-form monologue, while chain-of-thought is a specific structured approach that has been measured against baselines and shown to improve accuracy on benchmarks such as GSM8K for math and StrategyQA for commonsense reasoning. The key is that the chain is decomposed into discrete, verifiable steps rather than left as a single fluid paragraph.

Does chain-of-thought prompting always make models more accurate?

No. It helps most on tasks that require multi-step arithmetic, logical deduction, or commonsense reasoning. For simple factual lookups, single-step classification, or creative writing, adding "think step by step" can add verbosity without improving — and occasionally hurting — performance. It also does not guarantee correctness: a chain of thought can be confidently wrong, which is why techniques like self-consistency and verification steps are often layered on top.

Cos'è il Chain-of-Thought Prompting? Una guida per principianti

Il chain-of-thought prompting è una tecnica di prompt engineering in cui un utente indica a un large language model di affrontare un problema un passo alla volta, esponendo il ragionamento intermedio che porta alla risposta finale. Invece di saltare direttamente a una conclusione, il modello scrive i passaggi logici in linguaggio naturale, proprio come uno studente che mostra il proprio lavoro in un compito di matematica. La tecnica è stata resa popolare da Wei et al. (2022) in Chain-of-Thought Prompting Elicits Reasoning in Large Language Models ed è diventata una pietra miliare del moderno prompt design.

Come funziona il Chain-of-Thought Prompting

L'idea di base è ingannevolmente semplice. Quando un prompt contiene uno o più esempi svolti in cui il modello dimostra una catena di ragionamento — "prima faccio X, poi calcolo Y, quindi Z" — il modello tende a imitare quella struttura sul nuovo problema. Questo è noto come chain-of-thought prompting few-shot e non richiede modifiche ai pesi del modello; cambia solo il prompt.

Una variante più recente, chiamata chain-of-thought zero-shot, è stata introdotta da Kojima et al. (2022). Funziona aggiungendo una singola frase magica come Let's think step by step a qualsiasi domanda, che da sola è sufficiente a indurre il modello a scomporre il problema. Entrambe le varianti si basano sulla stessa capacità sottostante: i modelli linguistici sufficientemente grandi hanno appreso procedure interne per l'aritmetica e la logica, e rendere esplicite queste procedure sotto forma di testo migliora misurabilmente l'accuratezza delle risposte.

Perché è importante

Il chain-of-thought prompting è importante perché attacca direttamente una delle modalità di errore più evidenti degli LLM: risposte one-shot sicure ma sbagliate su problemi multi-step. Costringendo il modello a esternalizzare il proprio ragionamento, la tecnica riduce gli errori aritmetici, migliora le prestazioni sui benchmark di commonsense e rende il comportamento del modello più facile da verificare, perché un essere umano può esaminare ogni passaggio. È ora un elemento fondamentale per metodi più avanzati come la self-consistency (campionando molte catene e votando la risposta), la ricerca tree-of-thought e le tracce di ragionamento prodotte dai moderni reasoning model.

Varianti principali

Few-shot CoT: il prompt include diversi esempi scritti manualmente che dimostrano un ragionamento passo dopo passo prima della domanda reale. Solitamente è l'approccio più affidabile per i modelli più piccoli.
Zero-shot CoT: basta aggiungere "Let's think step by step" (o un trigger simile) a qualsiasi prompt. Economico e sorprendentemente efficace su modelli capaci.
Self-consistency: campiona molte catene di pensiero indipendenti e sceglie la risposta finale più comune, scambiando potenza di calcolo con accuratezza.
Tree-of-Thought: lascia che il modello si dirami ed esplori più percorsi di ragionamento, quindi torni indietro o scarti quelli deboli — utile per puzzle e attività di pianificazione.
Tracce dei reasoning model: i modelli più recenti come quelli della serie o e DeepSeek-R1 sono addestrati esplicitamente per produrre nativamente lunghi ragionamenti chain-of-thought per impostazione predefinita.

Il chain-of-thought prompting ha trasformato il "mostra il tuo lavoro" da una regola scolastica a uno strumento potente e general-purpose per ottenere risposte più affidabili dai large language model.

Cos'è Prompting Chain-of-Thought?

Come funziona il Chain-of-Thought Prompting

Perché è importante

Varianti principali

Domande frequenti