O que é o Chain-of-Thought Prompting?

O chain-of-thought prompting é uma técnica que pede a um LLM que raciocine passo a passo antes de responder, aumentando a precisão em problemas de matemática, lógica e problemas com vários passos.

O chain-of-thought prompting é uma técnica de engenharia de prompts em que o utilizador instrui um grande modelo de linguagem a resolver um problema um passo de cada vez, expondo o raciocínio intermédio que conduz à resposta final. Em vez de saltar diretamente para uma conclusão, o modelo escreve os passos lógicos em linguagem natural, tal como um aluno que mostra o seu raciocínio num teste de matemática. A técnica foi popularizada por Wei et al. (2022) em Chain-of-Thought Prompting Elicits Reasoning in Large Language Models e tornou-se, desde então, um pilar do design moderno de prompts.

Como funciona o Chain-of-Thought Prompting

A ideia central é enganadoramente simples. Quando um prompt contém um ou mais exemplos resolvidos em que o modelo demonstra uma cadeia de raciocínio — "primeiro faço X, depois calculo Y, logo Z" — o modelo tende a imitar essa estrutura no novo problema. Isto é conhecido como chain-of-thought prompting few-shot e não requer alterações nos pesos do modelo; apenas o prompt muda.

Uma variante mais recente, chamada chain-of-thought zero-shot, foi introduzida por Kojima et al. (2022). Funciona acrescentando uma única frase mágica, como Let's think step by step, a qualquer pergunta, o que, por si só, basta para诱导 o modelo a decompor o problema. Ambas as variantes dependem da mesma capacidade subjacente: modelos de linguagem suficientemente grandes aprenderam procedimentos internos para aritmética e lógica, e expor esses procedimentos como texto melhora de forma mensurável a precisão das respostas.

Por que é importante

O chain-of-thought prompting é importante porque ataca diretamente um dos modos de falha mais visíveis dos LLMs: respostas únicas e confiantemente erradas em problemas com vários passos. Ao forçar o modelo a externalizar o seu raciocínio, a técnica reduz erros aritméticos, melhora o desempenho em benchmarks de bom senso e facilita a auditoria do comportamento do modelo, porque um humano pode inspecionar cada passo. É agora um bloco de construção para métodos mais avançados, como self-consistency (amostrar muitas cadeias e votar na resposta), pesquisa tree-of-thought e os traços de raciocínio produzidos pelos modelos de raciocínio modernos.

Variantes principais

  • Few-shot CoT: O prompt inclui vários exemplos escritos à mão que demonstram raciocínio passo a passo antes da pergunta real. Geralmente, é a abordagem mais fiável para modelos mais pequenos.
  • Zero-shot CoT: Basta acrescentar "Let's think step by step" (ou um gatilho semelhante) a qualquer prompt. Económico e surpreendentemente eficaz em modelos capazes.
  • Self-consistency: Amostrar muitas cadeias de pensamento independentes e escolher a resposta final mais comum, trocando computação por precisão.
  • Tree-of-Thought: Deixar o modelo ramificar e explorar múltiplos caminhos de raciocínio, depois retroceder ou podar os mais fracos — útil para puzzles e tarefas de planeamento.
  • Traços de modelos de raciocínio: Modelos mais recentes, como os da série o e o DeepSeek-R1, são explicitamente treinados para produzir nativamente, por predefinição, raciocínio longo em cadeia de pensamento.

O chain-of-thought prompting transformou o "mostre o seu raciocínio" de uma regra de sala de aula numa ferramenta poderosa e versátil para obter respostas mais fiáveis a partir de grandes modelos de linguagem.

Também pode gostar

Artigos relacionados