El prompting de cadena de pensamiento es una técnica de ingeniería de prompts en la que el usuario indica a un modelo de lenguaje grande que resuelva un problema paso a paso, exponiendo el razonamiento intermedio que lleva a la respuesta final. En lugar de saltar directamente a una conclusión, el modelo escribe los pasos lógicos en lenguaje natural, de forma similar a como un estudiante muestra su trabajo en un examen de matemáticas. La técnica fue popularizada por Wei et al. (2022) en Chain-of-Thought Prompting Elicits Reasoning in Large Language Models y desde entonces se ha convertido en un pilar del diseño moderno de prompts.
Cómo funciona el prompting de cadena de pensamiento
La idea central es engañosamente sencilla. Cuando un prompt contiene uno o varios ejemplos resueltos en los que el modelo muestra una cadena de razonamiento — "primero hago X, luego calculo Y, por lo tanto Z" — el modelo tiende a imitar esa estructura en el nuevo problema. Esto se conoce como prompting de cadena de pensamiento con ejemplos (few-shot) y no requiere modificar los pesos del modelo; solo cambia el prompt.
Una variante más reciente, llamada cadena de pensamiento sin ejemplos (zero-shot), fue introducida por Kojima et al. (2022). Funciona añadiendo una única frase mágica como Vamos a pensar paso a paso a cualquier pregunta, lo que por sí solo basta para誘導 al modelo a descomponer el problema. Ambas variantes se apoyan en la misma capacidad subyacente: los modelos de lenguaje lo suficientemente grandes han aprendido procedimientos internos para la aritmética y la lógica, y sacar a la luz esos procedimientos en forma de texto mejora de forma medible la precisión de las respuestas.
Por qué es importante
El prompting de cadena de pensamiento es importante porque ataca directamente uno de los modos de fallo más visibles de los LLM: respuestas incorrectas con total confianza en problemas de varios pasos. Al obligar al modelo a exteriorizar su razonamiento, la técnica reduce los errores aritméticos, mejora el rendimiento en pruebas de sentido común y facilita la auditoría del comportamiento del modelo, ya que una persona puede revisar cada paso. Hoy es un bloque de construcción para métodos más avanzados como la autoconsistencia (muestrear muchas cadenas y votar la respuesta), la búsqueda en árbol de pensamiento y los rastros de razonamiento que producen los modelos de razonamiento modernos.
Variantes clave
- CoT con ejemplos (few-shot): El prompt incluye varios ejemplos escritos a mano que muestran razonamiento paso a paso antes de la pregunta real. Suele ser el enfoque más fiable para modelos más pequeños.
- CoT sin ejemplos (zero-shot): Basta con añadir "Vamos a pensar paso a paso" (o un desencadenante similar) a cualquier prompt. Económico y sorprendentemente eficaz en modelos capaces.
- Autoconsistencia (self-consistency): Muestrear muchas cadenas de pensamiento independientes y elegir la respuesta final más común, intercambiando cómputo por precisión.
- Árbol de pensamiento (Tree-of-Thought): Permite que el modelo ramifique y explore múltiples rutas de razonamiento y luego retroceda o pode las débiles — útil para puzles y tareas de planificación.
- Rastros de modelos de razonamiento: Modelos más recientes, como los de la serie o y DeepSeek-R1, están entrenados explícitamente para producir de forma nativa y por defecto un razonamiento largo en cadena de pensamiento.
El prompting de cadena de pensamiento convirtió "muestra tu trabajo" — una regla de aula — en una herramienta potente y de uso general para obtener respuestas más fiables de los modelos de lenguaje grandes.