📖

Qu'est-ce que Chain-of-Thought Prompting ?

Le prompting par chaîne de pensée est une technique qui demande à un LLM de raisonner étape par étape avant de répondre, améliorant la précision sur les problèmes de mathématiques, de logique et à plusieurs étapes.

Le prompting par chaîne de pensée (chain-of-thought prompting) est une technique d'ingénierie de prompt dans laquelle un utilisateur demande à un grand modèle de langage de traiter un problème une étape à la fois, en exposant le raisonnement intermédiaire qui mène à la réponse finale. Au lieu de sauter directement à une conclusion, le modèle écrit les étapes logiques en langage naturel, un peu comme un élève qui montre son travail sur un contrôle de maths. Cette technique a été popularisée par Wei et al. (2022) dans Chain-of-Thought Prompting Elicits Reasoning in Large Language Models et est depuis devenue une pierre angulaire du design de prompts moderne.

Comment fonctionne le prompting par chaîne de pensée

L'idée de base est d'une simplicité trompeuse. Lorsqu'un prompt contient un ou plusieurs exemples résolus dans lesquels le modèle démontre une chaîne de raisonnement — « d'abord je fais X, puis je calcule Y, donc Z » — le modèle tend à reproduire cette structure sur le nouveau problème. C'est ce qu'on appelle le prompting par chaîne de pensée en few-shot, et cela ne nécessite aucune modification des poids du modèle ; seul le prompt change.

Une variante plus récente, appelée chaîne de pensée en zero-shot, a été introduite par Kojima et al. (2022). Elle fonctionne en ajoutant une simple phrase magique comme Let's think step by step à n'importe quelle question, ce qui suffit à inciter le modèle à décomposer le problème. Les deux variantes reposent sur la même capacité sous-jacente : les modèles de langage suffisamment grands ont appris des procédures internes pour l'arithmétique et la logique, et exposer ces procédures sous forme de texte améliore mesurable la précision des réponses.

Pourquoi c'est important

Le prompting par chaîne de pensée est important parce qu'il s'attaque directement à l'un des modes d'échec les plus visibles des LLM : des réponses one-shot sûres d'elles mais erronées sur des problèmes à plusieurs étapes. En forçant le modèle à extérioriser son raisonnement, cette technique réduit les erreurs arithmétiques, améliore les performances sur les benchmarks de bon sens et rend le comportement du modèle plus facile à auditer, car un humain peut inspecter chaque étape. C'est désormais une brique de base pour des méthodes plus avancées telles que la self-consistency (échantillonner de nombreuses chaînes et voter pour la réponse), la recherche en tree-of-thought, et les traces de raisonnement produites par les modèles de raisonnement modernes.

Variantes clés

  • CoT few-shot : Le prompt inclut plusieurs exemples rédigés à la main qui démontrent un raisonnement étape par étape avant la vraie question. C'est généralement l'approche la plus fiable pour les modèles plus petits.
  • CoT zero-shot : Il suffit d'ajouter « Let's think step by step » (ou un déclencheur similaire) à n'importe quel prompt. Peu coûteux et étonnamment efficace sur les modèles capables.
  • Self-consistency : Échantillonner de nombreuses chaînes de pensée indépendantes et choisir la réponse finale la plus fréquente, en échangeant du calcul contre de la précision.
  • Tree-of-Thought : Laisser le modèle se ramifier et explorer plusieurs chemins de raisonnement, puis revenir en arrière ou élaguer les chemins faibles — utile pour les puzzles et les tâches de planification.
  • Traces de modèles de raisonnement : Les modèles plus récents, comme ceux de la série o et DeepSeek-R1, sont explicitement entraînés à produire nativement par défaut de longs raisonnements en chaîne de pensée.

Le prompting par chaîne de pensée a transformé « montre ton travail », autrefois règle de classe, en un outil puissant et polyvalent pour obtenir des réponses plus fiables de la part des grands modèles de langage.

Questions fréquemment posées

Do all large language models benefit from chain-of-thought prompting?
The benefit scales with model size. The original 2022 paper found meaningful gains only on models with roughly 100B+ parameters, while smaller models often produced fluent but incorrect reasoning. Modern frontier models, including most released since 2023, respond well to chain-of-thought prompting across a wide range of tasks.
What is the difference between chain-of-thought prompting and chain-of-thought training?
Chain-of-thought prompting is a technique applied at inference time: the user simply asks the model to reason step by step, and no training occurs. Chain-of-thought training, sometimes called fine-tuning on reasoning traces, involves updating the model's weights on datasets of worked solutions so it produces step-by-step reasoning by default. The two are complementary and often combined.
Is chain-of-thought prompting the same as letting the model "think out loud"?
Functionally, yes, but the distinction matters for evaluation. "Thinking out loud" describes any free-form monologue, while chain-of-thought is a specific structured approach that has been measured against baselines and shown to improve accuracy on benchmarks such as GSM8K for math and StrategyQA for commonsense reasoning. The key is that the chain is decomposed into discrete, verifiable steps rather than left as a single fluid paragraph.
Does chain-of-thought prompting always make models more accurate?
No. It helps most on tasks that require multi-step arithmetic, logical deduction, or commonsense reasoning. For simple factual lookups, single-step classification, or creative writing, adding "think step by step" can add verbosity without improving — and occasionally hurting — performance. It also does not guarantee correctness: a chain of thought can be confidently wrong, which is why techniques like self-consistency and verification steps are often layered on top.