Qu'est-ce que le prompting par chaîne de pensée ?

Le prompting par chaîne de pensée est une technique qui demande à un LLM de raisonner étape par étape avant de répondre, améliorant la précision sur les problèmes de mathématiques, de logique et à plusieurs étapes.

Le prompting par chaîne de pensée (chain-of-thought prompting) est une technique d'ingénierie de prompt dans laquelle un utilisateur demande à un grand modèle de langage de traiter un problème une étape à la fois, en exposant le raisonnement intermédiaire qui mène à la réponse finale. Au lieu de sauter directement à une conclusion, le modèle écrit les étapes logiques en langage naturel, un peu comme un élève qui montre son travail sur un contrôle de maths. Cette technique a été popularisée par Wei et al. (2022) dans Chain-of-Thought Prompting Elicits Reasoning in Large Language Models et est depuis devenue une pierre angulaire du design de prompts moderne.

Comment fonctionne le prompting par chaîne de pensée

L'idée de base est d'une simplicité trompeuse. Lorsqu'un prompt contient un ou plusieurs exemples résolus dans lesquels le modèle démontre une chaîne de raisonnement — « d'abord je fais X, puis je calcule Y, donc Z » — le modèle tend à reproduire cette structure sur le nouveau problème. C'est ce qu'on appelle le prompting par chaîne de pensée en few-shot, et cela ne nécessite aucune modification des poids du modèle ; seul le prompt change.

Une variante plus récente, appelée chaîne de pensée en zero-shot, a été introduite par Kojima et al. (2022). Elle fonctionne en ajoutant une simple phrase magique comme Let's think step by step à n'importe quelle question, ce qui suffit à inciter le modèle à décomposer le problème. Les deux variantes reposent sur la même capacité sous-jacente : les modèles de langage suffisamment grands ont appris des procédures internes pour l'arithmétique et la logique, et exposer ces procédures sous forme de texte améliore mesurable la précision des réponses.

Pourquoi c'est important

Le prompting par chaîne de pensée est important parce qu'il s'attaque directement à l'un des modes d'échec les plus visibles des LLM : des réponses one-shot sûres d'elles mais erronées sur des problèmes à plusieurs étapes. En forçant le modèle à extérioriser son raisonnement, cette technique réduit les erreurs arithmétiques, améliore les performances sur les benchmarks de bon sens et rend le comportement du modèle plus facile à auditer, car un humain peut inspecter chaque étape. C'est désormais une brique de base pour des méthodes plus avancées telles que la self-consistency (échantillonner de nombreuses chaînes et voter pour la réponse), la recherche en tree-of-thought, et les traces de raisonnement produites par les modèles de raisonnement modernes.

Variantes clés

  • CoT few-shot : Le prompt inclut plusieurs exemples rédigés à la main qui démontrent un raisonnement étape par étape avant la vraie question. C'est généralement l'approche la plus fiable pour les modèles plus petits.
  • CoT zero-shot : Il suffit d'ajouter « Let's think step by step » (ou un déclencheur similaire) à n'importe quel prompt. Peu coûteux et étonnamment efficace sur les modèles capables.
  • Self-consistency : Échantillonner de nombreuses chaînes de pensée indépendantes et choisir la réponse finale la plus fréquente, en échangeant du calcul contre de la précision.
  • Tree-of-Thought : Laisser le modèle se ramifier et explorer plusieurs chemins de raisonnement, puis revenir en arrière ou élaguer les chemins faibles — utile pour les puzzles et les tâches de planification.
  • Traces de modèles de raisonnement : Les modèles plus récents, comme ceux de la série o et DeepSeek-R1, sont explicitement entraînés à produire nativement par défaut de longs raisonnements en chaîne de pensée.

Le prompting par chaîne de pensée a transformé « montre ton travail », autrefois règle de classe, en un outil puissant et polyvalent pour obtenir des réponses plus fiables de la part des grands modèles de langage.

Vous aimerez aussi

Articles connexes