How is fine-tuning different from prompt engineering?

Prompt engineering steers a model's behavior at inference time by changing only the input text, without altering the model itself. Fine-tuning actually updates the model's weights by running additional training on a curated dataset. Prompting is faster and cheaper; fine-tuning is more powerful when the desired behavior must be applied consistently across many queries or when it depends on patterns the base model doesn't reliably produce.

How much data do you need to fine-tune a model?

It depends on the task and the method. Full fine-tuning of a large model can require thousands to tens of thousands of high-quality examples. Parameter-efficient methods like LoRA can produce useful results with a few hundred well-chosen examples, especially when the base model already has strong general capabilities. Data quality consistently matters more than raw quantity.

What is LoRA fine-tuning?

LoRA (Low-Rank Adaptation) is a parameter-efficient fine-tuning method that freezes the original model weights and trains only small, low-rank matrices added to each layer. This typically reduces the trainable parameters by more than 90%, making fine-tuning feasible on a single GPU and producing adapters that are only a few megabytes in size.

Does fine-tuning make a model forget what it already knows?

It can. Known as catastrophic forgetting, this happens when fine-tuning on a narrow dataset overwrites earlier capabilities. Practitioners mitigate it by mixing in general-domain data, using a low learning rate, limiting training epochs, and evaluating the model on both the new task and a broader benchmark suite before deployment.

Qu'est-ce que le fine-tuning ? | Glossaire HyperStore

Le fine-tuning consiste à prendre un modèle déjà entraîné sur un vaste corpus de données — souvent un grand modèle de langage comme ceux des familles GPT ou LLaMA — et à poursuivre son entraînement sur un jeu de données plus petit et soigneusement sélectionné. L'objectif est d'orienter le modèle vers un comportement plus précis : répondre à des questions médicales, rédiger dans un ton de marque spécifique, produire du code dans un framework particulier, ou suivre de manière fiable un format de sortie structuré.

Contrairement à un entraînement partant de zéro, le fine-tuning s'appuie sur des représentations déjà apprises plutôt que sur des poids aléatoires. Comme l'essentiel — grammaire, raisonnement et connaissances du monde — a déjà été assimilé, le fine-tuning nécessite généralement beaucoup moins de données et de calcul pour produire des améliorations significatives sur une tâche cible.

Comment fonctionne le fine-tuning

En pratique, les ingénieurs préparent un jeu de données composé d'exemples d'entrées et de sorties souhaitées représentant le comportement qu'ils veulent voir adopter par le modèle. Pour un assistant de support client, il peut s'agir de centaines ou de milliers de résolutions de tickets passés ; pour un outil de revue de code, de paires de pull requests et de commentaires de relecteurs. Le modèle pré-entraîné effectue ensuite des passes d'entraînement supplémentaires sur ce jeu de données, et ses poids sont mis à jour via une optimisation standard par gradient afin de réduire la perte entre les sorties prédites et les sorties cibles.

Une image simple à garder en tête : imaginez un modèle de fondation généraliste comme un interne en médecine qui a lu tous les manuels. Le fine-tuning, c'est l'internat qui le spécialise en radiologie. Ses connaissances de base restent intactes, mais ses décisions au quotidien deviennent nettement focalisées sur un seul domaine.

Pourquoi c'est important

Le fine-tuning est le principal levier dont disposent les équipes pour transformer un modèle généraliste en composant de produit fiable. Il peut améliorer la précision sur des tâches de niche, imposer un style maison, réduire les hallucinations dans un périmètre défini, apprendre des patterns d'utilisation d'outils et aligner les sorties sur des exigences de sécurité ou de conformité. Pour les organisations disposant de données propriétaires ou d'une expertise métier, le fine-tuning permet d'encoder ces connaissances directement dans le modèle plutôt que de s'appuyer uniquement sur des prompts.

Il a aussi une valeur économique : un modèle ouvert plus petit, finement ajusté, peut souvent égaler la qualité d'un modèle généraliste bien plus grand sur un flux de travail spécifique, réduisant ainsi les coûts d'inférence à grande échelle.

Principales variantes

Supervised fine-tuning (SFT) : entraînement sur des paires étiquetées entrée–sortie pour enseigner une compétence ou un format spécifique.
Instruction tuning : forme large de SFT qui apprend au modèle à suivre des instructions en langage naturel sur de nombreuses tâches.
Parameter-efficient fine-tuning (par ex. LoRA, QLoRA) : gèle la plupart des poids et n'entraîne que de petites couches adaptatrices, réduisant les coûts de calcul et de stockage.
Reinforcement learning from human feedback (RLHF) : utilise des classements de préférences humaines pour aller au-delà des exemples supervisés et mieux aligner le modèle.
Continued pretraining : fine-tuning non supervisé sur du texte brut d'un domaine pour y injecter vocabulaire et connaissances avant un SFT spécifique à la tâche.

Le fine-tuning est particulièrement utile lorsque le prompt et la récupération d'information seuls ne permettent pas d'atteindre de manière fiable le niveau de qualité requis, lorsque la latence ou le coût exclut l'usage de très grands modèles, ou lorsque le comportement souhaité dépend de patterns rarement rencontrés par le modèle de base. Pour un panorama accessible, consultez la documentation d'entraînement de Hugging Face, et pour la recette originale à l'origine des modèles suivant les instructions, consultez le papier FLAN.

Qu'est-ce que Fine-Tuning ?

Comment fonctionne le fine-tuning

Pourquoi c'est important

Principales variantes

Frequently Asked Questions