How is fine-tuning different from prompt engineering?

Prompt engineering steers a model's behavior at inference time by changing only the input text, without altering the model itself. Fine-tuning actually updates the model's weights by running additional training on a curated dataset. Prompting is faster and cheaper; fine-tuning is more powerful when the desired behavior must be applied consistently across many queries or when it depends on patterns the base model doesn't reliably produce.

How much data do you need to fine-tune a model?

It depends on the task and the method. Full fine-tuning of a large model can require thousands to tens of thousands of high-quality examples. Parameter-efficient methods like LoRA can produce useful results with a few hundred well-chosen examples, especially when the base model already has strong general capabilities. Data quality consistently matters more than raw quantity.

What is LoRA fine-tuning?

LoRA (Low-Rank Adaptation) is a parameter-efficient fine-tuning method that freezes the original model weights and trains only small, low-rank matrices added to each layer. This typically reduces the trainable parameters by more than 90%, making fine-tuning feasible on a single GPU and producing adapters that are only a few megabytes in size.

Does fine-tuning make a model forget what it already knows?

It can. Known as catastrophic forgetting, this happens when fine-tuning on a narrow dataset overwrites earlier capabilities. Practitioners mitigate it by mixing in general-domain data, using a low learning rate, limiting training epochs, and evaluating the model on both the new task and a broader benchmark suite before deployment.

Cos'è il fine-tuning? | Glossario HyperStore

Il fine-tuning è la pratica di prendere un modello già addestrato su un ampio corpus di dati — spesso un large language model come uno della famiglia GPT o LLaMA — e continuare quell'addestramento su un dataset più piccolo e selezionato con cura. L'obiettivo è orientare il modello verso un comportamento più circoscritto: rispondere a domande mediche, scrivere con una specifica voce di marca, produrre codice in un determinato framework o seguire in modo affidabile un formato di output strutturato.

A differenza dell'addestramento da zero, il fine-tuning parte da rappresentazioni già apprese piuttosto che da pesi casuali. Poiché la parte più impegnativa dell'apprendimento di grammatica, ragionamento e conoscenza del mondo è già avvenuta, il fine-tuning richiede in genere diversi ordini di grandezza in meno di dati e risorse di calcolo per produrre miglioramenti significativi su un compito specifico.

Come funziona il fine-tuning

In pratica, gli ingegneri preparano un dataset di input di esempio e output desiderati che rappresentano il comportamento che vogliono che il modello mostri. Per un assistente di assistenza clienti, potrebbero essere centinaia o migliaia di risoluzioni di ticket passati; per uno strumento di code review, potrebbero essere coppie di pull request e commenti dei revisori. Il modello pre-addestrato esegue quindi ulteriori passaggi di addestramento su questo dataset e i suoi pesi vengono aggiornati tramite la consueta ottimizzazione basata sul gradiente, in modo che la loss tra gli output previsti e quelli target diminuisca.

Un semplice modello mentale: immagina un modello fondazione generalista come uno specializzando in medicina che ha letto ogni libro di testo. Il fine-tuning è la specializzazione che lo rende un esperto in radiologia. La sua conoscenza di base resta, ma le sue decisioni quotidiane diventano fortemente focalizzate su un unico dominio.

Perché è importante

Il fine-tuning è la leva principale che i team usano per trasformare un modello generalista in una componente di prodotto affidabile. Può aumentare l'accuratezza su compiti di nicchia, imporre uno stile aziendale, ridurre le allucinazioni in un ambito definito, insegnare pattern d'uso degli strumenti e allineare gli output a requisiti di sicurezza o conformità. Per le organizzazioni con dati proprietari o competenze di dominio, il fine-tuning offre un modo per codificare tale conoscenza direttamente nel modello, anziché affidarsi esclusivamente ai prompt.

Ha anche un valore economico: un modello open più piccolo e ottimizzato tramite fine-tuning può spesso eguagliare la qualità di un modello generalista molto più grande su uno specifico workflow, riducendo i costi di inferenza su larga scala.

Tipologie principali

Supervised fine-tuning (SFT): addestramento su coppie input-output etichettate per insegnare un'abilità o un formato specifico.
Instruction tuning: una forma ampia di SFT che addestra il modello a seguire istruzioni in linguaggio naturale su molti compiti.
Parameter-efficient fine-tuning (ad es. LoRA, QLoRA): congela la maggior parte dei pesi e addestra solo piccoli layer adattatori, riducendo i costi di calcolo e archiviazione.
Reinforcement learning from human feedback (RLHF): usa le classificazioni di preferenza umana per allineare ulteriormente il modello oltre gli esempi supervisionati.
Continued pretraining: fine-tuning non supervisionato su testo di dominio non elaborato per iniettare vocabolario e conoscenza prima dell'SFT specifico per il compito.

Il fine-tuning è più utile quando il prompting e il retrieval da soli non riescono a raggiungere in modo affidabile lo standard di qualità, quando la latenza o i costi escludono modelli molto grandi, o quando il comportamento desiderato dipende da pattern che il modello di base ha visto raramente. Per una panoramica accessibile, consulta la documentazione sull'addestramento di Hugging Face, e per la ricetta originale alla base dei modelli che seguono istruzioni, vedi il paper FLAN.

Cos'è Fine-Tuning?

Come funziona il fine-tuning

Perché è importante

Tipologie principali

Frequently Asked Questions