📖

Cos'è Dati di addestramento?

I dati di addestramento sono gli esempi da cui un modello di machine learning apprende. Scopri cosa si intende per dati di addestramento, come influenzano il comportamento del modello e perché la qualità è importante.

I dati di addestramento sono l'insieme di esempi che un modello di machine learning studia per imparare un compito. Ogni esempio abbina tipicamente un input a un output atteso, come un'email associata a un'etichetta di spam o non spam, una frase associata alla sua lingua, o un'immagine associata all'oggetto che contiene. Durante l'addestramento, il modello regola i suoi parametri interni per fare in modo che le sue previsioni corrispondano ai pattern presenti nei dati, quindi il dataset definisce di fatto ciò che il modello imparerà (e non imparerà) a fare.

Come funzionano i dati di addestramento

Nell'apprendimento supervisionato, la configurazione più comune, ogni esempio è annotato con una risposta corretta. Un dataset di recensioni di prodotti, ad esempio, potrebbe essere etichettato come "positivo" o "negativo", e il modello impara a mappare nuove recensioni in quelle categorie individuando le regolarità statistiche che le distinguono. I dati vengono suddivisi in un training set usato per addestrare il modello, un validation set usato per ottimizzarlo e un test set tenuto da parte per stimare le prestazioni su esempi mai visti.

Altri paradigmi si basano su forme di dati diverse. L'apprendimento non supervisionato usa input grezzi senza etichette, spesso per scoprire strutture come cluster o argomenti. L'apprendimento auto-supervisionato genera etichette a partire dai dati stessi, ed è così che la maggior parte dei grandi modelli linguistici viene pre-addestrata su enormi corpora di testo. La scala, l'equilibrio e la rappresentatività del dataset influenzano direttamente ciò a cui il modello può generalizzare.

Perché è importante

I dati di addestramento sono il singolo fattore più determinante del comportamento del modello, spesso più della scelta dell'algoritmo. Se i dati sono distorti, scarsi o non rappresentativi, il modello riprodurrà e a volte amplificherà quei difetti. Anche le preoccupazioni relative a privacy, copyright e consenso risiedono nel livello dei dati, poiché un modello può memorizzare e riproporre frammenti sensibili dal proprio training set. Per questi motivi, la cura, la documentazione e la valutazione dei dati sono diventate parti di primo piano nello sviluppo responsabile dell'IA.

Principali tipi di dati di addestramento

  • Dati etichettati — ogni esempio ha un'annotazione fornita da un umano o generata da una macchina, usati per compiti di apprendimento supervisionato come classificazione e rilevamento.
  • Dati non etichettati — input grezzi senza annotazioni, usati per il pre-addestramento non supervisionato e auto-supervisionato.
  • Dati sintetici — esempi generati da simulatori o altri modelli, utili quando i dati reali sono scarsi o sensibili.
  • Dati di istruzione e preferenza — prompt abbinati a risposte ideali, o coppie di output ordinati per qualità, usati per allineare i modelli all'intento umano.
  • Benchmark di valutazione — test set curati che misurano le capacità, sebbene non vengano usati per addestrare i parametri del modello.

Per un approfondimento sulla costruzione dei dataset e sul suo impatto, il capitolo "Data Quality" del libro Data-Centric AI e le classifiche di Papers with Code sono ottimi punti di partenza.

Domande frequenti

What is the difference between training data and test data?
Training data is the examples a model learns from during the training phase. Test data is a separate, held-out set used only after training to estimate how the model performs on unseen inputs. Keeping the two strictly separate is essential; reusing test data for training produces overly optimistic results that do not reflect real-world performance.
How much training data does a machine learning model need?
It depends on the task and the model. Simple classifiers can perform well with a few thousand labeled examples, while modern large language models are trained on trillions of words. The more relevant and well-labeled the data is, the less of it is typically needed to reach a given level of accuracy.
Can AI be trained without labeled data?
Yes. Unsupervised and self-supervised learning use raw, unlabeled inputs, and most foundation models are first pretrained this way on large text or image corpora. Labels are then often added in a second, smaller fine-tuning stage to specialize the model for a specific task.
Why is training data quality more important than quantity?
Models learn what their data teaches, so noisy, biased, or mislabeled examples teach the wrong patterns. A smaller, carefully curated dataset often outperforms a larger, messier one, which is why data cleaning, deduplication, and balanced sampling are central to modern AI development.