I dati di addestramento sono l'insieme di esempi che un modello di machine learning studia per imparare un compito. Ogni esempio abbina tipicamente un input a un output atteso, come un'email associata a un'etichetta di spam o non spam, una frase associata alla sua lingua, o un'immagine associata all'oggetto che contiene. Durante l'addestramento, il modello regola i suoi parametri interni per fare in modo che le sue previsioni corrispondano ai pattern presenti nei dati, quindi il dataset definisce di fatto ciò che il modello imparerà (e non imparerà) a fare.
Come funzionano i dati di addestramento
Nell'apprendimento supervisionato, la configurazione più comune, ogni esempio è annotato con una risposta corretta. Un dataset di recensioni di prodotti, ad esempio, potrebbe essere etichettato come "positivo" o "negativo", e il modello impara a mappare nuove recensioni in quelle categorie individuando le regolarità statistiche che le distinguono. I dati vengono suddivisi in un training set usato per addestrare il modello, un validation set usato per ottimizzarlo e un test set tenuto da parte per stimare le prestazioni su esempi mai visti.
Altri paradigmi si basano su forme di dati diverse. L'apprendimento non supervisionato usa input grezzi senza etichette, spesso per scoprire strutture come cluster o argomenti. L'apprendimento auto-supervisionato genera etichette a partire dai dati stessi, ed è così che la maggior parte dei grandi modelli linguistici viene pre-addestrata su enormi corpora di testo. La scala, l'equilibrio e la rappresentatività del dataset influenzano direttamente ciò a cui il modello può generalizzare.
Perché è importante
I dati di addestramento sono il singolo fattore più determinante del comportamento del modello, spesso più della scelta dell'algoritmo. Se i dati sono distorti, scarsi o non rappresentativi, il modello riprodurrà e a volte amplificherà quei difetti. Anche le preoccupazioni relative a privacy, copyright e consenso risiedono nel livello dei dati, poiché un modello può memorizzare e riproporre frammenti sensibili dal proprio training set. Per questi motivi, la cura, la documentazione e la valutazione dei dati sono diventate parti di primo piano nello sviluppo responsabile dell'IA.
Principali tipi di dati di addestramento
- Dati etichettati — ogni esempio ha un'annotazione fornita da un umano o generata da una macchina, usati per compiti di apprendimento supervisionato come classificazione e rilevamento.
- Dati non etichettati — input grezzi senza annotazioni, usati per il pre-addestramento non supervisionato e auto-supervisionato.
- Dati sintetici — esempi generati da simulatori o altri modelli, utili quando i dati reali sono scarsi o sensibili.
- Dati di istruzione e preferenza — prompt abbinati a risposte ideali, o coppie di output ordinati per qualità, usati per allineare i modelli all'intento umano.
- Benchmark di valutazione — test set curati che misurano le capacità, sebbene non vengano usati per addestrare i parametri del modello.
Per un approfondimento sulla costruzione dei dataset e sul suo impatto, il capitolo "Data Quality" del libro Data-Centric AI e le classifiche di Papers with Code sono ottimi punti di partenza.