Che cos'è l'apprendimento zero-shot?

Apprendimento zero-shot spiegato: come i modelli riconoscono o gestiscono classi che non hanno mai visto durante l'addestramento e perché è importante per un'IA scalabile.

HyperStore · Pubblicato il 2026-06-20

#AI concepts #foundation models #machine learning #transfer learning #zero-shot learning

L'apprendimento zero-shot (ZSL) è un paradigma di machine learning in cui un modello è chiamato a fare previsioni accurate su categorie o attività che non ha mai visto durante l'addestramento. Invece di apprendere ogni nuova classe a partire da esempi etichettati, il modello si appoggia a informazioni ausiliarie — come descrizioni di attributi, nomi delle classi o istruzioni in linguaggio naturale — per generalizzare al caso sconosciuto. Questo approccio è diventato centrale nel funzionamento dei moderni modelli di base, perché consente a un unico modello di gestire migliaia di attività senza riaddestramento.

Come funziona l'apprendimento zero-shot

L'idea di fondo è apprendere uno spazio semantico condiviso in cui possano essere rappresentate sia le classi viste sia quelle mai viste. Durante l'addestramento, il modello abbina esempi etichettati a informazioni descrittive (per esempio, un'immagine etichettata come "zebra" viene associata al testo "un animale simile a un cavallo con strisce bianche e nere"). Impara così ad allineare le due modalità, in modo che, al momento dell'inferenza, un input non etichettato possa essere confrontato con la descrizione testuale o attributiva più simile — incluse descrizioni di classi su cui non è mai stato addestrato.

Modelli linguistici e vision-language di grandi dimensioni come CLIP, GPT e Gemini portano questa idea ancora più in là. Vengono addestrati su ampi corpora di dati appaiati immagine-testo o istruzione-risposta, e poi ricevono in ingresso, al momento dell'inferenza, una descrizione dell'output desiderato. Un esempio semplice: dato il prompt "Classifica questa recensione come positiva, negativa o indifferente," un modello che non è mai stato fine-tunato su dati di sentiment può comunque produrre una risposta utile, perché è il linguaggio stesso del prompt a fornire le definizioni di classe mancanti. Per un trattamento più formale, si veda l'articolo originale di NeurIPS 2009 di Palatucci et al. che ha contribuito a definire questo scenario.

Perché è importante

L'apprendimento zero-shot affronta uno dei colli di bottiglia più costosi dell'IA applicata: i dati etichettati. Raccogliere e annotare esempi per ogni nuova classe, lingua o attività è lento e spesso poco pratico, soprattutto in domini a coda lunga come specie rare, difetti industriali di nicchia o lingue a basso livello di risorse. Attingendo alla struttura condivisa appresa da altri esempi, i metodi zero-shot possono offrire prestazioni utili in questi contesti senza ulteriore addestramento.

Rende inoltre i prodotti più flessibili. Un singolo classificatore di immagini può essere orientato verso una nuova categoria in tempo reale modificando il prompt testuale, un singolo modello di traduzione può cambiare lingua senza riaddestramento, e un singolo assistente può adottare nuovi ruoli o formati su richiesta. Questa generalità è una delle ragioni principali per cui CLIP e modelli vision-language simili sono diventati componenti predefiniti nelle moderne pipeline di computer vision.

Tipologie principali

ZSL tradizionale basato su attributi: ogni classe è descritta da un vettore di attributi definito a mano (ad esempio "ha le ali", "vive in acqua"), e il modello impara a prevedere questi attributi per le classi mai viste.
ZSL basato su embedding: le classi sono rappresentate come embedding in uno spazio condiviso (spesso ricavati da word vector o modelli linguistici), e le nuove classi vengono abbinate per somiglianza agli embedding predetti dell'input.
ZSL generativo: un modello generativo sintetizza feature artificiali per le classi mai viste, trasformando di fatto lo zero-shot in un normale problema supervisionato.
ZSL basato su prompt con modelli di base: la specifica del compito viene fornita in linguaggio naturale; il modello interpreta il prompt e risponde senza alcun aggiornamento dei parametri.

L'apprendimento zero-shot non è magia — le sue prestazioni restano inferiori a quelle dei modelli completamente supervisionati quando si dispone di molti dati etichettati, e può fallire quando le descrizioni ausiliarie sono ambigue o fuorvianti. Ciononostante, è ormai un'aspettativa standard per i grandi sistemi di IA, e la capacità di generalizzare a nuovi compiti partendo solo dalle istruzioni è un tratto distintivo dei modelli più capaci di oggi.

Come funziona l'apprendimento zero-shot

Perché è importante

Tipologie principali

Potrebbe interessarti anche

Cos'è il text-to-video?

Cosa sono le AI Guardrails?

Cos'è un Knowledge Graph?

Articoli correlati

Cos'è un LLM open-source?

Che cos'è il dato sintetico?

Cos'è l'Overfitting?