Che cos'è un Transformer?

Il Transformer è un'architettura di rete neurale basata sul self-attention che alimenta gli attuali modelli linguistici di grandi dimensioni. Scopri come funziona e perché è importante.

Un Transformer è un tipo di rete neurale progettata per elaborare sequenze di dati — soprattutto il linguaggio — confrontando ogni elemento dell'input con ogni altro elemento nello stesso momento. Invece di leggere rigorosamente da sinistra a destra come le reti ricorrenti più vecchie, utilizza un meccanismo chiamato self-attention per apprendere quali parole, token o posizioni contano di più l'una per l'altra, indipendentemente dalla loro distanza. Questa progettazione parallela rende i Transformer più veloci da addestrare sull'hardware moderno e notevolmente migliori nel cogliere le dipendenze a lungo raggio, ed è per questo che oggi alimentano quasi tutti i modelli linguistici di grandi dimensioni più avanzati.

Come funziona un Transformer

Il cuore di un Transformer è l'operazione di self-attention. Ogni token di input viene proiettato in tre vettori — chiamati query, key e value. Per comprendere un token, il modello confronta la sua query con le key di ogni altro token, producendo un insieme di punteggi di attenzione che dicono "quanto devo concentrarmi su ciascuno di voi?" Questi punteggi vengono normalizzati in pesi, e una somma ponderata dei value vettori diventa la nuova rappresentazione di quel token. Il multi-head attention esegue diversi confronti di questo tipo in parallelo, permettendo al modello di tracciare simultaneamente diversi tipi di relazioni — grammatica, coreferenza, sentiment e altro ancora.

Stack di questi blocchi di attenzione, ciascuno seguito da una piccola rete feed-forward e connessioni residue, formano il modello completo. Un positional encoding viene aggiunto agli input così che la rete conosca l'ordine dei token, dato che l'attention di per sé è agnostica rispetto alla permutazione. Durante l'addestramento, un Transformer solo-decoder prevede il token successivo in una sequenza; con abbastanza dati e parametri, questo semplice obiettivo produce le capacità di ragionamento, traduzione e generazione di codice osservate in sistemi come GPT.

Perché è importante

Prima dei Transformer, le reti neurali ricorrenti (RNN) e le LSTM elaboravano il testo un token alla volta, il che era lento e faceva fatica con i contesti lunghi. Il self-attention parallelo del Transformer ha permesso ai ricercatori di scalare i modelli fino a miliardi di parametri addestrati su corpora su scala web, sbloccando le capacità degli LLM moderni. La stessa architettura è stata poi adattata alle immagini (vision transformer), all'audio, alle proteine e all'apprendimento per rinforzo, diventando il paradigma dominante del deep learning contemporaneo.

Tipi principali

  • Transformer solo-encoder — come BERT, ottimizzati per compiti di comprensione come classificazione, ranking di ricerca ed embeddings.
  • Transformer solo-decoder — come GPT e Llama, ottimizzati per generare testo un token alla volta.
  • Transformer encoder-decoder — come il modello originale "Attention Is All You Need" e T5, usati per traduzione e compiti sequence-to-sequence.
  • Vision Transformer (ViT) — applicano il self-attention a porzioni di un'immagine invece che a parole.
  • Transformer Mixture-of-Experts (MoE) — instradano ogni token verso un sottoinsieme di sotto-reti "esperte", aumentando la capacità senza un costo computazionale proporzionale.

Dal 2017, il Transformer ha rimodellato sia la ricerca sull'IA sia l'ingegneria del prodotto, e la maggior parte delle app nel catalogo di HyperStore — chatbot, assistenti di codice, generatori di immagini e agenti di ragionamento — è costruita su una qualche sua variante. Leggi l'originale paper "Attention Is All You Need" per il design fondativo, oppure la guida Illustrated Transformer per una spiegazione passo dopo passo.

You might also like

Articoli correlati