Un embedding è un modo per trasformare informazioni — parole, frasi, immagini, clip audio o persino le cronologie di clic degli utenti — in un elenco di numeri chiamato vettore. L'elenco di solito è composto da poche centinaia fino a qualche migliaio di numeri, e ciascun numero è una caratteristica appresa che cattura qualche proprietà dell'input. L'idea chiave è che il modello viene addestrato in modo che elementi con significato simile ottengano vettori simili, e quelli non correlati finiscano lontani tra loro.
Poiché ogni input diventa un punto nello stesso spazio matematico, i computer possono finalmente fare cose come sommare, sottrarre e misurare la distanza tra significati, invece di limitarsi a confrontare lettere. Per questo gli embedding sono la spina dorsale della moderna ricerca semantica, della generazione aumentata tramite recupero (RAG), dei sistemi di raccomandazione, del clustering e della classificazione.
Come funzionano gli embedding
Sotto il cofano, un embedding è prodotto da una rete neurale chiamata encoder. Durante l'addestramento, il modello vede enormi quantità di dati e regola i propri pesi in modo che gli input che appaiono in contesti simili (per esempio, le parole king e queen, o una foto di un golden retriever con la didascalia "yellow dog") vengano mappati in vettori che puntano in direzioni simili. Le coordinate risultanti non sono progettate a mano; emergono dall'obiettivo del modello di prevedere elementi vicini, parole mascherate o elementi correlati.
Un modo semplice per visualizzarlo: immagina una mappa 3D delle parole. Dopo l'addestramento, king, queen, prince e princess formano un cluster; cat, dog e hamster ne formano un altro; e happy, joyful ed elated ne formano un terzo. Gli embedding reali vivono in dimensioni molto più alte (spesso 768, 1.536 o 3.072), ma il principio è identico: la prossimità nello spazio vettoriale corrisponde alla somiglianza semantica, di solito misurata con la similarità coseno o la distanza euclidea. Per saperne di più su come viene addestrato, consulta l'originale articolo su word2vec di Mikolov et al. e la guida agli embedding di OpenAI.
Perché gli embedding sono importanti
Gli embedding trasformano dati disordinati e non strutturati in una forma su cui gli algoritmi possono ragionare in modo efficiente. Un motore di ricerca può classificare i documenti in base al significato anziché per esatta corrispondenza delle parole chiave, così una query come "how to fix a leaky faucet" può trovare un articolo intitolato "repairing a dripping tap". Un sistema di raccomandazione può trovare prodotti simili a quello appena visualizzato da un utente, anche quando il catalogo non ha tag condivisi. E nella generazione aumentata tramite recupero (RAG), un LLM ancora le proprie risposte a documenti privati o aggiornati, recuperando i blocchi i cui embedding sono più vicini alla domanda dell'utente.
Lo stesso trucco funziona per immagini (modelli in stile CLIP), audio, codice e record strutturati: ecco perché gli embedding sono diventati un formato di interscambio universale tra dati e IA.
Tipi principali di embedding
- Word embedding — vettori fissi per parola, come in word2vec e GloVe.
- Embedding di frasi e documenti — un vettore per passaggio, prodotto da modelli come Sentence-BERT e
text-embedding-3di OpenAI. - Embedding di immagini — vettori provenienti da encoder visivi come CLIP, ResNet o DINOv2, che abilitano la ricerca cross-modale.
- Embedding multimodali — spazi condivisi in cui testo, immagini e audio convivono, così una foto può essere recuperata tramite una didascalia e viceversa.
- Embedding di grafi ed entità — vettori per nodi nei knowledge graph, usati nei sistemi di raccomandazione e nel rilevamento delle frodi.
Una volta ottenuti gli embedding, di solito li si memorizza in un database vettoriale come Pinecone, Weaviate, Milvus o pgvector, e lo si interroga con la ricerca k-nearest neighbors (k-NN) o approximate nearest neighbors (ANN) per trovare le corrispondenze più vicine su larga scala.
Gli embedding sono la silenziosa cavalla da soma dell'IA contemporanea: traducendo il significato in geometria, permettono alle macchine di confrontare, recuperare e ragionare sul mondo in modi che prima del deep learning erano impraticabili, rendendo le rappresentazioni vettoriali sia economiche sia notevolmente accurate.