📖

Cos'è Embedding?

Un embedding è una rappresentazione numerica dei dati — più spesso testo, ma anche immagini, audio o comportamenti utente — sotto forma di punto (un vettore di numeri reali) in uno spazio ad alta dimensionalità, creato in modo che elementi semanticamente simili si trovino vicini tra loro. Gli embedding permettono ai modelli di machine learning di misurare la somiglianza, trovare elementi vicini e

Un embedding è un modo per trasformare informazioni — parole, frasi, immagini, clip audio o persino le cronologie di clic degli utenti — in un elenco di numeri chiamato vettore. L'elenco di solito è composto da poche centinaia fino a qualche migliaio di numeri, e ciascun numero è una caratteristica appresa che cattura qualche proprietà dell'input. L'idea chiave è che il modello viene addestrato in modo che elementi con significato simile ottengano vettori simili, e quelli non correlati finiscano lontani tra loro.

Poiché ogni input diventa un punto nello stesso spazio matematico, i computer possono finalmente fare cose come sommare, sottrarre e misurare la distanza tra significati, invece di limitarsi a confrontare lettere. Per questo gli embedding sono la spina dorsale della moderna ricerca semantica, della generazione aumentata tramite recupero (RAG), dei sistemi di raccomandazione, del clustering e della classificazione.

Come funzionano gli embedding

Sotto il cofano, un embedding è prodotto da una rete neurale chiamata encoder. Durante l'addestramento, il modello vede enormi quantità di dati e regola i propri pesi in modo che gli input che appaiono in contesti simili (per esempio, le parole king e queen, o una foto di un golden retriever con la didascalia "yellow dog") vengano mappati in vettori che puntano in direzioni simili. Le coordinate risultanti non sono progettate a mano; emergono dall'obiettivo del modello di prevedere elementi vicini, parole mascherate o elementi correlati.

Un modo semplice per visualizzarlo: immagina una mappa 3D delle parole. Dopo l'addestramento, king, queen, prince e princess formano un cluster; cat, dog e hamster ne formano un altro; e happy, joyful ed elated ne formano un terzo. Gli embedding reali vivono in dimensioni molto più alte (spesso 768, 1.536 o 3.072), ma il principio è identico: la prossimità nello spazio vettoriale corrisponde alla somiglianza semantica, di solito misurata con la similarità coseno o la distanza euclidea. Per saperne di più su come viene addestrato, consulta l'originale articolo su word2vec di Mikolov et al. e la guida agli embedding di OpenAI.

Perché gli embedding sono importanti

Gli embedding trasformano dati disordinati e non strutturati in una forma su cui gli algoritmi possono ragionare in modo efficiente. Un motore di ricerca può classificare i documenti in base al significato anziché per esatta corrispondenza delle parole chiave, così una query come "how to fix a leaky faucet" può trovare un articolo intitolato "repairing a dripping tap". Un sistema di raccomandazione può trovare prodotti simili a quello appena visualizzato da un utente, anche quando il catalogo non ha tag condivisi. E nella generazione aumentata tramite recupero (RAG), un LLM ancora le proprie risposte a documenti privati o aggiornati, recuperando i blocchi i cui embedding sono più vicini alla domanda dell'utente.

Lo stesso trucco funziona per immagini (modelli in stile CLIP), audio, codice e record strutturati: ecco perché gli embedding sono diventati un formato di interscambio universale tra dati e IA.

Tipi principali di embedding

  • Word embedding — vettori fissi per parola, come in word2vec e GloVe.
  • Embedding di frasi e documenti — un vettore per passaggio, prodotto da modelli come Sentence-BERT e text-embedding-3 di OpenAI.
  • Embedding di immagini — vettori provenienti da encoder visivi come CLIP, ResNet o DINOv2, che abilitano la ricerca cross-modale.
  • Embedding multimodali — spazi condivisi in cui testo, immagini e audio convivono, così una foto può essere recuperata tramite una didascalia e viceversa.
  • Embedding di grafi ed entità — vettori per nodi nei knowledge graph, usati nei sistemi di raccomandazione e nel rilevamento delle frodi.

Una volta ottenuti gli embedding, di solito li si memorizza in un database vettoriale come Pinecone, Weaviate, Milvus o pgvector, e lo si interroga con la ricerca k-nearest neighbors (k-NN) o approximate nearest neighbors (ANN) per trovare le corrispondenze più vicine su larga scala.

Gli embedding sono la silenziosa cavalla da soma dell'IA contemporanea: traducendo il significato in geometria, permettono alle macchine di confrontare, recuperare e ragionare sul mondo in modi che prima del deep learning erano impraticabili, rendendo le rappresentazioni vettoriali sia economiche sia notevolmente accurate.

Frequently Asked Questions

How is an embedding different from one-hot encoding?
A one-hot encoding represents each word as a long, sparse vector with a single 1 and the rest 0s, so "cat" and "dog" are just as unrelated as "cat" and "airplane." An embedding is a dense, learned vector in which words with similar meaning sit close together, which is why embeddings capture semantic similarity in a way one-hot vectors cannot.
What is the dimensionality of an embedding?
It depends on the model. Word2Vec typically used 100–300 dimensions; modern sentence transformers commonly use 384, 768, or 1,536; and large frontier models may use 3,072 or more. Higher dimensions can encode finer distinctions but use more memory and compute.
How are embeddings used in RAG (retrieval-augmented generation)?
In a RAG pipeline, every document chunk is converted into an embedding and stored in a vector index. When a user asks a question, it is also embedded, the system retrieves the chunks whose vectors are closest to the question's vector, and those chunks are fed to the LLM as context so it can answer grounded in the retrieved material.
How do you measure similarity between two embeddings?
The two most common measures are cosine similarity, which compares the angle between two vectors (ignoring magnitude), and Euclidean distance, which compares their straight-line distance. Cosine similarity is the standard for text embeddings because it focuses on direction rather than length.