📖

Was ist Embedding?

Ein Embedding ist eine numerische Darstellung von Daten – meistens Text, aber auch Bilder, Audio oder Nutzerverhalten – als Punkt (ein Vektor reeller Zahlen) in einem hochdimensionalen Raum, die so erzeugt wird, dass semantisch ähnliche Elemente nahe beieinander liegen. Embeddings ermöglichen es Machine-Learning-Modellen, Ähnlichkeit zu messen, Nachbarn zu finden und

Ein Embedding ist eine Methode, um Informationen – Wörter, Sätze, Bilder, Audioclips oder sogar Klickverläufe von Nutzern – in eine Liste von Zahlen umzuwandeln, die als Vektor bezeichnet wird. Die Liste ist meist einige Hundert bis einige Tausend Zahlen lang, und jede Zahl ist ein gelerntes Merkmal, das eine bestimmte Eigenschaft der Eingabe erfasst. Die zentrale Idee ist, dass das Modell darauf trainiert wird, dass inhaltlich ähnliche Elemente ähnliche Vektoren erhalten und unverwandte Elemente weit auseinander liegen.

Da jede Eingabe zu einem Punkt im selben mathematischen Raum wird, können Computer endlich Dinge tun wie Bedeutungen addieren, subtrahieren und Abstände zwischen ihnen messen, anstatt nur Buchstaben abzugleichen. Deshalb sind Embeddings das Rückgrat der modernen semantischen Suche, der retrieval-augmented generation (RAG), von Empfehlungssystemen, Clustering und Klassifikation.

Wie Embeddings funktionieren

Im Kern wird ein Embedding von einem neuronalen Netz erzeugt, das als Encoder bezeichnet wird. Während des Trainings sieht das Modell riesige Datenmengen und passt seine Gewichte so an, dass Eingaben, die in ähnlichen Kontexten vorkommen (zum Beispiel die Wörter König und Königin oder ein Foto eines Golden Retrievers und die Bildunterschrift „gelber Hund“), auf Vektoren abgebildet werden, die in ähnliche Richtungen zeigen. Die entstehenden Koordinaten sind nicht von Hand entworfen; sie ergeben sich aus dem Ziel des Modells, Nachbarn, maskierte Wörter oder verwandte Elemente vorherzusagen.

Eine einfache Veranschaulichung: Stell dir eine 3-D-Karte von Wörtern vor. Nach dem Training bilden König, Königin, Prinz und Prinzessin ein Cluster; Katze, Hund und Hamster ein anderes; und glücklich, fröhlich und begeistert ein drittes. Echte Embeddings leben in deutlich höheren Dimensionen (oft 768, 1.536 oder 3.072), aber das Prinzip ist identisch – Nähe im Vektorraum entspricht semantischer Ähnlichkeit, die üblicherweise mit Cosinus-Ähnlichkeit oder euklidischer Distanz gemessen wird. Um mehr über das Training zu erfahren, lies das ursprüngliche word2vec-Paper von Mikolov et al. sowie OpenAIs Embeddings-Leitfaden.

Warum Embeddings wichtig sind

Embeddings verwandeln unübersichtliche, unstrukturierte Daten in eine Form, mit der Algorithmen effizient arbeiten können. Eine Suchmaschine kann Dokumente nach Bedeutung statt nach exakter Keyword-Übereinstimmung ranken, sodass eine Anfrage wie „wie repariere ich einen tropfenden Wasserhahn“ einen Artikel mit dem Titel „Reparatur eines leckenden Hahns“ finden kann. Ein Empfehlungssystem kann Produkte finden, die dem gerade angesehenen ähneln, selbst wenn der Katalog keine gemeinsamen Tags hat. Und bei retrieval-augmented generation (RAG) stützt ein LLM seine Antworten auf private oder aktuelle Dokumente, indem es die Chunks abruft, deren Embeddings der Frage des Nutzers am nächsten liegen.

Derselbe Trick funktioniert auch für Bilder (Modelle im CLIP-Stil), Audio, Code und strukturierte Datensätze – deshalb sind Embeddings zu einem universellen Austauschformat zwischen Daten und KI geworden.

Wichtige Arten von Embeddings

  • Wort-Embeddings – feste Vektoren pro Wort, wie in word2vec und GloVe.
  • Satz- und Dokument-Embeddings – ein Vektor pro Textabschnitt, erzeugt von Modellen wie Sentence-BERT und OpenAIs text-embedding-3.
  • Bild-Embeddings – Vektoren aus Vision-Encodern wie CLIP, ResNet oder DINOv2, die multimodale Suche ermöglichen.
  • Multimodale Embeddings – gemeinsame Räume, in denen Text, Bilder und Audio zusammen existieren, sodass ein Foto anhand einer Bildunterschrift gefunden werden kann und umgekehrt.
  • Graph- und Entity-Embeddings – Vektoren für Knoten in Wissensgraphen, verwendet in Empfehlungen und Betrugserkennung.

Sobald man Embeddings hat, speichert man sie typischerweise in einer Vektor-Datenbank wie Pinecone, Weaviate, Milvus oder pgvector und fragt sie mit k-Nearest-Neighbors (k-NN) oder Approximate Nearest Neighbors (ANN) ab, um die ähnlichsten Treffer skalierbar zu finden.

Embeddings sind das stille Arbeitstier der heutigen KI: Indem sie Bedeutung in Geometrie übersetzen, ermöglichen sie Maschinen, die Welt zu vergleichen, abzurufen und über sie zu schlussfolgern – auf eine Weise, die vor dem Deep Learning, das Vektordarstellungen sowohl günstig als auch bemerkenswert genau gemacht hat, kaum denkbar war.

Frequently Asked Questions

How is an embedding different from one-hot encoding?
A one-hot encoding represents each word as a long, sparse vector with a single 1 and the rest 0s, so "cat" and "dog" are just as unrelated as "cat" and "airplane." An embedding is a dense, learned vector in which words with similar meaning sit close together, which is why embeddings capture semantic similarity in a way one-hot vectors cannot.
What is the dimensionality of an embedding?
It depends on the model. Word2Vec typically used 100–300 dimensions; modern sentence transformers commonly use 384, 768, or 1,536; and large frontier models may use 3,072 or more. Higher dimensions can encode finer distinctions but use more memory and compute.
How are embeddings used in RAG (retrieval-augmented generation)?
In a RAG pipeline, every document chunk is converted into an embedding and stored in a vector index. When a user asks a question, it is also embedded, the system retrieves the chunks whose vectors are closest to the question's vector, and those chunks are fed to the LLM as context so it can answer grounded in the retrieved material.
How do you measure similarity between two embeddings?
The two most common measures are cosine similarity, which compares the angle between two vectors (ignoring magnitude), and Euclidean distance, which compares their straight-line distance. Cosine similarity is the standard for text embeddings because it focuses on direction rather than length.