Ein Embedding ist eine Methode, um Informationen – Wörter, Sätze, Bilder, Audioclips oder sogar Klickverläufe von Nutzern – in eine Liste von Zahlen umzuwandeln, die als Vektor bezeichnet wird. Die Liste ist meist einige Hundert bis einige Tausend Zahlen lang, und jede Zahl ist ein gelerntes Merkmal, das eine bestimmte Eigenschaft der Eingabe erfasst. Die zentrale Idee ist, dass das Modell darauf trainiert wird, dass inhaltlich ähnliche Elemente ähnliche Vektoren erhalten und unverwandte Elemente weit auseinander liegen.
Da jede Eingabe zu einem Punkt im selben mathematischen Raum wird, können Computer endlich Dinge tun wie Bedeutungen addieren, subtrahieren und Abstände zwischen ihnen messen, anstatt nur Buchstaben abzugleichen. Deshalb sind Embeddings das Rückgrat der modernen semantischen Suche, der retrieval-augmented generation (RAG), von Empfehlungssystemen, Clustering und Klassifikation.
Wie Embeddings funktionieren
Im Kern wird ein Embedding von einem neuronalen Netz erzeugt, das als Encoder bezeichnet wird. Während des Trainings sieht das Modell riesige Datenmengen und passt seine Gewichte so an, dass Eingaben, die in ähnlichen Kontexten vorkommen (zum Beispiel die Wörter König und Königin oder ein Foto eines Golden Retrievers und die Bildunterschrift „gelber Hund“), auf Vektoren abgebildet werden, die in ähnliche Richtungen zeigen. Die entstehenden Koordinaten sind nicht von Hand entworfen; sie ergeben sich aus dem Ziel des Modells, Nachbarn, maskierte Wörter oder verwandte Elemente vorherzusagen.
Eine einfache Veranschaulichung: Stell dir eine 3-D-Karte von Wörtern vor. Nach dem Training bilden König, Königin, Prinz und Prinzessin ein Cluster; Katze, Hund und Hamster ein anderes; und glücklich, fröhlich und begeistert ein drittes. Echte Embeddings leben in deutlich höheren Dimensionen (oft 768, 1.536 oder 3.072), aber das Prinzip ist identisch – Nähe im Vektorraum entspricht semantischer Ähnlichkeit, die üblicherweise mit Cosinus-Ähnlichkeit oder euklidischer Distanz gemessen wird. Um mehr über das Training zu erfahren, lies das ursprüngliche word2vec-Paper von Mikolov et al. sowie OpenAIs Embeddings-Leitfaden.
Warum Embeddings wichtig sind
Embeddings verwandeln unübersichtliche, unstrukturierte Daten in eine Form, mit der Algorithmen effizient arbeiten können. Eine Suchmaschine kann Dokumente nach Bedeutung statt nach exakter Keyword-Übereinstimmung ranken, sodass eine Anfrage wie „wie repariere ich einen tropfenden Wasserhahn“ einen Artikel mit dem Titel „Reparatur eines leckenden Hahns“ finden kann. Ein Empfehlungssystem kann Produkte finden, die dem gerade angesehenen ähneln, selbst wenn der Katalog keine gemeinsamen Tags hat. Und bei retrieval-augmented generation (RAG) stützt ein LLM seine Antworten auf private oder aktuelle Dokumente, indem es die Chunks abruft, deren Embeddings der Frage des Nutzers am nächsten liegen.
Derselbe Trick funktioniert auch für Bilder (Modelle im CLIP-Stil), Audio, Code und strukturierte Datensätze – deshalb sind Embeddings zu einem universellen Austauschformat zwischen Daten und KI geworden.
Wichtige Arten von Embeddings
- Wort-Embeddings – feste Vektoren pro Wort, wie in word2vec und GloVe.
- Satz- und Dokument-Embeddings – ein Vektor pro Textabschnitt, erzeugt von Modellen wie Sentence-BERT und OpenAIs
text-embedding-3. - Bild-Embeddings – Vektoren aus Vision-Encodern wie CLIP, ResNet oder DINOv2, die multimodale Suche ermöglichen.
- Multimodale Embeddings – gemeinsame Räume, in denen Text, Bilder und Audio zusammen existieren, sodass ein Foto anhand einer Bildunterschrift gefunden werden kann und umgekehrt.
- Graph- und Entity-Embeddings – Vektoren für Knoten in Wissensgraphen, verwendet in Empfehlungen und Betrugserkennung.
Sobald man Embeddings hat, speichert man sie typischerweise in einer Vektor-Datenbank wie Pinecone, Weaviate, Milvus oder pgvector und fragt sie mit k-Nearest-Neighbors (k-NN) oder Approximate Nearest Neighbors (ANN) ab, um die ähnlichsten Treffer skalierbar zu finden.
Embeddings sind das stille Arbeitstier der heutigen KI: Indem sie Bedeutung in Geometrie übersetzen, ermöglichen sie Maschinen, die Welt zu vergleichen, abzurufen und über sie zu schlussfolgern – auf eine Weise, die vor dem Deep Learning, das Vektordarstellungen sowohl günstig als auch bemerkenswert genau gemacht hat, kaum denkbar war.