Was ist Retrieval-Augmented Generation (RAG)?

RAG kombiniert ein Sprachmodell mit einem Dokumentensuchschritt, sodass Antworten in abgerufenen Quellen verankert sind und nicht nur im trainierten Gedächtnis des Modells.

HyperStore · Veröffentlicht am 2026-06-20

#AI Architecture #LLM #RAG #retrieval-augmented generation #vector search

Retrieval-Augmented Generation (RAG) ist eine Technik zum Aufbau von KI-Systemen, die es einem Sprachmodell ermöglicht, externe Dokumente zu konsultieren, bevor es eine Frage beantwortet. Anstatt sich nur auf das während des Trainings Gelernte zu stützen, durchsucht eine RAG-Pipeline zunächst eine Wissensdatenbank nach Passagen, die für die Anfrage des Nutzers relevant sind, und speist diese Passagen dann als Kontext in das Modell ein. Das Ergebnis ist eine generierte Antwort, die in bestimmten, zitierfähigen Quellen verankert ist und nicht nur in den internen Gewichtungen des Modells.

So funktioniert Retrieval-Augmented Generation

Ein typisches RAG-System besteht aus zwei Hauptkomponenten: einem Retriever und einem Generator. Der Retriever ist in der Regel ein Vektorsuchindex, der aus einem Dokumentenkorpus aufgebaut ist. Wenn jedes Dokument zum Index hinzugefügt wird, wandelt ein Embedding-Modell seine Chunks in numerische Vektoren um; dasselbe Modell bettet die eingehende Nutzeranfrage ein, und eine Ähnlichkeitssuche (üblicherweise eine Nearest-Neighbor-Suche mit Kosinus- oder Skalarprodukt-Distanz) gibt die Chunks zurück, deren Vektoren der Anfrage am nächsten liegen. Die am besten bewerteten Chunks werden dann in den Prompt eingefügt, der an das große Sprachmodell gesendet wird, häufig zusammen mit Anweisungen wie „beantworte die Frage ausschließlich anhand des bereitgestellten Kontexts“.

Fragt ein Nutzer beispielsweise einen internen Unternehmensassistenten „Wie lautet unsere Elternzeitrichtlinie?", findet der Retriever den relevanten Abschnitt des Mitarbeiterhandbuchs, und das Sprachmodell nutzt diese Passagen, um eine präzise Antwort zu formulieren, die die Richtlinie wörtlich wiedergibt. Dieses Muster, eingeführt im Paper von Lewis et al. aus dem Jahr 2020 bei Facebook AI Research, trennt Wissen (im Index gespeichert) von Schlussfolgerung (vom Modell ausgeführt), weshalb der Ansatz gut skaliert, wenn sich die Quellmaterialien ändern.

Warum es wichtig ist

RAG adressiert drei hartnäckige Probleme eigenständiger Sprachmodelle. Erstens reduziert es Halluzinationen, da das Modell an abgerufenem Text verankert ist, statt zu improvisieren. Zweitens ermöglicht es einem System, Informationen widerzuspiegeln, die zum Trainingszeitpunkt des Modells noch nicht existierten oder sich seitdem geändert haben, indem einfach der Index aktualisiert wird. Drittens macht es die Antworten des Modells besser überprüfbar: Entwickler und Nutzer können die abgerufenen Chunks einsehen, sie zitieren und jede Aussage zurück zu einem Quelldokument verfolgen.

Diese Eigenschaften machen RAG zum Standardmuster für Unternehmens-Question-Answering, Kundensupport-Copilots, Rechts- und Compliance-Suche sowie KI-Assistenten, die mit privaten oder proprietären Daten arbeiten müssen, ohne das zugrunde liegende Modell neu zu trainieren.

Wichtige Typen und Muster

Naives (oder „Retrieve-and-Read") RAG: Ein einzelner Abrufschritt speist die Top-k-Chunks direkt in den Prompt des Generators ein.
Fortgeschrittenes RAG: Ergänzt Query-Rewriting, Re-Ranking und Chunk-Filterung vor der Generierung, um die Präzision zu verbessern.
Modulares RAG: Setzt die Pipeline aus austauschbaren Komponenten wie Websuche, SQL-Lookup oder API-Aufrufen zusammen und kann zwischen Abruf und Generierung iterieren.
Graph RAG: Erstellt einen Wissensgraphen aus dem Korpus und ruft Teilgraphen verwandter Entitäten ab, was bei vernetzten Daten kontextbezogenere Antworten liefern kann.
Agentic RAG: Überlässt es dem Sprachmodell, zu entscheiden, wann und was abgerufen wird – oft über mehrere Tools hinweg –, bevor eine endgültige Antwort entsteht.

Indem RAG die Speicherung von Wissen von der Schlussfolgerungs-Engine entkoppelt, ist es zu einem grundlegenden Baustein für produktive KI-Anwendungen geworden, die genau, aktuell und prüfbar sein müssen. Die Originalforschung wird in Lewis et al., „Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks" (2020) beschrieben, und aktuelle Best Practices sind in Frameworks wie LlamaIndex und LangChain dokumentiert.

So funktioniert Retrieval-Augmented Generation

Warum es wichtig ist

Wichtige Typen und Muster

You might also like

Was ist Fine-Tuning?

Was ist Prompt Engineering?

Was ist ein Large Language Model (LLM)?

Verwandte Beiträge

Was ist Prompt Engineering?

Was ist ein Large Language Model (LLM)?

Graphlit im Test: API-zentrierte KI-Plattform für unstrukturierte Daten