How is RAG different from fine-tuning a language model?

Fine-tuning bakes new knowledge and behavior into a model's weights by continuing training on example data, which is expensive and must be repeated whenever the source material changes. RAG leaves the model unchanged and instead supplies relevant documents at inference time, so knowledge can be updated by simply editing the search index. The two approaches are complementary and are often combined in production systems.

What is a vector database and why does RAG need one?

A vector database stores documents (or chunks of them) as numerical embeddings produced by an embedding model. RAG needs it because retrieving by meaning, rather than exact keywords, requires comparing the query's embedding to every candidate's embedding and returning the nearest matches. Specialized vector stores such as FAISS, Pinecone, Weaviate, and pgvector make this nearest-neighbor search fast at scale.

Does RAG eliminate hallucinations?

No system fully eliminates hallucinations, but RAG significantly reduces them by forcing the model to answer from supplied context. Errors can still occur if the retriever returns irrelevant or low-quality chunks, if the source documents themselves are wrong, or if the model misinterprets the retrieved text. Best-practice pipelines add re-ranking, citation checks, and guardrails to catch these cases.

What kind of data can a RAG system search over?

Almost any text-based corpus: PDFs, wikis, help-center articles, code repositories, product catalogs, legal contracts, internal chat logs, and web pages. After appropriate parsing and chunking, the content is embedded and indexed, and the same RAG pipeline can serve many domains. Multimodal RAG extensions can also retrieve images, tables, and audio.

Was ist Retrieval-Augmented Generation (RAG)?

Retrieval-Augmented Generation (RAG) ist eine Technik zum Aufbau von KI-Systemen, die es einem Sprachmodell ermöglicht, externe Dokumente zu konsultieren, bevor es eine Frage beantwortet. Anstatt sich nur auf das während des Trainings Gelernte zu stützen, durchsucht eine RAG-Pipeline zunächst eine Wissensdatenbank nach Passagen, die für die Anfrage des Nutzers relevant sind, und speist diese Passagen dann als Kontext in das Modell ein. Das Ergebnis ist eine generierte Antwort, die in bestimmten, zitierfähigen Quellen verankert ist und nicht nur in den internen Gewichtungen des Modells.

So funktioniert Retrieval-Augmented Generation

Ein typisches RAG-System besteht aus zwei Hauptkomponenten: einem Retriever und einem Generator. Der Retriever ist in der Regel ein Vektorsuchindex, der aus einem Dokumentenkorpus aufgebaut ist. Wenn jedes Dokument zum Index hinzugefügt wird, wandelt ein Embedding-Modell seine Chunks in numerische Vektoren um; dasselbe Modell bettet die eingehende Nutzeranfrage ein, und eine Ähnlichkeitssuche (üblicherweise eine Nearest-Neighbor-Suche mit Kosinus- oder Skalarprodukt-Distanz) gibt die Chunks zurück, deren Vektoren der Anfrage am nächsten liegen. Die am besten bewerteten Chunks werden dann in den Prompt eingefügt, der an das große Sprachmodell gesendet wird, häufig zusammen mit Anweisungen wie „beantworte die Frage ausschließlich anhand des bereitgestellten Kontexts“.

Fragt ein Nutzer beispielsweise einen internen Unternehmensassistenten „Wie lautet unsere Elternzeitrichtlinie?", findet der Retriever den relevanten Abschnitt des Mitarbeiterhandbuchs, und das Sprachmodell nutzt diese Passagen, um eine präzise Antwort zu formulieren, die die Richtlinie wörtlich wiedergibt. Dieses Muster, eingeführt im Paper von Lewis et al. aus dem Jahr 2020 bei Facebook AI Research, trennt Wissen (im Index gespeichert) von Schlussfolgerung (vom Modell ausgeführt), weshalb der Ansatz gut skaliert, wenn sich die Quellmaterialien ändern.

Warum es wichtig ist

RAG adressiert drei hartnäckige Probleme eigenständiger Sprachmodelle. Erstens reduziert es Halluzinationen, da das Modell an abgerufenem Text verankert ist, statt zu improvisieren. Zweitens ermöglicht es einem System, Informationen widerzuspiegeln, die zum Trainingszeitpunkt des Modells noch nicht existierten oder sich seitdem geändert haben, indem einfach der Index aktualisiert wird. Drittens macht es die Antworten des Modells besser überprüfbar: Entwickler und Nutzer können die abgerufenen Chunks einsehen, sie zitieren und jede Aussage zurück zu einem Quelldokument verfolgen.

Diese Eigenschaften machen RAG zum Standardmuster für Unternehmens-Question-Answering, Kundensupport-Copilots, Rechts- und Compliance-Suche sowie KI-Assistenten, die mit privaten oder proprietären Daten arbeiten müssen, ohne das zugrunde liegende Modell neu zu trainieren.

Wichtige Typen und Muster

Naives (oder „Retrieve-and-Read") RAG: Ein einzelner Abrufschritt speist die Top-k-Chunks direkt in den Prompt des Generators ein.
Fortgeschrittenes RAG: Ergänzt Query-Rewriting, Re-Ranking und Chunk-Filterung vor der Generierung, um die Präzision zu verbessern.
Modulares RAG: Setzt die Pipeline aus austauschbaren Komponenten wie Websuche, SQL-Lookup oder API-Aufrufen zusammen und kann zwischen Abruf und Generierung iterieren.
Graph RAG: Erstellt einen Wissensgraphen aus dem Korpus und ruft Teilgraphen verwandter Entitäten ab, was bei vernetzten Daten kontextbezogenere Antworten liefern kann.
Agentic RAG: Überlässt es dem Sprachmodell, zu entscheiden, wann und was abgerufen wird – oft über mehrere Tools hinweg –, bevor eine endgültige Antwort entsteht.

Indem RAG die Speicherung von Wissen von der Schlussfolgerungs-Engine entkoppelt, ist es zu einem grundlegenden Baustein für produktive KI-Anwendungen geworden, die genau, aktuell und prüfbar sein müssen. Die Originalforschung wird in Lewis et al., „Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks" (2020) beschrieben, und aktuelle Best Practices sind in Frameworks wie LlamaIndex und LangChain dokumentiert.

Was ist Retrieval-Augmented Generation (RAG)?

So funktioniert Retrieval-Augmented Generation

Warum es wichtig ist

Wichtige Typen und Muster

Frequently Asked Questions