How is RAG different from fine-tuning a language model?

Fine-tuning bakes new knowledge and behavior into a model's weights by continuing training on example data, which is expensive and must be repeated whenever the source material changes. RAG leaves the model unchanged and instead supplies relevant documents at inference time, so knowledge can be updated by simply editing the search index. The two approaches are complementary and are often combined in production systems.

What is a vector database and why does RAG need one?

A vector database stores documents (or chunks of them) as numerical embeddings produced by an embedding model. RAG needs it because retrieving by meaning, rather than exact keywords, requires comparing the query's embedding to every candidate's embedding and returning the nearest matches. Specialized vector stores such as FAISS, Pinecone, Weaviate, and pgvector make this nearest-neighbor search fast at scale.

Does RAG eliminate hallucinations?

No system fully eliminates hallucinations, but RAG significantly reduces them by forcing the model to answer from supplied context. Errors can still occur if the retriever returns irrelevant or low-quality chunks, if the source documents themselves are wrong, or if the model misinterprets the retrieved text. Best-practice pipelines add re-ranking, citation checks, and guardrails to catch these cases.

What kind of data can a RAG system search over?

Almost any text-based corpus: PDFs, wikis, help-center articles, code repositories, product catalogs, legal contracts, internal chat logs, and web pages. After appropriate parsing and chunking, the content is embedded and indexed, and the same RAG pipeline can serve many domains. Multimodal RAG extensions can also retrieve images, tables, and audio.

Qu'est-ce que la génération augmentée de récupération (RAG) ?

La génération augmentée de récupération (RAG) est une technique de conception de systèmes d'IA qui permet à un modèle de langage de consulter des documents externes avant de répondre à une question. Au lieu de s'appuyer uniquement sur ce qui a été appris pendant l'entraînement, un pipeline RAG recherche d'abord dans une base de connaissances les passages pertinents pour la requête de l'utilisateur, puis transmet ces passages au modèle comme contexte. Le résultat est une réponse générée ancrée dans des sources spécifiques et citables, et non uniquement dans les poids internes du modèle.

Comment fonctionne la génération augmentée de récupération

Un système RAG typique comporte deux composants principaux : un récupérateur et un générateur. Le récupérateur est généralement un index de recherche vectorielle construit à partir d'un corpus de documents. Lorsqu'un document est ajouté à l'index, un modèle d'embedding convertit ses segments en vecteurs numériques ; le même modèle encode la requête de l'utilisateur, et une recherche par similarité (le plus souvent une recherche des plus proches voisins basée sur la distance cosinus ou le produit scalaire) renvoie les segments dont les vecteurs sont les plus proches de la requête. Les segments les mieux classés sont ensuite insérés dans le prompt envoyé au grand modèle de langage, souvent accompagnés d'instructions telles que « répondre en utilisant uniquement le contexte fourni ».

Par exemple, si un utilisateur demande à un assistant interne d'entreprise « Quelle est notre politique de congé parental ? », le récupérateur trouve la section pertinente du handbook des employés, et le modèle de langage s'appuie sur ces passages pour composer une réponse précise qui cite la politique. Ce schéma, introduit dans l'article de 2020 par Lewis et al. chez Facebook AI Research, sépare la connaissance (stockée dans l'index) du raisonnement (effectué par le modèle), ce qui explique pourquoi l'approche passe bien à l'échelle à mesure que les sources évoluent.

Pourquoi c'est important

Le RAG répond à trois problèmes persistants des modèles de langage autonomes. Premièrement, il réduit les hallucinations, car le modèle est ancré à du texte récupéré plutôt que d'improviser. Deuxièmement, il permet à un système de refléter des informations qui n'existaient pas, ou qui ont changé, depuis la date limite d'entraînement du modèle, simplement en mettant à jour l'index. Troisièmement, il rend les réponses du modèle plus vérifiables : développeurs et utilisateurs peuvent inspecter les segments récupérés, les citer et remonter chaque affirmation jusqu'à un document source.

Ces propriétés font du RAG le schéma par défaut pour la réponse aux questions en entreprise, les copilotes de support client, la recherche juridique et de conformité, ainsi que les assistants IA qui doivent exploiter des données privées ou propriétaires sans réentraîner le modèle sous-jacent.

Principaux types et schémas

RAG naïf (ou « Retrieve-and-Read ») : une seule étape de récupération insère directement les k meilleurs segments dans le prompt du générateur.
RAG avancé : ajoute une réécriture de la requête, un reclassement et un filtrage au niveau des segments avant la génération, afin d'améliorer la précision.
RAG modulaire : compose le pipeline à partir de composants interchangeables tels que la recherche web, des requêtes SQL ou des appels d'API, et peut alterner entre récupération et génération.
Graph RAG : construit un graphe de connaissances à partir du corpus et récupère des sous-graphes d'entités liées, ce qui peut produire des réponses plus contextuelles sur des données connectées.
RAG agentique : laisse le modèle de langage décider quand et quoi récupérer, souvent à travers plusieurs outils, avant de produire une réponse finale.

En découplant le stockage des connaissances du moteur de raisonnement, le RAG est devenu une brique fondamentale pour les applications d'IA en production qui doivent être précises, à jour et auditables. La recherche originale est décrite dans Lewis et al., « Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks » (2020), et les bonnes pratiques actuelles sont documentées dans des frameworks tels que LlamaIndex et LangChain.

Qu'est-ce que Retrieval-Augmented Generation (RAG) ?

Comment fonctionne la génération augmentée de récupération

Pourquoi c'est important

Principaux types et schémas

Frequently Asked Questions