¿Qué es la generación aumentada por recuperación (RAG)?

RAG combina un modelo de lenguaje con un paso de búsqueda en documentos, de modo que las respuestas se fundamentan en fuentes recuperadas y no solo en la memoria entrenada del modelo.

HyperStore · Publicado el 2026-06-20

#AI Architecture #LLM #RAG #retrieval-augmented generation #vector search

La generación aumentada por recuperación (RAG) es una técnica para construir sistemas de IA que permite a un modelo de lenguaje consultar documentos externos antes de responder a una pregunta. En lugar de depender solo de lo aprendido durante el entrenamiento, una canalización RAG primero busca en una base de conocimiento los fragmentos relevantes para la consulta del usuario y luego los pasa al modelo como contexto. El resultado es una respuesta generada que se fundamenta en fuentes específicas y citables, y no únicamente en los pesos internos del modelo.

Cómo funciona la generación aumentada por recuperación

Un sistema RAG típico tiene dos componentes principales: un recuperador y un generador. El recuperador suele ser un índice de búsqueda vectorial construido a partir de un corpus de documentos. Cuando cada documento se añade al índice, un modelo de embeddings convierte sus fragmentos en vectores numéricos; el mismo modelo incrusta la consulta del usuario entrante, y una búsqueda por similitud (habitualmente una búsqueda de vecinos más cercanos mediante distancia coseno o producto escalar) devuelve los fragmentos cuyos vectores están más cerca de la consulta. Los fragmentos mejor clasificados se insertan en el prompt que se envía al modelo de lenguaje grande, a menudo junto con instrucciones como «responde usando solo el contexto proporcionado».

Por ejemplo, si un usuario pregunta a un asistente interno de la empresa «¿Cuál es nuestra política de baja parental?», el recuperador encuentra la sección relevante del manual del empleado y el modelo de lenguaje usa esos fragmentos para componer una respuesta precisa que cita la política. Este patrón, introducido en el artículo de 2020 de Lewis et al. en Facebook AI Research, separa conocimiento (almacenado en el índice) de razonamiento (realizado por el modelo), por lo que el enfoque escala bien a medida que cambia el material fuente.

Por qué es importante

RAG aborda tres problemas persistentes de los modelos de lenguaje independientes. Primero, reduce las alucinaciones porque el modelo está anclado al texto recuperado en lugar de improvisar. Segundo, permite que el sistema refleje información que no existía, o que ha cambiado, desde el corte de entrenamiento del modelo, simplemente actualizando el índice. Tercero, hace que las respuestas del modelo sean más verificables: desarrolladores y usuarios pueden inspeccionar los fragmentos recuperados, citarlos y rastrear cualquier afirmación hasta un documento fuente.

Estas propiedades convierten a RAG en el patrón por defecto para la respuesta a preguntas en la empresa, los copilotos de atención al cliente, la búsqueda legal y de cumplimiento, y los asistentes de IA que necesitan operar sobre datos privados o propietarios sin reentrenar el modelo subyacente.

Tipos y patrones clave

RAG ingenuo (o «Recuperar y Leer»): un único paso de recuperación introduce directamente los k mejores fragmentos en el prompt del generador.
RAG avanzado: añade reformulación de consultas, reordenación y filtrado a nivel de fragmento antes de la generación para mejorar la precisión.
RAG modular: compone la canalización a partir de componentes intercambiables como búsqueda web, consulta SQL o llamadas a API, y puede iterar entre recuperación y generación.
Graph RAG: construye un grafo de conocimiento a partir del corpus y recupera subgrafos de entidades relacionadas, lo que puede producir respuestas más contextuales sobre datos conectados.
RAG agéntico: permite que el modelo de lenguaje decida cuándo y qué recuperar, a menudo a través de múltiples herramientas, antes de producir una respuesta final.

Al desacoplar el almacenamiento del conocimiento del motor de razonamiento, RAG se ha convertido en un bloque fundamental para aplicaciones de IA en producción que necesitan ser precisas, actuales y auditables. La investigación original se describe en Lewis et al., «Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks» (2020), y las buenas prácticas actuales están documentadas en frameworks como LlamaIndex y LangChain.

Cómo funciona la generación aumentada por recuperación

Por qué es importante

Tipos y patrones clave

You might also like

¿Qué es el fine-tuning?

¿Qué es la ingeniería de prompts?

¿Qué es un Large Language Model (LLM)?

Artículos relacionados

¿Qué es la ingeniería de prompts?

¿Qué es un Large Language Model (LLM)?

Review de Graphlit: plataforma de IA con API primero para datos no estructurados