What is the difference between a foundation model and a large language model?

All large language models are foundation models, but not all foundation models are LLMs. A foundation model is any large model trained on broad data that can be adapted to many tasks, including image, audio, and protein models. A large language model is a foundation model specifically designed to process and generate text.

Who coined the term foundation model?

The term was introduced in 2021 by Stanford's Center for Research on Foundation Models (CRFM) in a paper led by Rishi Bommasani and colleagues. It described the shift from task-specific AI systems to a single general-purpose model reused across applications.

How are foundation models trained?

Most foundation models are pre-trained with self-supervised learning on huge unlabeled datasets, typically using the transformer architecture. The model learns by predicting missing or next parts of its input, such as the next word in a sentence, which lets it scale to internet-sized corpora without manual labeling.

Can foundation models be fine-tuned?

Yes. After pre-training, foundation models are commonly adapted through fine-tuning, instruction tuning, reinforcement learning from human feedback (RLHF), or prompt engineering. These steps specialize a general-purpose model for particular tasks, domains, or safety requirements.

¿Qué es un modelo fundacional? Definición y guía

Un modelo fundacional es un modelo de aprendizaje automático de gran tamaño entrenado con conjuntos de datos masivos y diversos utilizando métodos como el aprendizaje autosupervisado. Tras este preentrenamiento amplio, el mismo modelo puede adaptarse o ajustarse para realizar una amplia variedad de tareas posteriores, desde responder preguntas y traducir idiomas hasta generar imágenes y analizar proteínas. El concepto fue formalizado en 2021 por el Center for Research on Foundation Models (CRFM) de Stanford, que acuñó el término para describir un nuevo paradigma en IA.

Cómo funcionan los modelos fundacionales

Los modelos fundacionales suelen construirse con una arquitectura de red neuronal, generalmente el transformer, y se entrenan con cientos de miles de millones de palabras, imágenes u otros puntos de datos extraídos de la web abierta, libros, repositorios de código y corpus con licencia. El entrenamiento suele basarse en el aprendizaje autosupervisado, en el que el modelo predice piezas faltantes o siguientes de su propia entrada, lo que elimina la necesidad de ejemplos etiquetados manualmente a gran escala. El resultado es un modelo con un conocimiento estadístico amplio sobre el lenguaje, el código, las imágenes u otras modalidades, que codifica patrones generales en lugar de una sola tarea.

Una vez completado el preentrenamiento, el modelo se convierte en una base: los desarrolladores lo adaptan a aplicaciones específicas mediante técnicas como el ajuste fino, la ingeniería de prompts o la generación aumentada por recuperación. Por tanto, el mismo modelo base puede impulsar un chatbot de atención al cliente, un resumidor de historiales médicos y un asistente de código, cada uno construido sobre capacidades compartidas en lugar de entrenarse desde cero.

Por qué es importante

Los modelos fundacionales han transformado la economía de la IA porque un único modelo preentrenado puede servir para cientos de usos posteriores, reduciendo drásticamente el coste y los datos necesarios para crear nuevas aplicaciones. Impulsan sistemas ampliamente utilizados como modelos de lenguaje grandes para texto, modelos de difusión para generación de imágenes y modelos multimodales que procesan texto, imágenes y audio de forma conjunta. Al mismo tiempo, su escala concentra capacidades, riesgos y sesgos, lo que plantea cuestiones importantes sobre evaluación, seguridad y gobernanza.

Tipos clave de modelos fundacionales

Modelos de lenguaje grandes (LLM): modelos basados en texto como la familia GPT, Claude y Llama, entrenados con corpus de texto masivos para generar y razonar sobre el lenguaje.
Modelos de difusión: modelos de generación de imágenes como Stable Diffusion, entrenados para invertir un proceso de adición de ruido y sintetizar imágenes a partir de prompts de texto.
Modelos multimodales: sistemas como CLIP y GPT-4V que procesan conjuntamente texto, imágenes, audio o vídeo dentro de una misma base.
Bases específicas de dominio: modelos preentrenados con literatura científica, secuencias de proteínas o código, y luego adaptados a tareas especializadas como el descubrimiento de fármacos o la ingeniería de software.

Al sustituir el antiguo paradigma de entrenar un modelo específico para cada nuevo problema por una única base adaptable, los modelos fundacionales se han convertido en el punto de partida predeterminado para el desarrollo moderno de IA.

¿Qué es Foundation Model?

Cómo funcionan los modelos fundacionales

Por qué es importante

Tipos clave de modelos fundacionales

Preguntas frecuentes