Un modelo fundacional es un modelo de aprendizaje automático de gran tamaño entrenado con conjuntos de datos masivos y diversos utilizando métodos como el aprendizaje autosupervisado. Tras este preentrenamiento amplio, el mismo modelo puede adaptarse o ajustarse para realizar una amplia variedad de tareas posteriores, desde responder preguntas y traducir idiomas hasta generar imágenes y analizar proteínas. El concepto fue formalizado en 2021 por el Center for Research on Foundation Models (CRFM) de Stanford, que acuñó el término para describir un nuevo paradigma en IA.
Cómo funcionan los modelos fundacionales
Los modelos fundacionales suelen construirse con una arquitectura de red neuronal, generalmente el transformer, y se entrenan con cientos de miles de millones de palabras, imágenes u otros puntos de datos extraídos de la web abierta, libros, repositorios de código y corpus con licencia. El entrenamiento suele basarse en el aprendizaje autosupervisado, en el que el modelo predice piezas faltantes o siguientes de su propia entrada, lo que elimina la necesidad de ejemplos etiquetados manualmente a gran escala. El resultado es un modelo con un conocimiento estadístico amplio sobre el lenguaje, el código, las imágenes u otras modalidades, que codifica patrones generales en lugar de una sola tarea.
Una vez completado el preentrenamiento, el modelo se convierte en una base: los desarrolladores lo adaptan a aplicaciones específicas mediante técnicas como el ajuste fino, la ingeniería de prompts o la generación aumentada por recuperación. Por tanto, el mismo modelo base puede impulsar un chatbot de atención al cliente, un resumidor de historiales médicos y un asistente de código, cada uno construido sobre capacidades compartidas en lugar de entrenarse desde cero.
Por qué es importante
Los modelos fundacionales han transformado la economía de la IA porque un único modelo preentrenado puede servir para cientos de usos posteriores, reduciendo drásticamente el coste y los datos necesarios para crear nuevas aplicaciones. Impulsan sistemas ampliamente utilizados como modelos de lenguaje grandes para texto, modelos de difusión para generación de imágenes y modelos multimodales que procesan texto, imágenes y audio de forma conjunta. Al mismo tiempo, su escala concentra capacidades, riesgos y sesgos, lo que plantea cuestiones importantes sobre evaluación, seguridad y gobernanza.
Tipos clave de modelos fundacionales
- Modelos de lenguaje grandes (LLM): modelos basados en texto como la familia GPT, Claude y Llama, entrenados con corpus de texto masivos para generar y razonar sobre el lenguaje.
- Modelos de difusión: modelos de generación de imágenes como Stable Diffusion, entrenados para invertir un proceso de adición de ruido y sintetizar imágenes a partir de prompts de texto.
- Modelos multimodales: sistemas como CLIP y GPT-4V que procesan conjuntamente texto, imágenes, audio o vídeo dentro de una misma base.
- Bases específicas de dominio: modelos preentrenados con literatura científica, secuencias de proteínas o código, y luego adaptados a tareas especializadas como el descubrimiento de fármacos o la ingeniería de software.
Al sustituir el antiguo paradigma de entrenar un modelo específico para cada nuevo problema por una única base adaptable, los modelos fundacionales se han convertido en el punto de partida predeterminado para el desarrollo moderno de IA.