What is the difference between a foundation model and a large language model?

All large language models are foundation models, but not all foundation models are LLMs. A foundation model is any large model trained on broad data that can be adapted to many tasks, including image, audio, and protein models. A large language model is a foundation model specifically designed to process and generate text.

Who coined the term foundation model?

The term was introduced in 2021 by Stanford's Center for Research on Foundation Models (CRFM) in a paper led by Rishi Bommasani and colleagues. It described the shift from task-specific AI systems to a single general-purpose model reused across applications.

How are foundation models trained?

Most foundation models are pre-trained with self-supervised learning on huge unlabeled datasets, typically using the transformer architecture. The model learns by predicting missing or next parts of its input, such as the next word in a sentence, which lets it scale to internet-sized corpora without manual labeling.

Can foundation models be fine-tuned?

Yes. After pre-training, foundation models are commonly adapted through fine-tuning, instruction tuning, reinforcement learning from human feedback (RLHF), or prompt engineering. These steps specialize a general-purpose model for particular tasks, domains, or safety requirements.

O que é um modelo de base? Definição e guia

Um modelo de base é um modelo de machine learning de grande dimensão, treinado em conjuntos de dados massivos e diversificados, recorrendo a métodos como a aprendizagem auto-supervisionada. Após este pré-treino alargado, o mesmo modelo pode ser adaptado, ou ajustado (fine-tuned), para executar uma grande variedade de tarefas a jusante, desde responder a perguntas e traduzir idiomas até gerar imagens e analisar proteínas. O conceito foi formalizado em 2021 pelo Center for Research on Foundation Models (CRFM) da Universidade de Stanford, que cunhou o termo para descrever um novo paradigma na IA.

Como funcionam os modelos de base

Os modelos de base são tipicamente construídos com uma arquitetura de rede neuronal, geralmente o transformer, e treinados em centenas de milhares de milhões de palavras, imagens ou outros pontos de dados recolhidos da web aberta, livros, repositórios de código e corpora licenciados. O treino baseia-se normalmente na aprendizagem auto-supervisionada, em que o modelo prevê partes em falta ou seguintes da sua própria entrada, eliminando a necessidade de exemplos manualmente anotados em grande escala. O resultado é um modelo com um vasto conhecimento estatístico sobre linguagem, código, imagens ou outras modalidades, que codifica padrões gerais em vez de uma única tarefa.

Concluído o pré-treino, o modelo torna-se uma base: os programadores adaptam-no a aplicações específicas através de técnicas como ajuste fino (fine-tuning), engenharia de prompts ou geração aumentada por recuperação. O mesmo modelo base pode, assim, suportar um chatbot de apoio ao cliente, um resumidor de registos clínicos e um assistente de código, cada um construído sobre capacidades partilhadas em vez de treinado de raiz.

Porque é relevante

Os modelos de base transformaram a economia da IA porque um único modelo pré-treinado pode servir centenas de utilizações a jusante, reduzindo drasticamente o custo e os dados necessários para criar novas aplicações. Sustentam sistemas amplamente utilizados, como grandes modelos de linguagem para texto, modelos de difusão para geração de imagens e modelos multimodais que processam texto, imagens e áudio em conjunto. Ao mesmo tempo, a sua escala concentra capacidades, riscos e enviesamentos, levantando questões importantes sobre avaliação, segurança e governação.

Principais tipos de modelos de base

Grandes modelos de linguagem (LLMs): modelos baseados em texto, como a família GPT, Claude e Llama, treinados em enormes corpora de texto para gerar e raciocinar sobre linguagem.
Modelos de difusão: modelos de geração de imagens, como o Stable Diffusion, treinados para reverter um processo de adição de ruído e sintetizar imagens a partir de prompts de texto.
Modelos multimodais: sistemas como o CLIP e o GPT-4V que processam em conjunto texto, imagens, áudio ou vídeo numa única base.
Modelos de base específicos de domínio: modelos pré-treinados em literatura científica, sequências de proteínas ou código, posteriormente adaptados para tarefas especializadas como descoberta de fármacos ou engenharia de software.

Ao substituir o antigo paradigma de treinar um modelo restrito para cada novo problema por uma única base adaptável, os modelos de base tornaram-se o ponto de partida por defeito para o desenvolvimento moderno de IA.

O que é Modelo de Fundação?

Como funcionam os modelos de base

Porque é relevante

Principais tipos de modelos de base

Perguntas Frequentes