O que é um modelo de base?

Um modelo de base é um modelo de IA grande e de uso geral, treinado com dados vastos que pode ser adaptado a muitas tarefas a jusante. Saiba como funciona e porque é relevante.

Um modelo de base é um modelo de machine learning de grande dimensão, treinado em conjuntos de dados massivos e diversificados, recorrendo a métodos como a aprendizagem auto-supervisionada. Após este pré-treino alargado, o mesmo modelo pode ser adaptado, ou ajustado (fine-tuned), para executar uma grande variedade de tarefas a jusante, desde responder a perguntas e traduzir idiomas até gerar imagens e analisar proteínas. O conceito foi formalizado em 2021 pelo Center for Research on Foundation Models (CRFM) da Universidade de Stanford, que cunhou o termo para descrever um novo paradigma na IA.

Como funcionam os modelos de base

Os modelos de base são tipicamente construídos com uma arquitetura de rede neuronal, geralmente o transformer, e treinados em centenas de milhares de milhões de palavras, imagens ou outros pontos de dados recolhidos da web aberta, livros, repositórios de código e corpora licenciados. O treino baseia-se normalmente na aprendizagem auto-supervisionada, em que o modelo prevê partes em falta ou seguintes da sua própria entrada, eliminando a necessidade de exemplos manualmente anotados em grande escala. O resultado é um modelo com um vasto conhecimento estatístico sobre linguagem, código, imagens ou outras modalidades, que codifica padrões gerais em vez de uma única tarefa.

Concluído o pré-treino, o modelo torna-se uma base: os programadores adaptam-no a aplicações específicas através de técnicas como ajuste fino (fine-tuning), engenharia de prompts ou geração aumentada por recuperação. O mesmo modelo base pode, assim, suportar um chatbot de apoio ao cliente, um resumidor de registos clínicos e um assistente de código, cada um construído sobre capacidades partilhadas em vez de treinado de raiz.

Porque é relevante

Os modelos de base transformaram a economia da IA porque um único modelo pré-treinado pode servir centenas de utilizações a jusante, reduzindo drasticamente o custo e os dados necessários para criar novas aplicações. Sustentam sistemas amplamente utilizados, como grandes modelos de linguagem para texto, modelos de difusão para geração de imagens e modelos multimodais que processam texto, imagens e áudio em conjunto. Ao mesmo tempo, a sua escala concentra capacidades, riscos e enviesamentos, levantando questões importantes sobre avaliação, segurança e governação.

Principais tipos de modelos de base

  • Grandes modelos de linguagem (LLMs): modelos baseados em texto, como a família GPT, Claude e Llama, treinados em enormes corpora de texto para gerar e raciocinar sobre linguagem.
  • Modelos de difusão: modelos de geração de imagens, como o Stable Diffusion, treinados para reverter um processo de adição de ruído e sintetizar imagens a partir de prompts de texto.
  • Modelos multimodais: sistemas como o CLIP e o GPT-4V que processam em conjunto texto, imagens, áudio ou vídeo numa única base.
  • Modelos de base específicos de domínio: modelos pré-treinados em literatura científica, sequências de proteínas ou código, posteriormente adaptados para tarefas especializadas como descoberta de fármacos ou engenharia de software.

Ao substituir o antigo paradigma de treinar um modelo restrito para cada novo problema por uma única base adaptável, os modelos de base tornaram-se o ponto de partida por defeito para o desenvolvimento moderno de IA.

Também pode gostar

Artigos relacionados