Os dados de treino são o conjunto de exemplos que um modelo de aprendizagem automática estuda para aprender uma tarefa. Cada exemplo normalmente associa uma entrada a uma saída esperada, como um e-mail associado a um rótulo de spam ou não spam, uma frase associada ao seu idioma ou uma imagem associada ao objeto que contém. Durante o treino, o modelo ajusta os seus parâmetros internos para que as suas previsões correspondam aos padrões nos dados, pelo que o conjunto de dados define efetivamente o que o modelo vai (e não vai) aprender a fazer.
Como funcionam os dados de treino
Na aprendizagem supervisionada, a configuração mais comum, cada exemplo é anotado com uma resposta correta. Um conjunto de dados de avaliações de produtos, por exemplo, pode estar rotulado como "positiva" ou "negativa", e o modelo aprende a mapear novas avaliações para essas categorias ao encontrar regularidades estatísticas que as distinguem. Os dados são divididos num conjunto de treino, usado para ajustar o modelo, num conjunto de validação, usado para o afinar, e num conjunto de teste retido, usado para estimar o desempenho do modelo em exemplos que nunca viu.
Outros paradigmas dependem de diferentes formatos de dados. A aprendizagem não supervisionada utiliza entradas brutas sem rótulos, frequentemente para descobrir estrutura como agrupamentos ou tópicos. A aprendizagem auto-supervisionada gera rótulos a partir dos próprios dados, sendo assim que a maioria dos grandes modelos de linguagem é pré-treinada em enormes corpora de texto. A escala, o equilíbrio e a representatividade do conjunto de dados influenciam diretamente o que o modelo é capaz de generalizar.
Por que razão é importante
Os dados de treino são o maior fator determinante do comportamento de um modelo, muitas vezes mais do que a escolha do algoritmo. Se os dados forem enviesados, escassos ou pouco representativos, o modelo reproduzirá e, por vezes, amplificará essas falhas. As preocupações com privacidade, direitos de autor e consentimento também residem na camada dos dados, uma vez que um modelo pode memorizar e reproduzir excertos sensíveis do seu conjunto de treino. Por estas razões, a curadoria, documentação e avaliação de dados tornaram-se partes integrantes do desenvolvimento responsável de IA.
Principais tipos de dados de treino
- Dados rotulados — cada exemplo possui uma anotação fornecida por humanos ou gerada por máquina, utilizada em tarefas de aprendizagem supervisionada como classificação e deteção.
- Dados não rotulados — entradas brutas sem anotações, utilizadas para pré-treino não supervisionado e auto-supervisionado.
- Dados sintéticos — exemplos gerados por simuladores ou outros modelos, úteis quando os dados reais são escassos ou sensíveis.
- Dados de instrução e preferência — prompts associados a respostas ideais, ou pares de resultados classificados por qualidade, utilizados para alinhar os modelos com a intenção humana.
- Benchmarks de avaliação — conjuntos de teste curados que medem capacidades, embora não sejam utilizados para ajustar os parâmetros do modelo.
Para uma análise mais aprofundada da construção de conjuntos de dados e do seu impacto, o capítulo "Data Quality" do livro Data-Centric AI e as tabelas classificativas do Papers with Code são bons pontos de partida.