Os dados sintéticos são informações geradas artificialmente que imitam os padrões estatísticos, as distribuições e a estrutura de dados do mundo real, sem conter quaisquer registos reais de pessoas, transações ou eventos. São produzidos por algoritmos — frequentemente modelos generativos como autoencoders variacionais, redes adversariais generativas ou grandes modelos de linguagem, bem como simuladores baseados em regras — para substituir conjuntos de dados genuínos. Uma vez que não são codificados indivíduos ou eventos reais no resultado, os dados sintéticos oferecem uma forma de partilhar, estudar e trabalhar com informações realistas, contornando simultaneamente muitas barreiras de privacidade, custo e acesso.
Como funcionam os dados sintéticos
A ideia central é aprender uma descrição matemática compacta de um conjunto de dados real e, em seguida, amostrar a partir dessa descrição para criar novos registos que pareçam familiares, mas que não sejam cópias. Num pipeline típico, um modelo generativo é treinado num conjunto de dados de origem — por exemplo, uma tabela de transações de clientes — até captar a distribuição conjunta entre colunas (idade, região, valor da compra, etc.). Novas linhas são então extraídas da distribuição aprendida. A mesma lógica aplica-se a imagens, texto e séries temporais, onde modelos como redes de difusão ou LLMs produzem amostras novas que partilham o estilo e a estatística dos originais.
A qualidade é normalmente verificada em dois eixos: fidelidade (os registos sintéticos comportam-se como os reais de forma agregada?) e utilidade (um modelo treinado com eles consegue resolver a mesma tarefa que um treinado com dados reais?). A privacidade é avaliada separadamente, medindo frequentemente com que confiança um adversário poderia reidentificar qualquer registo real embutido no conjunto sintético. Um exemplo simples: um hospital pretende partilhar radiografias torácicas com investigadores externos. Em vez de divulgar exames reais de pacientes, treina um modelo generativo com o seu arquivo e divulga milhares de radiografias artificiais e novas, com aparência medicamente realista — permitindo que equipas externas desenvolvam ferramentas de diagnóstico sem nunca manusear imagens médicas identificáveis.
Por que são importantes
Os dados reais são frequentemente o principal estrangulamento dos projetos de IA. Registos médicos, transações financeiras e registos de comportamento de utilizadores estão sujeitos a restrições regulatórias, obrigações contratuais ou simples escassez. Os dados sintéticos atenuam esse estrangulamento, permitindo que as equipas criem protótipos mais rapidamente, aumentem conjuntos de dados pequenos e equilibrem classes enviesadas sem ultrapassar os limites de privacidade. Também reduzem o risco de os conjuntos de treino memorizarem e divulgarem detalhes sensíveis, e tornam possível simular cenários raros ou perigosos — padrões de fraude, falhas de equipamento, situações de condução limite — que os dados do mundo real raramente captam em volume.
Os principais fornecedores de cloud e bibliotecas open-source disponibilizam agora ferramentas de dados sintéticos, e os reguladores de alguns setores começaram a publicar orientações sobre como os conjuntos de dados sintéticos podem apoiar a conformidade. Não são uma bala de prata: geradores fracos podem codificar os mesmos enviesamentos dos dados de origem ou falhar completamente nos testes de privacidade. Ainda assim, usados com cuidado, os dados sintéticos estão a tornar-se uma parte padrão do kit de ferramentas moderno de IA, especialmente em áreas onde os dados reais estão trancados.
Principais tipos
- Totalmente sintético: todos os valores em cada registo são gerados por um modelo; não aparecem registos reais no resultado. Oferece as garantias de privacidade mais fortes, mas pode afastar-se de casos limite do mundo real.
- Parcialmente sintético: apenas os campos sensíveis (por exemplo, nomes ou diagnósticos) são substituídos, enquanto as colunas não sensíveis são mantidas reais. Útil quando importa preservar relações exatas nas características não sensíveis.
- Sintético aumentado: os dados reais são expandidos com amostras adicionais geradas, frequentemente para equilibrar classes ou simular eventos raros. Comum em visão computacional e deteção de fraude.
- Simulado: os registos provêm de um modelo construído à mão de um processo (um motor de física, um sistema de filas, uma economia baseada em agentes) e não de estatísticas aprendidas. Amplamente utilizado em robótica, aprendizagem por reforço e métodos de controlo sintético.
Bem utilizados, os dados sintéticos ampliam o que as equipas podem construir, ao mesmo tempo que reduzem o custo e o risco de trabalhar com informação sensível — tornando-se uma ponte prática entre a escassez de dados e as exigências da IA moderna.