O que são dados sintéticos?

Dados sintéticos são informações geradas algoritmicamente que reproduzem os padrões estatísticos de dados reais sem expor registos reais. Saiba como são produzidos e por que são importantes.

HyperStore · Publicado em 2026-06-20

#AI training #data privacy #generative AI #machine learning #synthetic data

Os dados sintéticos são informações geradas artificialmente que imitam os padrões estatísticos, as distribuições e a estrutura de dados do mundo real, sem conter quaisquer registos reais de pessoas, transações ou eventos. São produzidos por algoritmos — frequentemente modelos generativos como autoencoders variacionais, redes adversariais generativas ou grandes modelos de linguagem, bem como simuladores baseados em regras — para substituir conjuntos de dados genuínos. Uma vez que não são codificados indivíduos ou eventos reais no resultado, os dados sintéticos oferecem uma forma de partilhar, estudar e trabalhar com informações realistas, contornando simultaneamente muitas barreiras de privacidade, custo e acesso.

Como funcionam os dados sintéticos

A ideia central é aprender uma descrição matemática compacta de um conjunto de dados real e, em seguida, amostrar a partir dessa descrição para criar novos registos que pareçam familiares, mas que não sejam cópias. Num pipeline típico, um modelo generativo é treinado num conjunto de dados de origem — por exemplo, uma tabela de transações de clientes — até captar a distribuição conjunta entre colunas (idade, região, valor da compra, etc.). Novas linhas são então extraídas da distribuição aprendida. A mesma lógica aplica-se a imagens, texto e séries temporais, onde modelos como redes de difusão ou LLMs produzem amostras novas que partilham o estilo e a estatística dos originais.

A qualidade é normalmente verificada em dois eixos: fidelidade (os registos sintéticos comportam-se como os reais de forma agregada?) e utilidade (um modelo treinado com eles consegue resolver a mesma tarefa que um treinado com dados reais?). A privacidade é avaliada separadamente, medindo frequentemente com que confiança um adversário poderia reidentificar qualquer registo real embutido no conjunto sintético. Um exemplo simples: um hospital pretende partilhar radiografias torácicas com investigadores externos. Em vez de divulgar exames reais de pacientes, treina um modelo generativo com o seu arquivo e divulga milhares de radiografias artificiais e novas, com aparência medicamente realista — permitindo que equipas externas desenvolvam ferramentas de diagnóstico sem nunca manusear imagens médicas identificáveis.

Por que são importantes

Os dados reais são frequentemente o principal estrangulamento dos projetos de IA. Registos médicos, transações financeiras e registos de comportamento de utilizadores estão sujeitos a restrições regulatórias, obrigações contratuais ou simples escassez. Os dados sintéticos atenuam esse estrangulamento, permitindo que as equipas criem protótipos mais rapidamente, aumentem conjuntos de dados pequenos e equilibrem classes enviesadas sem ultrapassar os limites de privacidade. Também reduzem o risco de os conjuntos de treino memorizarem e divulgarem detalhes sensíveis, e tornam possível simular cenários raros ou perigosos — padrões de fraude, falhas de equipamento, situações de condução limite — que os dados do mundo real raramente captam em volume.

Os principais fornecedores de cloud e bibliotecas open-source disponibilizam agora ferramentas de dados sintéticos, e os reguladores de alguns setores começaram a publicar orientações sobre como os conjuntos de dados sintéticos podem apoiar a conformidade. Não são uma bala de prata: geradores fracos podem codificar os mesmos enviesamentos dos dados de origem ou falhar completamente nos testes de privacidade. Ainda assim, usados com cuidado, os dados sintéticos estão a tornar-se uma parte padrão do kit de ferramentas moderno de IA, especialmente em áreas onde os dados reais estão trancados.

Principais tipos

Totalmente sintético: todos os valores em cada registo são gerados por um modelo; não aparecem registos reais no resultado. Oferece as garantias de privacidade mais fortes, mas pode afastar-se de casos limite do mundo real.
Parcialmente sintético: apenas os campos sensíveis (por exemplo, nomes ou diagnósticos) são substituídos, enquanto as colunas não sensíveis são mantidas reais. Útil quando importa preservar relações exatas nas características não sensíveis.
Sintético aumentado: os dados reais são expandidos com amostras adicionais geradas, frequentemente para equilibrar classes ou simular eventos raros. Comum em visão computacional e deteção de fraude.
Simulado: os registos provêm de um modelo construído à mão de um processo (um motor de física, um sistema de filas, uma economia baseada em agentes) e não de estatísticas aprendidas. Amplamente utilizado em robótica, aprendizagem por reforço e métodos de controlo sintético.

Bem utilizados, os dados sintéticos ampliam o que as equipas podem construir, ao mesmo tempo que reduzem o custo e o risco de trabalhar com informação sensível — tornando-se uma ponte prática entre a escassez de dados e as exigências da IA moderna.

Como funcionam os dados sintéticos

Por que são importantes

Principais tipos

Também pode gostar

O que é Texto para Vídeo?

O que são as guardrails de IA?

O que é um grafo de conhecimento?

Artigos relacionados

O que é Texto para Vídeo?

O que é Texto-para-Imagem?

O que é o Overfitting?