Los datos sintéticos son información generada artificialmente que imita los patrones estadísticos, las distribuciones y la estructura de datos del mundo real, sin contener ningún registro real de personas, transacciones o eventos. Se producen mediante algoritmos —comúnmente modelos generativos como autoencoders variacionales, redes generativas antagónicas o modelos de lenguaje grandes, así como simuladores basados en reglas— para sustituir a conjuntos de datos genuinos. Como en el resultado no se codifican personas ni eventos reales, los datos sintéticos ofrecen una forma de compartir, estudiar y trabajar con información realista sorteando al mismo tiempo muchas barreras de privacidad, coste y acceso.
Cómo funcionan los datos sintéticos
La idea central es aprender una descripción matemática compacta de un conjunto de datos real y luego muestrear a partir de esa descripción para crear nuevos registros que parecen familiares pero no son copias. En un pipeline típico, se entrena un modelo generativo con un conjunto de datos fuente —por ejemplo, una tabla de transacciones de clientes— hasta que captura la distribución conjunta entre columnas (edad, región, importe de compra, etc.). A continuación, se extraen nuevas filas de la distribución aprendida. La misma lógica se aplica a imágenes, texto y series temporales, donde modelos como las redes de difusión o los LLM producen muestras novedosas que comparten el estilo y las estadísticas de los originales.
La calidad se suele comprobar en dos ejes: fidelidad (¿se comportan los registros sintéticos como los reales de forma agregada?) y utilidad (¿puede un modelo entrenado con ellos resolver la misma tarea que uno entrenado con datos reales?). La privacidad se verifica por separado, a menudo midiendo con qué confianza un adversario podría reidentificar cualquier registro real embebido en el conjunto sintético. Un ejemplo sencillo: un hospital quiere compartir radiografías de tórax con investigadores externos. En lugar de divulgar las exploraciones reales de los pacientes, entrena un modelo generativo con su archivo y publica miles de radiografías nuevas y artificiales que parecen médicamente realistas, permitiendo a equipos externos desarrollar herramientas de diagnóstico sin manipular jamás imágenes médicas identificables.
Por qué importa
Los datos reales son a menudo el cuello de botella de los proyectos de IA. Los historiales médicos, las transacciones financieras y los registros de comportamiento de los usuarios están restringidos por la regulación, las obligaciones contractuales o la simple escasez. Los datos sintéticos relajan ese cuello de botella, permitiendo a los equipos prototipar más rápido, aumentar pequeños conjuntos de datos y equilibrar clases sesgadas sin sobrepasar los límites de privacidad. También reducen el riesgo de que los conjuntos de entrenamiento memoricen y filtren detalles sensibles, y hacen posible simular escenarios raros o peligrosos —patrones de fraude, fallos de equipos, situaciones de conducción límite— que los datos del mundo real rara vez capturan en volumen.
Los principales proveedores de nube y las bibliotecas de código abierto ya incluyen herramientas de datos sintéticos, y los reguladores de algunos sectores han empezado a publicar orientaciones sobre cómo los conjuntos de datos sintéticos pueden ayudar al cumplimiento normativo. No es una bala de plata: unos generadores deficientes pueden codificar los mismos sesgos que sus datos de origen o fallar por completo las pruebas de privacidad. Aun así, usados con cuidado, los datos sintéticos se están convirtiendo en una parte estándar del kit de herramientas moderno de IA, sobre todo en campos donde los datos reales están bajo llave.
Tipos clave
- Totalmente sintético: cada valor de cada registro es generado por un modelo; no aparece ningún registro real en el resultado. Ofrece las garantías de privacidad más sólidas, pero puede alejarse de los casos límite del mundo real.
- Parcialmente sintético: solo se sustituyen los campos sensibles (por ejemplo, nombres o diagnósticos), mientras que las columnas no sensibles se conservan reales. Útil cuando importa preservar las relaciones exactas en las características no sensibles.
- Sintético aumentado: los datos reales se amplían con muestras generadas adicionales, a menudo para equilibrar clases o simular eventos raros. Común en visión por computador y detección de fraude.
- Simulado: los registros provienen de un modelo construido a mano de un proceso (un motor de física, un sistema de colas, una economía basada en agentes) y no de estadísticas aprendidas. Ampliamente utilizado en robótica, aprendizaje por refuerzo y métodos de control sintético.
Bien usados, los datos sintéticos amplían lo que los equipos pueden construir al tiempo que reducen el coste y el riesgo de trabajar con información sensible, convirtiéndose en un puente práctico entre la escasez de datos y las exigencias de la IA moderna.