Synthetische Daten sind künstlich erzeugte Informationen, die die statistischen Muster, Verteilungen und Strukturen realer Daten nachahmen, ohne tatsächliche Datensätze von echten Personen, Transaktionen oder Ereignissen zu enthalten. Sie werden von Algorithmen erzeugt – häufig von generativen Modellen wie variationalen Autoencodern, generativen kontradiktorischen Netzwerken oder großen Sprachmodellen sowie von regelbasierten Simulatoren –, um als Ersatz für echte Datensätze zu dienen. Da in der Ausgabe keine realen Personen oder Ereignisse kodiert sind, bieten synthetische Daten eine Möglichkeit, realistische Informationen zu teilen, zu untersuchen und damit zu arbeiten, und umgehen dabei viele Hindernisse in Bezug auf Datenschutz, Kosten und Zugang.
So funktionieren synthetische Daten
Die Grundidee besteht darin, eine kompakte mathematische Beschreibung eines realen Datensatzes zu erlernen und dann aus dieser Beschreibung neue Datensätze zu erzeugen, die vertraut wirken, aber keine Kopien sind. In einer typischen Pipeline wird ein generatives Modell auf einem Quelldatensatz trainiert – beispielsweise einer Tabelle mit Kundentransaktionen –, bis es die gemeinsame Verteilung zwischen den Spalten (Alter, Region, Kaufbetrag usw.) erfasst. Anschließend werden neue Zeilen aus der erlernten Verteilung gezogen. Die gleiche Logik gilt für Bilder, Texte und Zeitreihen, wo Modelle wie Diffusionsnetzwerke oder LLMs neuartige Stichproben erzeugen, die den Stil und die Statistik der Originale teilen.
Die Qualität wird üblicherweise entlang zweier Achsen überprüft: Treue (verhalten sich die synthetischen Datensätze in der Aggregation wie echte?) und Nutzen (kann ein mit ihnen trainiertes Modell dieselbe Aufgabe lösen wie eines, das mit echten Daten trainiert wurde?). Der Datenschutz wird separat geprüft, oft indem gemessen wird, wie zuversichtlich ein Angreifer einen in den synthetischen Daten eingebetteten realen Datensatz wieder identifizieren könnte. Ein einfaches Beispiel: Ein Krankenhaus möchte Röntgenaufnahmen des Brustkorbs mit externen Forschern teilen. Anstatt tatsächliche Patientenaufnahmen freizugeben, trainiert es ein generatives Modell mit seinem Archiv und gibt Tausende neuer, künstlicher Röntgenbilder frei, die medizinisch realistisch wirken – so können externe Teams Diagnosewerkzeuge entwickeln, ohne jemals identifizierbare medizinische Bilder zu verarbeiten.
Warum es wichtig ist
Echte Daten sind oft der Engpass von KI-Projekten. Krankenakten, Finanztransaktionen und Nutzerverhaltensprotokolle sind durch Vorschriften, vertragliche Verpflichtungen oder schlichte Knappheit eingeschränkt. Synthetische Daten lockern diesen Engpass und ermöglichen es Teams, schneller Prototypen zu entwickeln, kleine Datensätze zu erweitern und verzerrte Klassen auszugleichen, ohne Datenschutzgrenzen zu verletzen. Sie verringern zudem das Risiko, dass Trainingsdatensätze sensible Details auswendig lernen und weitergeben, und ermöglichen es, seltene oder gefährliche Szenarien zu simulieren – Betrugsmuster, Geräteausfälle, Grenzfälle beim autonomen Fahren –, die in realen Daten selten in ausreichender Menge vorkommen.
Große Cloud-Anbieter und Open-Source-Bibliotheken liefern mittlerweile Werkzeuge für synthetische Daten, und Aufsichtsbehörden in einigen Sektoren haben begonnen, Leitlinien zu veröffentlichen, wie synthetische Datensätze die Einhaltung von Vorschriften unterstützen können. Es ist keine Allzwecklösung: Schlechte Generatoren können dieselben Verzerrungen wie ihre Quelldaten kodieren oder Datenschutztests vollständig nicht bestehen. Dennoch werden synthetische Daten, sorgfältig eingesetzt, zunehmend ein Standardbestandteil des modernen KI-Werkzeugkastens, insbesondere in Bereichen, in denen reale Daten nicht zugänglich sind.
Wichtige Typen
- Vollständig synthetisch: Jeder Wert in jedem Datensatz wird von einem Modell erzeugt; es erscheinen keine realen Datensätze in der Ausgabe. Bietet die stärksten Datenschutzgarantien, kann jedoch von realen Grenzfällen abdriften.
- Teilweise synthetisch: Nur sensible Felder (z. B. Namen oder Diagnosen) werden ersetzt, während nicht sensible Spalten real bleiben. Nützlich, wenn es darauf ankommt, exakte Zusammenhänge in nicht sensiblen Merkmalen zu erhalten.
- Erweiterte synthetische Daten: Reale Daten werden um zusätzliche erzeugte Stichproben ergänzt, häufig um Klassen auszugleichen oder seltene Ereignisse zu simulieren. Häufig verwendet in Computer Vision und Betrugserkennung.
- Simuliert: Datensätze stammen aus einem eigens erstellten Prozessmodell (eine Physik-Engine, ein Warteschlangensystem, eine agentenbasierte Wirtschaft) und nicht aus erlernten Statistiken. Weit verbreitet in der Robotik, im bestärkenden Lernen und in synthetischen Kontrollmethoden.
Gut eingesetzt erweitern synthetische Daten die Möglichkeiten der Teams und senken gleichzeitig die Kosten und Risiken im Umgang mit sensiblen Informationen – sie bilden eine praktische Brücke zwischen Datenknappheit und den Anforderungen moderner KI.