Alle Beiträge

Daten & RAG-Architektur

Synthetic-Data: kein DSGVO-Wundermittel

Synthetische Daten sind kein DSGVO-Wundermittel — wo sie echte Daten sinnvoll ergänzen und welche Anonymitäts-Pflichten wirklich gelten.

Azena Editorial17. Mai 20269 Min.

TL;DR

  • Synthetic-Data hat 2026 vier sinnvolle Use-Cases: Trainings-Daten für seltene Klassen, PII-freie Test-Daten, Bild-Augmentation via GAN/Diffusion und Tabular-Augmentation via CTGAN. Außerhalb dieser vier Profile produziert Synthetic-Data mehr Schulden als Wert.
  • Synthetic-Data ist nicht automatisch DSGVO-frei. Wenn Reverse-Identifikation der Original-Personen möglich ist, gelten alle DSGVO-Pflichten unverändert — der Bundes-Datenschutz-Beauftragte hat 2025 klargestellt: nur k-anonymous generierte Daten sind sicher.
  • Synthetic ergänzt Echtdaten — sie ersetzt sie nicht. Real-Pattern 2026 ist Hybrid: 60–80 % Echtdaten, 20–40 % Synthetic als Auffüllung für seltene Klassen und Edge-Cases. Pure-Synthetic-Training bricht in Production reproduzierbar.

Vier Synthetic-Data-Use-Cases 2026

Synthetic-Data wird 2026 oft als DSGVO-Wundermittel verkauft — die Realität ist nuancierter. Vier Profile rechtfertigen den Einsatz wirtschaftlich; andere Setups sind teurer als kuratierte Echtdaten oder erzeugen versteckte Modell-Fehler.

Trainings-Daten für seltene Klassen. Anomalie-Detection mit weniger als 100 echten Samples ist mit Supervised-Learning strukturell underfit. LLM-generierte Varianten (Few-Shot auf existierende Anomalien) erhöhen die Sample-Zahl 5–20×, Quality-Gewinn typisch +6 bis +14 Punkte F1 — vorausgesetzt, die Samples werden vom Domain-Experten gegengeprüft.

Test-Daten ohne PII-Risiko. Regression-Tests und Eval-Sets brauchen realistische Customer-Personas — aber Production-PII darf nicht in CI-Pipelines, Demo-Umgebungen oder externe Test-Teams. LLM-generierte Persona-Beispiele (Namen, Adressen, Verträge, Cases) sind in Minuten erstellt und juristisch sauber. Die meisten Mittelständler nutzen 2026 genau diesen Pfad.

Bild-Augmentation für Vision-Modelle. Defekt-Detection braucht variantenreiche Trainings-Bilder (Beleuchtung, Winkel, Verschmutzungsgrad). Stable-Diffusion-XL oder dedizierte GANs erzeugen 1.000–10.000 Varianten aus 50–200 Original-Aufnahmen — AUC-Verbesserung 2–8 Punkte in DACH-Pilots.

Tabular-Data-Augmentation. Banking-, Versicherungs- und MedTech-Modelle haben oft zu wenig oder zu sensible Original-Daten. CTGAN (Conditional Tabular GAN) generiert realistische Datensätze mit gleichen marginalen und korrelativen Verteilungen — Quality-Erhalt 90–96 % bei reinem Synthetic-Training, 98–100 % bei Hybrid mit 30 % Echtdaten.

In DACH-Pilots zeigt sich: Synthetic-Data ist ein Auffüllungs-Werkzeug, kein Ersatz. Wer pure synthetisch trainiert, hat in Production einen blinden Fleck und merkt es erst im Schaden.

DSGVO-Realität

Synthetic-Data ist 2026 nicht automatisch DSGVO-frei — der häufigste Audit-Befund in DACH-Pilots. Entscheidend ist die k-Anonymity-Verifikation: Kann die Original-Person mit hoher Wahrscheinlichkeit rekonstruiert werden, bleibt der Datensatz personenbezogen. Der Bundes-Datenschutz-Beauftragte hat 2025 klargestellt: nur k-anonymous generierte Daten (k ≥ 5) sind aufsichtsrechtlich sicher.

Exhibit Tooling-Vergleich Synthetic-Data 2026 Gretel.ai Tabular Text Time-Series SaaS 0.50 bis 2 Dollar pro Tausend Records Mid-Market schnelle Pilots API-Integration Mostly AI Tabular Enterprise SaaS ab 30 Tausend Euro pro Jahr Banking Versicherung DSGVO-konformer Stack Synthea Healthcare regelbasiert Apache 2.0 kostenlos MedTech-Pilots FHIR-konforme Patient-Records Stable-Diffusion-XL Bilder Open RAIL-M selbst gehostet Defekt-Detection Vision-Augmentation on-prem CTGAN SDV Tabular Open-Source MIT-License Forschung Eigen-Entwicklung Differential-Privacy-Tuning
Exhibit 2: Tooling-Vergleich Synthetic-Data 2026 — Mostly AI für Enterprise-Tabular, Gretel.ai für Mid-Market, Synthea für Healthcare, Stable-Diffusion-XL für Bilder. Jedes Tool hat einen klaren Datentyp-Fokus — Tool-Mix erzeugt Operations-Schulden.
Methodek-Anonymity-StatusDSGVO-Konformität
Naive LLM-Generierung aus PII-Seedk = 1–2, oft rekonstruierbarNicht konform — bleibt personenbezogen
CTGAN ohne Privacy-Layerk = 2–4, Reidentifikation möglichGrenzfall — Einzelfall-Prüfung nötig
CTGAN mit Differential Privacy (ε ≤ 1)k ≥ 5, mathematisch garantiertKonform — gilt als anonym
Stable-Diffusion / Synthea (vollsynthetisch)k → ∞Konform — keine Personen-Bindung

Naive LLM-Generierung verbessert den DSGVO-Status nicht. Erst Differential Privacy mit ε ≤ 1 bringt den Sprung in die echte Anonymität, bestätigt durch Membership-Inference-Tests in DACH-Audits.

Tooling-Vergleich

Jedes Tool hat einen klaren Datentyp-Fokus — wer alle mischt, baut Operations-Schulden auf. Default-Wahl: Gretel.ai für Mid-Market-Tabular (SaaS, schnelle Pilots), Mostly AI für Enterprise-Tabular (Banking, Versicherung, DSGVO-konformer Stack), Synthea (Apache 2.0) für FHIR-konforme MedTech-Patient-Records, Stable-Diffusion-XL (selbst gehostet) für Vision-Augmentation und Defekt-Detection. CTGAN (SDV, MIT) bleibt die Open-Source-Basis für Eigen-Entwicklung mit Differential-Privacy-Tuning.

Pilot-Cockpit 80 Millionen Euro suedliche DACH-Privatbank 180 Mitarbeitende Synthetic-Data fuer Betrugs-Detection ueber 6 Monate Ausgangslage 312 echte Betrugs-Faelle in 4 Jahren historischer Daten Random-Forest Baseline-AUC 0.78 Ziel groesser 0.90 ohne weitere Personen-Daten Monat 1 Baseline plus DSFA Monat 2 CTGAN ohne DP 2500 Faelle AUC 0.84 Pen-Test 14 Prozent Reidentifikation Stopp Monat 3 CTGAN mit DP epsilon 0.8 k groesser-gleich 7 Reidentifikation 0 Prozent DSGVO-Audit bestanden Monat 4 Hybrid 70 zu 30 AUC 0.88 Monat 5 Eval auf Echt-Holdout AUC 0.91 kein Drift Monat 6 Production-Rollout AUC stabil 0.90 bis 0.92 Cost 42 Tausend Euro Schadens-Vermeidung 280 bis 540 Tausend Euro pro Jahr
Exhibit 3: 6-Monats-Pilot Bank — von Baseline-AUC 0,78 zu produktivem 0,91 für Betrugs-Detection via Hybrid-Training (70 % synthetisch mit Differential Privacy, 30 % Echt). Setup gegen –540k/Jahr Schadens-Vermeidung.

Pilot: Privatbank, Synthetic-Data für Betrugs-Detection über 6 Monate

Eine süddeutsche Privatbank zog ihr Betrugs-Detection-Modell mit Synthetic-Data hoch. Ausgangslage: 312 echte Betrugs-Fälle in 4 Jahren, ein Random-Forest mit AUC 0,78 — zu wenig Lift für produktiven Einsatz. CTGAN ohne Differential Privacy brachte AUC 0,84, scheiterte aber am Pen-Test (14 % Reidentifikation). Erst CTGAN mit Differential Privacy (ε = 0,8, k ≥ 7, 0 % Reidentifikation) bestand den DSGVO-Audit. Ein Hybrid-Training aus 70 % synthetischen und 30 % echten Fällen erreichte im Echt-Holdout AUC 0,91 ohne Production-Drift; in Production hält das Modell stabil 0,90–0,92.

Der Lift von +13 Punkten AUC senkt den jährlichen Schadens-Erwartungswert deutlich — der Aufwand amortisiert sich im ersten Jahr.

Anti-Patterns

Drei Anti-Patterns treffen 2026 mehr als die Hälfte aller Synthetic-Data-Pilots im DACH-Mittelstand. Jedes ist ein klassischer Compliance- oder Quality-Vektor — und jedes ist in unter 4 Wochen sanierbar.

Synthetic als universelle DSGVO-Lösung. „Synthetisch generieren, dann ist DSGVO erledigt." Falsch in 60–70 % der Pilot-Fälle. Ohne Differential-Privacy-Layer und ohne k-Anonymity-Verifikation bleibt der Datensatz personenbezogen. Der einzige sichere Pfad ist nachgewiesene k ≥ 5 mit Pen-Test auf Reidentifikation.

Reverse-Identifikation ignoriert. Synthetic-Datasets werden ohne Privacy-Audit veröffentlicht oder an Vendor-Partner gegeben. Reverse-Identifikation ist mit modernen ML-Techniken in 30–60 % der Fälle möglich, wenn das Original-Sample-Set klein und das Privacy-Budget hoch ist. Pflicht: Membership-Inference-Attack als Standard-Test vor jedem Release.

Synthetic ersetzt Echtdaten komplett. Quality-Verlust 8–18 % gegenüber Hybrid, weil Synthetic die Tail-Verteilung der Realität strukturell unterschätzt. Real-Pattern: 60–80 % Echtdaten, 20–40 % Synthetic für seltene Klassen und Edge-Cases — Pure-Synthetic ist nur bei harten DSGVO-Sperren vertretbar.

Default-Empfehlung 2026

Die Default-Architektur ist klar: Synthetic für seltene Klassen plus PII-freie Test-Daten plus k-Anonymity-Verifikation plus Hybrid-Training mit Echtdaten-Anteil ≥ 30 %. Vier Bausteine, ein konsistenter Privacy-Pfad, kein Über-Investment in ein Wundermittel. Wer ohne k-Anonymity-Audit produktiv geht, akzeptiert ein DSGVO-Bußgeld-Risiko plus Reidentifikations-Reputationsschaden; wer pure synthetisch trainiert, 8–18 % Quality-Verlust ohne Gegenleistung.

Praxis-Schritt: Ein AI Readiness Audit bewertet Ihre Trainings-Daten-Landschaft, identifiziert die seltenen Klassen mit Synthetic-Augmentation-Potenzial und liefert einen DSGVO-konformen Pilot-Plan. Audit anfragen → /anfrage

Stand Mai 2026. AI-Daten- und Datenschutz-Beratung für DACH-Mittelstand mit Schwerpunkt MedTech, Versicherung, Banking, Maschinenbau — eigene BAFA-/go-digital-Akkreditierung in Vorbereitung Q3 2026, Förder-Pfade aktuell in Kooperation mit akkreditierten Partner-Beratungen.

Azena Editorial· AI-Data

Nächster Schritt

Passt das auf Ihren Fall?

30-Min-Erstgespräch, kostenfrei und unverbindlich. Wir gehen Ihren konkreten Fall durch — und sagen ehrlich, wenn nichts passt.

Teilen LinkedIn Per E-Mail