Alle Beiträge

Daten & RAG-Architektur

Data-Cleansing als AI-Fundament

Schlechte Eingangsdaten ruinieren jeden AI-Output, egal wie gut das Modell ist — welche Bereinigungs-Disziplinen die Grundlage legen.

Baybora Gülec17. Mai 20269 Min.

TL;DR

  • Vier Cleansing-Disziplinen 2026 sind die unterschätzte Voraussetzung jedes produktiven AI-Use-Case: Stammdaten-Konsolidierung, PII-Detection + Pseudonymisierung, Format-Standardisierung, Lineage-Tracking. Wer eine auslässt, baut Quality-Regression mit unklarer Ursache.
  • 30–50 % des AI-Build-Aufwands im DACH-Mittelstand fließen 2026 in Data-Cleansing — systematisch unterschätzt, systematisch unterfinanziert. Wer den Anteil nicht als Default annimmt, läuft im zweiten Quartal in Budget-Überschreitung.
  • Klein anfangen schlägt Big-Bang. Default-Pattern ist Start mit 1–2 hochwertigen Stamm-Entitäten (Customer, Material, Lieferant), nicht horizontaler Roll-out über alle Datenobjekte. Big-Bang-Cleansing scheitert in 70 % der Mittelstands-Vorhaben.

Vier Cleansing-Disziplinen 2026

Data-Cleansing 2026 ist keine Tool-Frage, sondern eine Disziplin-Frage. Vier Disziplinen müssen parallel laufen — wer eine auslässt, produziert AI-Outputs mit struktureller Quality-Regression.

Exhibit Tool-Stack fuer Data-Cleansing 2026 DACH-Mittelstand Stammdaten Stibo STEP Informatica MDM Reltio Open-Source Magnolia 30 bis 180 Tausend Euro Commercial Apache 2.0 LLM-Edge-Case-Matching Claude Opus 4.7 OpenAI o4 eigener Router 8 bis 40 Tausend Euro Token-Cost PII-Detection Microsoft Presidio plus Custom-Regex AWS Macie Google DLP 0 bis 24 Tausend Euro MIT Cloud-native LLM-Vision Claude Vision GPT-4o Gemini 4 bis 18 Tausend Euro Format-Standardisierung dbt Airbyte Fivetran Meltano 0 bis 60 Tausend Euro Lineage OpenLineage DataHub Atlan Collibra 0 bis 110 Tausend Euro
Exhibit 2: Konsolidierter Tool-Stack 2026 — Open-Source-Baseline (Presidio, dbt, OpenLineage) plus selektives Commercial-Tooling. Wer eigene Cleansing-Pipelines schreibt, baut 2026 Wartungs-Schulden auf.

Stammdaten-Konsolidierung. Customer- und Lieferanten-Duplikate aus 3–5 parallelen Systemen werden zu einer Single-Source-of-Truth zusammengeführt. MDM-Tools (Stibo, Informatica, Reltio) liefern das deterministische Matching, LLM-Pipelines lösen Edge-Cases (Umlaute, Tippfehler, Firmierungs-Varianten). Default: MDM für 80 % der Matches, LLM-Layer für die Long-Tail-20 %.

PII-Detection + Pseudonymisierung. 99 % Detection-Rate ist der Mindeststandard. Stack: Presidio als Open-Source-Baseline, Custom-Regex für domänen-spezifische Patterns, LLM-Vision für Frei-Text und Scan-Dokumente. Klartext-PII in Trainings- oder RAG-Daten ist ein DSGVO-Verstoß mit Bußgeld-Risiko.

Format-Standardisierung. Datums-Formate, Adress-Schemata, Telefon-Nummern (E.164), Währungen, Maßeinheiten. Klassische ETL (dbt, Airbyte, Fivetran) erledigt 90 % deterministisch, der LLM-Layer löst Mehrdeutigkeiten (12/03/26 — US oder EU?). Ohne Standardisierung scheitert jede Cross-System-Aggregation.

Lineage-Tracking. Jedes Datum muss auf seine Quelle zurückverfolgbar sein — Pflicht für AI Act Art. 10 und DSGVO Art. 30. Tool-Stack: OpenLineage, DataHub, Atlan. Ohne Lineage ist ein AI-Output juristisch nicht verteidigbar und im Audit nicht reproduzierbar.

In DACH-Pilots zeigt sich: Wenige Wochen Stammdaten-Cleansing bringen oft mehr Quality-Lift als monatelanges Modell-Tuning davor.

Tool-Stack für Data-Cleansing

Der Tool-Stack ist konsolidiert — wer eigene Cleansing-Pipelines schreibt, baut Wartungs-Schulden auf. Stammdaten-Konsolidierung läuft über MDM (Stibo STEP, Informatica, Reltio) plus einen LLM-Edge-Case-Layer (Claude, OpenAI o4) für Long-Tail-Matches. PII-Detection nutzt Microsoft Presidio + Custom-Regex plus LLM-Vision für Frei-Text-Felder. Format-Standardisierung erledigt klassisches ETL (dbt, Airbyte, Fivetran), Lineage läuft über OpenLineage, DataHub oder Atlan.

Presidio plus Custom-Regex plus LLM-Vision deckt 99 % der PII-Detection zu geringen Lizenzkosten ab. Wer dafür einen klassischen DLP-Vendor mit hohem sechsstelligem Listenpreis kauft, kauft Marketing, keine Capability.

Cleansing-First-Discipline

Wer Cleansing nach dem AI-Build adressiert, hat verloren. Drei harte Schritte vor jeder Modell-Auswahl, sonst entstehen Quality-Regressions, die im Modell-Layer nicht mehr behebbar sind.

Pilot-Cockpit 70 Millionen Euro DACH-Industrie-Grosshaendler 220 Mitarbeitende 4 Vertriebs-Standorte Customer-Stammdaten-Cleansing ueber 4 Monate 84 Tausend Customer-Records aus 5 parallelen Systemen SAP Salesforce zwei legacy ERP Outlook-Adressbuch Monat 1 Baseline plus Profiling Great Expectations live 31 Prozent Duplikat-Quote 8400 PII-Treffer Monat 2 MDM-Pipeline Stibo STEP deterministisches Matching USt-ID Postleitzahl Name-Token minus 58 Prozent Monat 3 LLM-Edge-Case-Layer Claude-Pipeline Long-Tail-Matches Umlaute Firmierungs-Varianten Tippfehler minus 82 Prozent Monat 4 PII plus Lineage plus Daily-Pipeline Presidio plus Regex OpenLineage Daily-Re-Cleansing minus 94 Prozent Duplikate 99 Komma 2 Prozent PII-Detection Cost-Bilanz 110 Tausend Euro Setup 2400 Euro pro Monat Cross-Sell-AI plus 280 Tausend Euro Zusatzumsatz im ersten Quartal amortisiert in 4 Monaten
Exhibit 3: 4-Monats-Pilot Großhändler — von 31 % Duplikat-Quote auf 94 % Duplikat-Reduktion und 99,2 % PII-Detection. Setup amortisiert in 4 Monaten über Cross-Sell-Zusatzumsatz im ersten Quartal.

Baseline-Measurement. Vor jedem Sprint wird die Data-Quality gemessen: Duplikat-Quote, Null-Rate, Format-Inkonsistenzen, PII-Treffer pro 10k Records. Ohne Baseline ist kein Erfolg messbar. Default: Great Expectations oder Soda Core, 1–2 Tage Setup.

1–2 Stamm-Entitäten zuerst. Eine Stamm-Entität pro Quartal, kein horizontaler Roll-out. Customer und Material liefern den höchsten Use-Case-Hebel pro Cleansing-Aufwand; Lieferant, Produkt, Standort folgen später.

Kontinuierliches Re-Cleansing. Cleansing ist kein Projekt, sondern eine Daily-Pipeline (Sanitization + Dedup + Format-Check + PII-Scan). Wer es als Einmal-Projekt fährt, hat in 12 Monaten denselben Quality-Stand wie davor — Daten degradieren strukturell ohne kontinuierliche Pipeline.

Pilot: Industrie-Großhändler, Customer-Stammdaten-Cleansing über 4 Monate

Ein süddeutscher Industrie-Großhändler bereinigte sein Customer-Stammdaten-Set für einen Cross-Sell-Use-Case: 5 parallele Systeme, 84.000 Records, Duplikat-Quote unbekannt. Das Baseline-Profiling mit Great Expectations maß 31 % Duplikate und 8.400 ungeschützte PII-Treffer. Eine MDM-Pipeline (Stibo STEP, Matching auf USt-ID + PLZ + Name-Token) senkte die Duplikate um 58 %, ein LLM-Edge-Case-Layer auf −82 %, und nach Presidio-PII-Scan, OpenLineage-Anbindung und Daily-Re-Cleansing auf −94 % bei 99,2 % PII-Detection.

Den Use-Case ohne Cleansing zu starten wäre nicht möglich gewesen: 31 % Duplikate hätten jedes Modell ruiniert. Der zusätzliche Cross-Sell-Umsatz im ersten Quartal lag deutlich über dem Setup-Aufwand — das Setup amortisiert sich im ersten Jahr.

Anti-Patterns

Drei Anti-Patterns treffen 2026 rund 65 % der DACH-Mittelständler. Jedes produziert Quality-Regressions, die im Modell-Layer nicht behebbar sind — und jedes ist mit einem 4-Wochen-Sprint adressierbar.

Big-Bang-Cleansing. Alle Datenobjekte gleichzeitig bereinigen. In 12 Monaten Projekt-Setup ohne produktiven Use-Case versickert das Budget, der Sponsor verliert Geduld, das Programm wird gestoppt. Default-Antwort: eine Stamm-Entität pro Quartal.

AI-Use-Case ohne Baseline-Quality. Modell wird auf ungetesteten Daten trainiert. Quality-Regression tritt auf — Ursache unklar, Debug-Aufwand hoch. Baseline-Measurement vor Modell-Auswahl ist die Default-Reihenfolge.

Kein Lineage-Tracking. Daten fließen in AI-Pipelines ohne Quell-Nachverfolgbarkeit. Im AI-Act-Audit Art. 10 oder bei einer DSGVO-Auskunftsanfrage ist die Quelle eines AI-Outputs nicht beweisbar — Bußgeld-Risiko plus Re-Engineering-Kosten pro Vorfall.

Default-Vorgehen 2026

Vier feste Bausteine, keiner optional: 1–2 Stamm-Entitäten zuerst (Customer plus Material), eine Eval-Quality-Baseline mit Great Expectations gegen jede Iteration, PII-Detection von Tag 1 mit 99 % Mindest-Rate, und Lineage von Tag 1 via OpenLineage. Wer alle vier über zwei Quartale fährt, baut ein Cleansing-System auf, das jeden weiteren AI-Use-Case beschleunigt.

Praxis-Schritt: Ein AI Readiness Audit misst Ihre Stammdaten-Qualität gegen die vier Cleansing-Disziplinen, identifiziert die ersten Stamm-Entitäten mit höchstem Hebel und liefert eine phasierte Cleansing-Roadmap. Audit anfragen → /anfrage

Stand Mai 2026. Data-Cleansing- und AI-Strategie-Beratung für DACH-Mittelstand mit Schwerpunkt MedTech, Maschinenbau, Großhandel — eigene BAFA-/go-digital-Akkreditierung in Vorbereitung Q3 2026, Förder-Pfade aktuell in Kooperation mit akkreditierten Partner-Beratungen.

Baybora Gülec· Gründer, Azena

Nächster Schritt

Passt das auf Ihren Fall?

30-Min-Erstgespräch, kostenfrei und unverbindlich. Wir gehen Ihren konkreten Fall durch — und sagen ehrlich, wenn nichts passt.

Teilen LinkedIn Per E-Mail