TL;DR
- Vier Cleansing-Disziplinen 2026 sind die unterschätzte Voraussetzung jedes produktiven AI-Use-Case: Stammdaten-Konsolidierung, PII-Detection + Pseudonymisierung, Format-Standardisierung, Lineage-Tracking. Wer eine auslässt, baut Quality-Regression mit unklarer Ursache.
- 30–50 % des AI-Build-Aufwands im DACH-Mittelstand fließen 2026 in Data-Cleansing — systematisch unterschätzt, systematisch unterfinanziert. Wer den Anteil nicht als Default annimmt, läuft im zweiten Quartal in Budget-Überschreitung.
- Klein anfangen schlägt Big-Bang. Default-Pattern ist Start mit 1–2 hochwertigen Stamm-Entitäten (Customer, Material, Lieferant), nicht horizontaler Roll-out über alle Datenobjekte. Big-Bang-Cleansing scheitert in 70 % der Mittelstands-Vorhaben.
Vier Cleansing-Disziplinen 2026
Data-Cleansing 2026 ist keine Tool-Frage, sondern eine Disziplin-Frage. Vier Disziplinen müssen parallel laufen — wer eine auslässt, produziert AI-Outputs mit struktureller Quality-Regression.

Stammdaten-Konsolidierung. Customer- und Lieferanten-Duplikate aus 3–5 parallelen Systemen werden zu einer Single-Source-of-Truth zusammengeführt. MDM-Tools (Stibo, Informatica, Reltio) liefern das deterministische Matching, LLM-Pipelines lösen Edge-Cases (Umlaute, Tippfehler, Firmierungs-Varianten). Default: MDM für 80 % der Matches, LLM-Layer für die Long-Tail-20 %.
PII-Detection + Pseudonymisierung. 99 % Detection-Rate ist der Mindeststandard. Stack: Presidio als Open-Source-Baseline, Custom-Regex für domänen-spezifische Patterns, LLM-Vision für Frei-Text und Scan-Dokumente. Klartext-PII in Trainings- oder RAG-Daten ist ein DSGVO-Verstoß mit Bußgeld-Risiko.
Format-Standardisierung. Datums-Formate, Adress-Schemata, Telefon-Nummern (E.164), Währungen, Maßeinheiten. Klassische ETL (dbt, Airbyte, Fivetran) erledigt 90 % deterministisch, der LLM-Layer löst Mehrdeutigkeiten (12/03/26 — US oder EU?). Ohne Standardisierung scheitert jede Cross-System-Aggregation.
Lineage-Tracking. Jedes Datum muss auf seine Quelle zurückverfolgbar sein — Pflicht für AI Act Art. 10 und DSGVO Art. 30. Tool-Stack: OpenLineage, DataHub, Atlan. Ohne Lineage ist ein AI-Output juristisch nicht verteidigbar und im Audit nicht reproduzierbar.
In DACH-Pilots zeigt sich: Wenige Wochen Stammdaten-Cleansing bringen oft mehr Quality-Lift als monatelanges Modell-Tuning davor.
Tool-Stack für Data-Cleansing
Der Tool-Stack ist konsolidiert — wer eigene Cleansing-Pipelines schreibt, baut Wartungs-Schulden auf. Stammdaten-Konsolidierung läuft über MDM (Stibo STEP, Informatica, Reltio) plus einen LLM-Edge-Case-Layer (Claude, OpenAI o4) für Long-Tail-Matches. PII-Detection nutzt Microsoft Presidio + Custom-Regex plus LLM-Vision für Frei-Text-Felder. Format-Standardisierung erledigt klassisches ETL (dbt, Airbyte, Fivetran), Lineage läuft über OpenLineage, DataHub oder Atlan.
Presidio plus Custom-Regex plus LLM-Vision deckt 99 % der PII-Detection zu geringen Lizenzkosten ab. Wer dafür einen klassischen DLP-Vendor mit hohem sechsstelligem Listenpreis kauft, kauft Marketing, keine Capability.
Cleansing-First-Discipline
Wer Cleansing nach dem AI-Build adressiert, hat verloren. Drei harte Schritte vor jeder Modell-Auswahl, sonst entstehen Quality-Regressions, die im Modell-Layer nicht mehr behebbar sind.

Baseline-Measurement. Vor jedem Sprint wird die Data-Quality gemessen: Duplikat-Quote, Null-Rate, Format-Inkonsistenzen, PII-Treffer pro 10k Records. Ohne Baseline ist kein Erfolg messbar. Default: Great Expectations oder Soda Core, 1–2 Tage Setup.
1–2 Stamm-Entitäten zuerst. Eine Stamm-Entität pro Quartal, kein horizontaler Roll-out. Customer und Material liefern den höchsten Use-Case-Hebel pro Cleansing-Aufwand; Lieferant, Produkt, Standort folgen später.
Kontinuierliches Re-Cleansing. Cleansing ist kein Projekt, sondern eine Daily-Pipeline (Sanitization + Dedup + Format-Check + PII-Scan). Wer es als Einmal-Projekt fährt, hat in 12 Monaten denselben Quality-Stand wie davor — Daten degradieren strukturell ohne kontinuierliche Pipeline.
Pilot: Industrie-Großhändler, Customer-Stammdaten-Cleansing über 4 Monate
Ein süddeutscher Industrie-Großhändler bereinigte sein Customer-Stammdaten-Set für einen Cross-Sell-Use-Case: 5 parallele Systeme, 84.000 Records, Duplikat-Quote unbekannt. Das Baseline-Profiling mit Great Expectations maß 31 % Duplikate und 8.400 ungeschützte PII-Treffer. Eine MDM-Pipeline (Stibo STEP, Matching auf USt-ID + PLZ + Name-Token) senkte die Duplikate um 58 %, ein LLM-Edge-Case-Layer auf −82 %, und nach Presidio-PII-Scan, OpenLineage-Anbindung und Daily-Re-Cleansing auf −94 % bei 99,2 % PII-Detection.
Den Use-Case ohne Cleansing zu starten wäre nicht möglich gewesen: 31 % Duplikate hätten jedes Modell ruiniert. Der zusätzliche Cross-Sell-Umsatz im ersten Quartal lag deutlich über dem Setup-Aufwand — das Setup amortisiert sich im ersten Jahr.
Anti-Patterns
Drei Anti-Patterns treffen 2026 rund 65 % der DACH-Mittelständler. Jedes produziert Quality-Regressions, die im Modell-Layer nicht behebbar sind — und jedes ist mit einem 4-Wochen-Sprint adressierbar.
Big-Bang-Cleansing. Alle Datenobjekte gleichzeitig bereinigen. In 12 Monaten Projekt-Setup ohne produktiven Use-Case versickert das Budget, der Sponsor verliert Geduld, das Programm wird gestoppt. Default-Antwort: eine Stamm-Entität pro Quartal.
AI-Use-Case ohne Baseline-Quality. Modell wird auf ungetesteten Daten trainiert. Quality-Regression tritt auf — Ursache unklar, Debug-Aufwand hoch. Baseline-Measurement vor Modell-Auswahl ist die Default-Reihenfolge.
Kein Lineage-Tracking. Daten fließen in AI-Pipelines ohne Quell-Nachverfolgbarkeit. Im AI-Act-Audit Art. 10 oder bei einer DSGVO-Auskunftsanfrage ist die Quelle eines AI-Outputs nicht beweisbar — Bußgeld-Risiko plus Re-Engineering-Kosten pro Vorfall.
Default-Vorgehen 2026
Vier feste Bausteine, keiner optional: 1–2 Stamm-Entitäten zuerst (Customer plus Material), eine Eval-Quality-Baseline mit Great Expectations gegen jede Iteration, PII-Detection von Tag 1 mit 99 % Mindest-Rate, und Lineage von Tag 1 via OpenLineage. Wer alle vier über zwei Quartale fährt, baut ein Cleansing-System auf, das jeden weiteren AI-Use-Case beschleunigt.
Praxis-Schritt: Ein AI Readiness Audit misst Ihre Stammdaten-Qualität gegen die vier Cleansing-Disziplinen, identifiziert die ersten Stamm-Entitäten mit höchstem Hebel und liefert eine phasierte Cleansing-Roadmap. Audit anfragen → /anfrage
Stand Mai 2026. Data-Cleansing- und AI-Strategie-Beratung für DACH-Mittelstand mit Schwerpunkt MedTech, Maschinenbau, Großhandel — eigene BAFA-/go-digital-Akkreditierung in Vorbereitung Q3 2026, Förder-Pfade aktuell in Kooperation mit akkreditierten Partner-Beratungen.
Nächster Schritt
Passt das auf Ihren Fall?
30-Min-Erstgespräch, kostenfrei und unverbindlich. Wir gehen Ihren konkreten Fall durch — und sagen ehrlich, wenn nichts passt.
