Alle Beiträge

Daten & RAG-Architektur

Data-Catalogs: Lineage und Ownership

Ohne Katalog skaliert AI nicht — wie Discoverability, Lineage und klare Owner Ihre Use-Case-Identifikation und Audit-Fähigkeit sichern.

Baybora Gülec17. Mai 20269 Min.

TL;DR

  • Fünf Catalog-Pflicht-Komponenten 2026: Asset-Inventar, Owner-Tracking, Lineage, Sensitivitäts-Klassifikation, Discovery-Suche. Fehlt eine Säule, skaliert AI nicht — Use-Case-Identifikation bleibt anekdotisch, Audits sind nicht bestehbar.
  • Tool-Wahl nach Umsatz-Tier: DataHub Self-Hosted für kleinere Mittelständler, Atlan-Cloud für die mittlere Größenklasse, Collibra/Purview für große, regulierte Häuser. Drei klare Schnitt-Punkte, keine Bauchentscheidung.
  • Wert quantifiziert: 30–60 % schnellere AI-Use-Case-Identifikation plus belegbare Audit-Compliance. Amortisation typisch in 9–14 Monaten.

Fünf Catalog-Pflicht-Komponenten

Data-Catalogs sind 2026 die Discoverability-Voraussetzung für AI-Skalierung. Wer welche Daten hat, wer sie pflegt, wer sie nutzen darf — ohne diese drei Antworten bleibt jeder Use-Case ein Such-Spiel. Fünf Komponenten sind nicht verhandelbar.

Exhibit Tool-Optionen 2026 fuer Data-Catalogs im DACH-Mittelstand DataHub Self-Hosted Apache 2.0 unter 100 Millionen Euro eigenes Data-Engineering-Team OpenMetadata Self-Hosted Newcomer schlankes UX junge Tech-Teams Atlan Enterprise-Cloud 100 bis 300 Millionen Euro schnelle Time-to-Value Cloud-Stack Collibra Enterprise OnPrem Cloud ab 300 Millionen Euro regulierte Branchen eigenes IT-Personal Microsoft Purview Azure-Cloud Azure-Stack-Monokultur M365-Integration Cost-Range zwischen 30 und 180 Tausend Euro Setup
Exhibit 2: Tool-Optionen 2026 — DataHub Self-Hosted für <, Atlan ab –300M, Collibra/Purview ab +. Drei klare Umsatz-Schnitt-Punkte, keine Bauchentscheidung.

Asset-Inventar. Alle relevanten Tabellen, Buckets, Topics und APIs in einem zentralen Index, automatisiert gescannt über Connectors (Snowflake, S3, Kafka, REST). Manuell gepflegte Excel-Listen sind nicht mehr akzeptabel — sie sind nach zwei Quartalen veraltet.

Owner-Tracking. Jedes Asset hat genau einen technischen Owner plus einen Business-Owner mit klarem Eskalations-Pfad. Ohne Owner ist ein Asset Schrödingers-Daten — niemand fühlt sich zuständig, niemand bestätigt Qualität. Die Owner-Pflicht ist die wichtigste politische Entscheidung im Setup.

Lineage-Tracking. Daten-Fluss von Quelle bis AI-Inferenz und weiter bis zur Mensch-Entscheidung. Die Frage "Welche Tabelle hat dieses LLM-Output produziert?" muss in unter 60 Sekunden beantwortbar sein. Audit-Pflicht, kein Nice-to-have.

Sensitivitäts-Klassifikation. Vier-Stufen-Schema Public / Internal / Confidential / Restricted mit DSGVO-Mapping. Restricted = personenbezogen oder Geschäftsgeheimnis. Ohne Klassifikation ist jeder Use-Case ein Compliance-Risiko, weil niemand weiß, welche Daten eingesetzt werden dürfen.

Discovery-Suche. Technische Suche (Schema, Spalten, Tags) plus Business-Suche mit LLM-Search-Layer. Discovery ist der User-facing Layer — fehlt er, nutzt niemand das Catalog, egal wie vollständig es ist.

In DACH-Pilots zeigt sich: Ohne Catalog suchen mehrere Teams parallel dieselbe Tabelle in verschiedenen Datenbanken mit verschiedenen Definitionen — wochenlanger Verlust pro AI-Use-Case, den ein Catalog in Tagen entscheidet.

Tool-Optionen 2026 für Mittelstand

Der DACH-Mittelstand wählt nicht nach Feature-Liste, sondern nach Umsatz-Tier und IT-Reife. DataHub (Self-Hosted, Apache 2.0) ist der Default für kleinere Häuser mit eigenem Data-Engineering-Team — die laufenden Kosten sind unschlagbar, der Hosting-Aufwand mit Kubernetes-Erfahrung beherrschbar; OpenMetadata ist der schlanke Newcomer-Pfad. Atlan (Enterprise-Cloud) passt zur mittleren Größenklasse, weil die Time-to-Value 4–8 Wochen statt 6 Monaten beträgt und IT-Kapazität typisch Bottleneck ist. Collibra und Microsoft Purview bedienen große, regulierte Häuser (Banken, Versicherer, MedTech) mit OnPrem-Deployment und Audit-Trail. Die Tool-Wahl ist weniger entscheidend als die Owner-Pflicht: Catalogs ohne Owner-Pflicht sind in DACH-Pilots nach sechs Monaten regelmäßig tot.

Lineage-Tracking als Pflicht-Layer

Lineage wird im ersten Quartal am häufigsten vernachlässigt — und im ersten Audit am teuersten. Drei Sub-Anforderungen sind nicht verhandelbar:

Pilot-Cockpit 130 Millionen Euro DACH-Industrie-Mittelstand Familienunternehmen Maschinen- und Sondermaschinenbau 540 Mitarbeitende 14 Quellsysteme ERP MES CRM PLM S3 Snowflake Catalog-Aufbau ueber 6 Monate Monat 1 bis 2 DataHub deployed 8 Connectors aktiv 1240 Assets indexiert Monat 3 Owner-Pflicht 87 Prozent Assets mit Owner 4-Stufen-Sensitivitaet live Monat 4 OpenLineage ueber Airflow LLM-Search-Layer live Monat 5 drei AI-Use-Cases identifiziert in 9 Tagen statt 7 Wochen Monat 6 Quartals-Audit Owner-SLA 95 Prozent Lineage-Coverage 78 Prozent Audit-Export live Ergebnis 47 Prozent schnellere AI-Use-Case-Identifikation Setup 62 Tausend Euro einmalig plus 22 Tausend Euro pro Jahr
Exhibit 3: 6-Monats-Pilot Industrie-Mittelstand — DataHub, 1.240 Assets, 87 % Owner-Coverage, AI-Use-Case-Identifikation 47 % schneller. Setup einmalig plus /Jahr Maintenance, Amortisation in unter 12 Monaten.
  • Quelle → Inferenz-Trail. Jeder LLM-Output muss rückverfolgbar sein zur konkreten Tabellen-, Embedding- und Modell-Version. Bei Customer-Beschwerden ist das die erste Frage des Justiziariats.
  • Re-Training-Provenance. Fine-Tuning-Daten und RAG-Indizes müssen mit Quell-Asset und Snapshot-Datum dokumentiert sein. EU AI Act Art. 10 verlangt für Hochrisiko-Systeme Trainingsdaten-Governance.
  • Audit-Export. Lineage muss als PDF/CSV exportierbar sein, signiert mit Zeitstempel. Auditoren wollen Papier, kein Dashboard.

Pilot: Industrie-Mittelständler, Catalog-Aufbau über 6 Monate

Familienunternehmen, Maschinen- und Sondermaschinenbau, 540 Mitarbeitende, 14 Quellsysteme (ERP, MES, CRM, PLM, S3, Snowflake). Vor Pilot: keine zentrale Sicht, AI-Use-Case-Identifikation dauerte 6–10 Wochen. DataHub mit 8 Connectors indexierte 1.240 Assets, in Monat 3 hatten 87 % einen Owner und eine 4-Stufen-Sensitivität. Mit OpenLineage über Airflow und einem LLM-Search-Layer stieg die monatliche Nutzung von 4 Data-Engineers auf 210 Mitarbeitende. In Monat 5 wurden 3 AI-Use-Cases in 9 Tagen statt 7 Wochen identifiziert.

Ergebnis nach 6 Monaten: AI-Use-Case-Identifikation 47 % schneller (6–10 Wochen → 9–14 Tage), Owner-SLA 95 %, Lineage-Coverage 78 %, Audit-Trail belastbar, Amortisation im ersten Jahr.

Anti-Patterns

Drei Muster killen Catalog-Initiativen 2026 zuverlässig.

Catalog ohne Owner-Pflicht. Tool ist deployed, Assets sind indexiert, niemand ist verantwortlich für Qualität. Nach 4–6 Monaten ist das Catalog veraltet, niemand vertraut den Einträgen, niemand nutzt die Suche. Tot.

Lineage erst bei Audit. „Lineage machen wir, wenn der Auditor fragt." Klassischer Fehler — Lineage retrospektiv aufzubauen kostet 5–10× mehr als Lineage von Tag 1 via OpenLineage/dbt-Integration. Bei Audit ist die Frist zu knapp, das Reverse-Engineering scheitert.

Keine Sensitivitäts-Klassifikation. Alle Daten gelten als „Internal". Personenbezogene Daten landen in RAG-Indizes, Confidential-Strategien werden in Customer-facing Chat-Bots durchgeleitet. Die erste DSGVO-Beschwerde wird teuer — und das Catalog hätte den Vorfall in 5 Minuten verhindert.

Default-Setup 2026

Das Minimum-Setup ist klar: DataHub oder Atlan je nach Umsatz-Tier, Owner-Pflicht politisch durchgesetzt, Sensitivitäts-Klassifikation in vier Stufen mit DSGVO-Mapping, Lineage-Tracking via OpenLineage/dbt von Tag 1, Quartals-Audit mit Owner-SLA-Reporting. Wer mehr als zwei AI-Use-Cases parallel betreiben will, ohne diese fünf Bausteine, verbrennt 30–60 % der Identifikations-Zeit und sammelt Compliance-Schulden. Setup-Aufwand: 4–6 Monate Programm, Amortisation typisch in 9–14 Monaten.

Praxis-Schritt: Ein AI Readiness Audit prüft den Catalog-Reifegrad gegen die fünf Pflicht-Komponenten und liefert eine priorisierte 12-Monats-Roadmap inkl. Tool-Empfehlung. Audit anfragen → /anfrage

Stand Mai 2026. AI-Strategie-Beratung für DACH-Mittelstand mit Schwerpunkt MedTech, Maschinenbau, Versicherung — eigene BAFA-/go-digital-Akkreditierung in Vorbereitung Q3 2026, Förder-Pfade aktuell in Kooperation mit akkreditierten Partner-Beratungen.

Baybora Gülec· Gründer, Azena

Nächster Schritt

Passt das auf Ihren Fall?

30-Min-Erstgespräch, kostenfrei und unverbindlich. Wir gehen Ihren konkreten Fall durch — und sagen ehrlich, wenn nichts passt.

Teilen LinkedIn Per E-Mail