AI-Audit-Logging: Pflicht-Logs und SIEM-Integration

TL;DR

Sieben Pflicht-Log-Kategorien sind 2026 Mindest-Compliance für Mittelstands-AI-Production: Prompt+Identity, Modell-Version, Output+Tool-Calls, Latenz+Cost, Quality-Scores, Incident-Events, Provenance-Trail. Jede fehlende Kategorie ist eine offene Flanke gegenüber EU AI Act Art. 12 und DSGVO Art. 30.
Retention reicht von 6 Monaten bis 10 Jahren je nach Branche: DSGVO 6 Monate, EU-AI-Act-Hochrisiko 5 Jahre, MedTech IEC 62304 10 Jahre. Eine einheitliche Retention ist 2026 ein Compliance-Risiko — differenzierte Policy ist nicht optional.
PII-Sanitization vor dem SIEM ist Pflicht. Klartext-Prompts mit personenbezogenen Daten in Splunk/Datadog sind ein neuer DSGVO-Verstoß. Default: Sanitization-Layer zwischen App und SIEM, pseudonymisierte User-IDs, Vault-only-Decryption für Investigations.

Sieben Pflicht-Log-Kategorien

AI-Audit-Logging ist 2026 die regulatorische Mindest-Pflicht jeder produktiven AI-Anwendung. EU AI Act Artikel 12 verlangt für Hochrisiko-Systeme einen vollständigen automatischen Logging-Mechanismus über den Lebenszyklus. DSGVO Artikel 30 schreibt das Verzeichnis der Verarbeitungstätigkeiten vor — und BaFin BAIT Punkt 8 verschärft das für Banken zur lückenlosen Nachvollziehbarkeit jeder algorithmischen Entscheidung.

Prompt-Input + User-Identity + Timestamp. Jeder Prompt mit Zeitstempel und pseudonymisierter User-Identity, geloggt vor dem Verlassen der App. PII-Sanitization passiert im selben Schritt: E-Mail-Adressen, IBANs, Kunden-IDs werden tokenisiert, das Mapping liegt im Vault. Im SIEM landet nie Klartext-PII.
Modell-Version + Provider-Metadaten. Volle Modell-Version (z. B. claude-opus-4-7-20260101), Region, Cache-Hit-Status, Provider. Grundlage jeder forensischen Replay-Analyse — ohne sie ist ein Output nicht reproduzierbar. Die meisten Hochrisiko-Audits 2026 scheitern an fehlender Modell-Versionierung.
Output + Tool-Calls + Reasoning-Tokens. Vollständiger Output, alle Tool-Calls inklusive Parameter und — wo verfügbar — Reasoning-Tokens. Das ist der eigentliche Audit-Trail für Art. 12. Wer Reasoning-Tokens nicht loggt, verliert bei Extended-Thinking-Modellen die Hälfte der Entscheidungs-Spur.
Latenz + Cost pro Request. P50/P95/P99-Latenz, Input-/Output-Token-Verbrauch, Cache-Hit-Ratio. Nicht nur Compliance, sondern die Grundlage für FinOps — ohne diese Metrik überschreiten Piloten ihr AI-Budget regelmäßig im ersten Produktiv-Quartal.
Quality-Scores. Eval-Score bei paralleler Evaluation, User-Feedback-Signale (Thumbs-Up/Down), automatische Hallucination-Detection. Pflicht nach EU AI Act Anhang IV — ohne diese Spur ist Drift-Detection nicht möglich.
Incident-Events. Hallu-Flag, HITL-Eskalation, Tool-Use-Refusal, Guardrail-Trigger — strukturiert mit Severity und Root-Cause-Hinweis. Frühwarnung vor regulatorischen Vorfällen. Eine produktive AI ohne Incident-Logging ist 2026 nicht versicherbar; Cyber-Versicherer prüfen das aktiv.
Cache-Invalidierung + Modell-Updates. Provenance-Trail: welche Prompts wurden gegen welche Modell-Version mit welchem Cache-Status beantwortet, und wann wurden Cache und Modell invalidiert. Die häufigste Audit-Lücke 2026.

Retention-Pflicht nach Branche

Eine einheitliche Retention-Policy ist 2026 ein Compliance-Risiko. Jede Branche hat eigene Mindest-Fristen, die parallel einzuhalten sind.

Standard	Retention	Anwendung	Penalty bei Verstoß
DSGVO Art. 30	6 Monate (operatives Log)	Alle personenbezogenen Verarbeitungen	bis 4 % Konzern-Umsatz
EU AI Act Art. 12	5 Jahre	Hochrisiko-AI (Anhang III)	bis 7 % Konzern-Umsatz
BaFin BAIT Punkt 8	7 Jahre	Banken, Versicherer	Aufsichtsrechtliche Maßnahmen
MedTech IEC 62304	10 Jahre	Medizinprodukte-Software	Marktrücknahme, MDR-Verstoß

Praxis-Default 2026: Zwei-Stufen-Retention — Hot-Tier 6–12 Monate für operative Investigations, Cold-Tier (S3 Glacier/Azure Archive) für Long-Term-Compliance. Die Storage-Cost-Differenz zwischen Hot und Cold ist 50–80× — wer alles hot hält, verbrennt Budget.

SIEM-Integration via OTel

OpenTelemetry ist 2026 der De-facto-Standard für AI-Observability. Die Gen-AI Semantic Conventions sind stabil verabschiedet und werden von Splunk, Datadog, ELK und Dynatrace nativ unterstützt. Wer eigene Log-Formate baut, schreibt Wartungs-Schulden.

Pilot-Cockpit 120 Millionen Euro Privatbank Sueddeutschland 340 Mitarbeitende AI-Audit-Logging fuer Claude-basierten Kreditakten-Assistenten ueber 4 Monate Phase 1 Baseline nur 2 von 7 Log-Kategorien aktiv Output Latenz keine PII-Sanitization nicht BAIT-konform Phase 2 Instrumentation OpenTelemetry-Integration in App alle 7 Kategorien instrumentiert Sanitization-Layer auf Regex plus NER BAIT-Soll erreicht Phase 3 SIEM-Forwarding Splunk-Anbindung via OTLP-Collector 7-Jahre-Retention konfiguriert Hot 12 Monate plus Cold 6 Jahre BaFin-Audit-ready Phase 4 Incident-Drill simulierter Hallucination-Incident Replay aus Audit-Trail in 14 Minuten Root-Cause dokumentiert Aufsichts-Test bestanden Cost-Bilanz 48 Tausend Euro Setup plus 1200 Euro pro Monat SIEM-Storage-Inkrement — Exhibit 3: 4-Monats-Pilot Bank — von 2/7 Log-Kategorien zu BAIT-Audit-ready. Setup + /Monat, Replay-Zeit im Incident-Drill 14 Min., Break-Even bereits auf Tag 1.

Gen-AI Semantic Conventions. Standardisierte Attribute: gen_ai.system, gen_ai.request.model, gen_ai.usage.input_tokens, gen_ai.usage.output_tokens, gen_ai.response.finish_reasons. Vendor-neutral, von allen großen SIEM-Plattformen erkannt.
OTLP-Export. OTLP ist das Transport-Format (gRPC oder HTTP/Protobuf). Der Sanitization-Layer sitzt zwischen Instrumentation und OTLP-Exporter — nur sanitisierte Spans verlassen die Application-Boundary.
Tool-Mapping. Splunk: OTel-Collector mit OTLP-Receiver. Datadog: OTLP-Endpoint direkt unter /api/v1/otlp. ELK: OpenTelemetry-Beat-Plugin seit 2025 GA. Setup-Zeit für einen Mittelstands-Stack: 4–8 Stunden, nicht länger.

Anti-Patterns

PII in Klartext-Logs. Prompts mit Klarnamen, IBANs oder Patient-IDs landen ungefiltert im SIEM. Damit wird das SIEM selbst zur DSGVO-relevanten Verarbeitung und jeder SIEM-User zum Empfänger personenbezogener Daten. 2026 der häufigste Audit-Befund.
Kein Retention-Konzept. Alle Logs in einem Bucket mit 30 Tagen TTL — oder umgekehrt alles 10 Jahre hot. Beides falsch. Richtig ist differenzierte Retention pro Log-Kategorie und Branche.
Kein SIEM-Forwarding. Logs liegen in App-DBs ohne zentrale Aggregation. Cross-System-Investigation wird unmöglich, Incident-Response dauert Tage statt Minuten. Forensik ohne SIEM ist 2026 nicht mehr akzeptabel.

Default-Stack 2026

Fünf Komponenten: OTel-Instrumentation in der App (TypeScript/Python-SDK, ~200 LOC), PII-Sanitization-Layer (Regex + NER, Presidio oder eigene Lib), OTLP-Export über Collector mit Buffer, Splunk oder Datadog als SIEM mit differenzierter Retention-Policy, Vault für PII-Mapping mit Audit-pflichtigem Just-in-Time-Decryption.

Praxis-Schritt: Ein AI Readiness Audit prüft Ihren bestehenden Stack auf die sieben Pflicht-Log-Kategorien, identifiziert Retention-Lücken und liefert eine BAIT-/EU-AI-Act-konforme Logging-Roadmap. Audit anfragen → /anfrage

Stand Mai 2026. AI-Compliance-Beratung für DACH-Mittelstand mit Schwerpunkt MedTech, Maschinenbau, Banken — eigene BAFA-/go-digital-Akkreditierung in Vorbereitung Q3 2026, Förder-Pfade aktuell in Kooperation mit akkreditierten Partner-Beratungen.

Azena Editorial· AI-Compliance

Nächster Schritt

Passt das auf Ihren Fall?

30-Min-Erstgespräch, kostenfrei und unverbindlich. Wir gehen Ihren konkreten Fall durch — und sagen ehrlich, wenn nichts passt.

Erstgespräch buchen

Teilen LinkedIn Per E-Mail