AI Red-Team-Audit: der Pentest für KI-Systeme

TL;DR

Was geprüft wird: Prompt-Injection (50+ Vektoren), Jailbreak-Resistance, PII-Leakage, Tool-Use-Hijacking, Output-Faithfulness und Bias über Subgruppen — sechs Dimensionen, die klassischer Pentest nicht abdeckt.
Dauer: zwei bis vier Wochen Auditzeit, Festpreis je nach System-Komplexität und Tool-Surface.
Output: Risk-Matrix nach NIST AI Risk Management Framework, priorisierte Remediation, Re-Test-Window — EU AI Act Art. 9 verlangt 2026 dokumentierte Risk-Management-Evidenz.

Warum klassischer Pentest für AI-Systeme nicht ausreicht

Ein klassischer Pentest prüft Code-Sicherheit, Netzwerk-Surface und Identity-Layer. Bei einem AI-System ist die Hauptschwachstelle aber nicht der Code, sondern das Sprachmodell: Es lässt sich durch natürlichsprachige Eingaben in System-Zustände versetzen, die kein klassischer Pentest erkennt. Prompt-Injection ist kein Buffer-Overflow, sondern eine semantische Schwachstelle, die nur Adversarial-Testing entdeckt.

In DACH-Audits zeigt sich: Ein sauberer klassischer Pentest mit null Findings sagt nichts über das AI-Risiko. Ein nachgelagerter Red-Team-Audit fördert regelmäßig kritische Befunde zutage — darunter direkte PII-Leakage-Pfade zum Kunden-Output.

Sechs Audit-Dimensionen

Dimension	Was geprüft wird
1. Prompt-Injection	50+ Vektoren (direkt, indirekt, multimodal)
2. Jailbreak	DAN, AIM, Many-Shot, Crescendo, Role-Play
3. PII-Leakage	Training-Data-Extraction, Output-Sniffing, RAG-Spillover
4. Tool-Use-Hijacking	Function-Calling-Manipulation, MCP-Hijack
5. Output-Faithfulness	Halluzinationen bei High-Impact-Aktionen
6. Bias-Audit	Subgruppen-Performance (Geschlecht, Herkunft, Alter)

Dimension 1–2 betreffen das Modell selbst, 3–4 die Integration, 5–6 die Output-Qualität. Ein Audit, der nur Dimension 1 prüft, ist ein Vibe-Check, kein Audit.

Cockpit Sechs-Dimensionen AI-Red-Team-Audit mit Methoden und Tool-Mapping PyRIT Garak Lakera Robust Intelligence — Exhibit 1: Sechs Audit-Dimensionen, jede mit eigener Methodik und eigenem Tool-Set — ein Audit, der nur Dimension 1 prüft, ist kein Audit.

Jailbreak-Patterns 2026

Vier Familien tragen die Mehrheit der erfolgreichen Bypässe: DAN (Role-Play als Persona ohne Restriktionen, 2026 kombiniert mit Memory-Injection über mehrere Turns); AIM (Machiavelli-Persona ohne ethische Filter, wirkt auf schwache RLHF-Tiefe); Many-Shot (Hunderte fiktiver Jailbreak-Beispiele im Kontext-Window verkippen via In-Context-Learning Long-Context-Modelle); Crescendo (schrittweise eskalierende Folge-Prompts — jeder Schritt sieht in Ordnung aus, das Aggregat ist der Bypass; stateful und damit am schwersten zu erkennen).

Tool-Chain für AI-Red-Team

Tool	Typ	Stärke
PyRIT (Microsoft)	Open-Source	Skriptbar, Mutation-Engine, Agent-Coverage
Garak (NVIDIA)	Open-Source	Plug-in-Vektoren, schnelle Baseline-Scans
Lakera (Zürich)	Proprietary SaaS	Production-Guardrails, Real-Time-Detection
Robust Intelligence	Proprietary Enterprise	Continuous-Testing, Compliance-Reports

Praxis-Verdikt: Mittelstands-Audit-Stack ist PyRIT + Garak für die Adversarial-Suite, Lakera oder Robust Intelligence für continuous Production-Monitoring. Open-Source allein reicht für den Initial-Audit, nicht für lückenlose Compliance-Evidenz nach EU AI Act Art. 9.

Tool-Chain-Vergleich AI-Red-Team Open-Source PyRIT Garak versus Proprietary Lakera Robust Intelligence mit Cost-Range — Exhibit 2: Open-Source reicht für Initial-Audit, Proprietary-Stack ab Go-Live für continuous Compliance-Evidenz nach EU AI Act Art. 9.

Output: Risk-Matrix NIST AI RMF

Das Deliverable ist keine Findings-Liste, sondern eine Risk-Matrix nach NIST AI Risk Management Framework (AI RMF 1.0). Jedes Finding wird in Likelihood × Impact eingeordnet, mit konkreter Maßnahme und Re-Test-Fenster:

NIST AI Risk Management Framework Risk-Matrix mit Likelihood Impact Remediation und Re-Test-Window für sechs Risiko-Klassen — Exhibit 3: NIST-RMF-strukturierte Risk-Matrix — Audit-Evidenz direkt EU-AI-Act-tauglich, ohne diese Struktur regulatorisch nicht verwertbar.

Risiko-Klasse	Beispiel-Finding	Maßnahme
Prompt-Injection (kritisch)	Indirekte Injection über RAG-Dokument	Input-Sanitization + Sandboxed-RAG
Jailbreak (kritisch)	Crescendo-Bypass über 7 Turns	Memory-Reset + Lakera-Guard
PII-Leakage (kritisch)	Training-Data-Extraction via Repeat-Token	Output-Filter + DLP-Layer
Tool-Hijacking (hoch)	Function-Call-Argument-Override	Schema-Validation + Privilege-Scoping
Faithfulness (hoch)	Halluzinierte Paragraph-Verweise	Forced-Citation + Reviewer-Pflicht
Bias (mittel)	Disparate Performance Subgruppe 60+	Data-Rebalancing + Eval-Set-Expansion

Die Matrix folgt den vier NIST-AI-RMF-Funktionen GOVERN, MAP, MEASURE, MANAGE und ist als Audit-Evidenz direkt EU-AI-Act-tauglich. Ohne NIST-RMF-strukturierte Dokumentation lässt sich der Audit regulatorisch nicht verwerten.

Pilot: MedTech vor MDR-Submission

Q1/2026, anonymisierter MedTech-Mittelständler, Klasse-IIb-Diagnostik-Produkt mit AI-Komponente, vor MDR-Submission und EU-AI-Act-Hochrisiko-Klassifikation. Der 18-Werktage-Audit fand drei kritische Befunde — indirekte Injection über das Patient-Notes-RAG, einen Crescendo-Bypass auf eine Off-Label-Empfehlung und eine Patienten-ID im Output bei Repeat-Query — plus Faithfulness-, Bias- und Tool-Hijack-Findings. Alle bis auf den Bias-Gap wurden im Re-Test geschlossen.

Der wichtigste Effekt war nicht die Behebung einzelner Findings, sondern dass die Notified Body das AI-Risk-Management-File ohne Nachreichung akzeptierte — das verkürzte die MDR-Submission um geschätzt sechs bis zehn Wochen.

Wann Audit Pflicht wird

EU AI Act Hochrisiko-Systeme nach Annex III (ab August 2026 in voller Anwendung). Art. 9 verlangt ein dokumentiertes Risk-Management-System über den Lifecycle — Adversarial-Testing-Evidenz ist faktisch nicht ohne Red-Team-Audit darstellbar.
Medizinprodukte Klasse IIb und III nach MDR mit AI-Komponente. Notified Bodies (TÜV Süd, DEKRA, BSI) verlangen seit Q4/2025 Adversarial-Robustness-Evidenz im Risk-File. Ohne Audit drohen Nachreichungs-Schleifen von acht bis vierzehn Wochen.
Banking und Finance unter BaFin-MaRisk AT 4.5. Modellrisiko-Management verlangt seit 2025 nachgewiesene Robustness-Tests; AML-, KYC- und Credit-Scoring-Modelle besonders.

Einordnung für den GF-Tisch

Der AI-Red-Team-Audit ist 2026 das Pendant zum ISO-27001-Audit für AI-Systeme — Pflicht-Hygiene für jeden Mittelständler mit produktivem LLM auf Kunden-, Patienten- oder Finance-Workflows. Festpreis kalkulierbar, Scope abgrenzbar, Output NIST-RMF-strukturiert und versicherbar.

Praxis-Schritt: Ein 30-Min-Gespräch klärt, ob Ihr AI-System unter EU-AI-Act-Hochrisiko fällt und welche der sechs Dimensionen die größte Audit-Priorität haben. Erstgespräch anfragen → /anfrage

Stand Mai 2026. Förderpfad-Beratung und Antragsbegleitung in Kooperation mit autorisierten Partner-Beratungen — eigene BAFA-/go-digital-Akkreditierung in Vorbereitung Q3 2026.

Azena Editorial· AI-Cybersecurity

Nächster Schritt

Passt das auf Ihren Fall?

30-Min-Erstgespräch, kostenfrei und unverbindlich. Wir gehen Ihren konkreten Fall durch — und sagen ehrlich, wenn nichts passt.

Erstgespräch buchen

Teilen LinkedIn Per E-Mail