TL;DR
- Was geprüft wird: Prompt-Injection (50+ Vektoren), Jailbreak-Resistance, PII-Leakage, Tool-Use-Hijacking, Output-Faithfulness und Bias über Subgruppen — sechs Dimensionen, die klassischer Pentest nicht abdeckt.
- Dauer: zwei bis vier Wochen Auditzeit, Festpreis je nach System-Komplexität und Tool-Surface.
- Output: Risk-Matrix nach NIST AI Risk Management Framework, priorisierte Remediation, Re-Test-Window — EU AI Act Art. 9 verlangt 2026 dokumentierte Risk-Management-Evidenz.
Warum klassischer Pentest für AI-Systeme nicht ausreicht
Ein klassischer Pentest prüft Code-Sicherheit, Netzwerk-Surface und Identity-Layer. Bei einem AI-System ist die Hauptschwachstelle aber nicht der Code, sondern das Sprachmodell: Es lässt sich durch natürlichsprachige Eingaben in System-Zustände versetzen, die kein klassischer Pentest erkennt. Prompt-Injection ist kein Buffer-Overflow, sondern eine semantische Schwachstelle, die nur Adversarial-Testing entdeckt.
In DACH-Audits zeigt sich: Ein sauberer klassischer Pentest mit null Findings sagt nichts über das AI-Risiko. Ein nachgelagerter Red-Team-Audit fördert regelmäßig kritische Befunde zutage — darunter direkte PII-Leakage-Pfade zum Kunden-Output.
Sechs Audit-Dimensionen
| Dimension | Was geprüft wird |
|---|---|
| 1. Prompt-Injection | 50+ Vektoren (direkt, indirekt, multimodal) |
| 2. Jailbreak | DAN, AIM, Many-Shot, Crescendo, Role-Play |
| 3. PII-Leakage | Training-Data-Extraction, Output-Sniffing, RAG-Spillover |
| 4. Tool-Use-Hijacking | Function-Calling-Manipulation, MCP-Hijack |
| 5. Output-Faithfulness | Halluzinationen bei High-Impact-Aktionen |
| 6. Bias-Audit | Subgruppen-Performance (Geschlecht, Herkunft, Alter) |
Dimension 1–2 betreffen das Modell selbst, 3–4 die Integration, 5–6 die Output-Qualität. Ein Audit, der nur Dimension 1 prüft, ist ein Vibe-Check, kein Audit.

Jailbreak-Patterns 2026
Vier Familien tragen die Mehrheit der erfolgreichen Bypässe: DAN (Role-Play als Persona ohne Restriktionen, 2026 kombiniert mit Memory-Injection über mehrere Turns); AIM (Machiavelli-Persona ohne ethische Filter, wirkt auf schwache RLHF-Tiefe); Many-Shot (Hunderte fiktiver Jailbreak-Beispiele im Kontext-Window verkippen via In-Context-Learning Long-Context-Modelle); Crescendo (schrittweise eskalierende Folge-Prompts — jeder Schritt sieht in Ordnung aus, das Aggregat ist der Bypass; stateful und damit am schwersten zu erkennen).
Tool-Chain für AI-Red-Team
| Tool | Typ | Stärke |
|---|---|---|
| PyRIT (Microsoft) | Open-Source | Skriptbar, Mutation-Engine, Agent-Coverage |
| Garak (NVIDIA) | Open-Source | Plug-in-Vektoren, schnelle Baseline-Scans |
| Lakera (Zürich) | Proprietary SaaS | Production-Guardrails, Real-Time-Detection |
| Robust Intelligence | Proprietary Enterprise | Continuous-Testing, Compliance-Reports |
Praxis-Verdikt: Mittelstands-Audit-Stack ist PyRIT + Garak für die Adversarial-Suite, Lakera oder Robust Intelligence für continuous Production-Monitoring. Open-Source allein reicht für den Initial-Audit, nicht für lückenlose Compliance-Evidenz nach EU AI Act Art. 9.

Output: Risk-Matrix NIST AI RMF
Das Deliverable ist keine Findings-Liste, sondern eine Risk-Matrix nach NIST AI Risk Management Framework (AI RMF 1.0). Jedes Finding wird in Likelihood × Impact eingeordnet, mit konkreter Maßnahme und Re-Test-Fenster:

| Risiko-Klasse | Beispiel-Finding | Maßnahme |
|---|---|---|
| Prompt-Injection (kritisch) | Indirekte Injection über RAG-Dokument | Input-Sanitization + Sandboxed-RAG |
| Jailbreak (kritisch) | Crescendo-Bypass über 7 Turns | Memory-Reset + Lakera-Guard |
| PII-Leakage (kritisch) | Training-Data-Extraction via Repeat-Token | Output-Filter + DLP-Layer |
| Tool-Hijacking (hoch) | Function-Call-Argument-Override | Schema-Validation + Privilege-Scoping |
| Faithfulness (hoch) | Halluzinierte Paragraph-Verweise | Forced-Citation + Reviewer-Pflicht |
| Bias (mittel) | Disparate Performance Subgruppe 60+ | Data-Rebalancing + Eval-Set-Expansion |
Die Matrix folgt den vier NIST-AI-RMF-Funktionen GOVERN, MAP, MEASURE, MANAGE und ist als Audit-Evidenz direkt EU-AI-Act-tauglich. Ohne NIST-RMF-strukturierte Dokumentation lässt sich der Audit regulatorisch nicht verwerten.
Pilot: MedTech vor MDR-Submission
Q1/2026, anonymisierter MedTech-Mittelständler, Klasse-IIb-Diagnostik-Produkt mit AI-Komponente, vor MDR-Submission und EU-AI-Act-Hochrisiko-Klassifikation. Der 18-Werktage-Audit fand drei kritische Befunde — indirekte Injection über das Patient-Notes-RAG, einen Crescendo-Bypass auf eine Off-Label-Empfehlung und eine Patienten-ID im Output bei Repeat-Query — plus Faithfulness-, Bias- und Tool-Hijack-Findings. Alle bis auf den Bias-Gap wurden im Re-Test geschlossen.
Der wichtigste Effekt war nicht die Behebung einzelner Findings, sondern dass die Notified Body das AI-Risk-Management-File ohne Nachreichung akzeptierte — das verkürzte die MDR-Submission um geschätzt sechs bis zehn Wochen.
Wann Audit Pflicht wird
- EU AI Act Hochrisiko-Systeme nach Annex III (ab August 2026 in voller Anwendung). Art. 9 verlangt ein dokumentiertes Risk-Management-System über den Lifecycle — Adversarial-Testing-Evidenz ist faktisch nicht ohne Red-Team-Audit darstellbar.
- Medizinprodukte Klasse IIb und III nach MDR mit AI-Komponente. Notified Bodies (TÜV Süd, DEKRA, BSI) verlangen seit Q4/2025 Adversarial-Robustness-Evidenz im Risk-File. Ohne Audit drohen Nachreichungs-Schleifen von acht bis vierzehn Wochen.
- Banking und Finance unter BaFin-MaRisk AT 4.5. Modellrisiko-Management verlangt seit 2025 nachgewiesene Robustness-Tests; AML-, KYC- und Credit-Scoring-Modelle besonders.
Einordnung für den GF-Tisch
Der AI-Red-Team-Audit ist 2026 das Pendant zum ISO-27001-Audit für AI-Systeme — Pflicht-Hygiene für jeden Mittelständler mit produktivem LLM auf Kunden-, Patienten- oder Finance-Workflows. Festpreis kalkulierbar, Scope abgrenzbar, Output NIST-RMF-strukturiert und versicherbar.
Praxis-Schritt: Ein 30-Min-Gespräch klärt, ob Ihr AI-System unter EU-AI-Act-Hochrisiko fällt und welche der sechs Dimensionen die größte Audit-Priorität haben. Erstgespräch anfragen → /anfrage
Stand Mai 2026. Förderpfad-Beratung und Antragsbegleitung in Kooperation mit autorisierten Partner-Beratungen — eigene BAFA-/go-digital-Akkreditierung in Vorbereitung Q3 2026.
Nächster Schritt
Passt das auf Ihren Fall?
30-Min-Erstgespräch, kostenfrei und unverbindlich. Wir gehen Ihren konkreten Fall durch — und sagen ehrlich, wenn nichts passt.
