AI-Testing: Evals statt Unit-Tests

TL;DR

Fünf AI-Test-Methoden 2026 ersetzen das klassische Unit-Test-Paradigma: Eval-Driven-Development, Property-Based-Testing, Mutation-Testing für Prompts, Adversarial-Testing, Regression-Testing für Modell-Updates. Wer eine weglässt, baut Production-AI mit blinden Flecken.
Das Eval-Set ist die Test-Suite-of-Truth. Pure Unit-Tests greifen bei AI nicht — Non-Determinismus macht Equality-Asserts wertlos. Jede Code-Änderung läuft gegen 100–300 Golden-Beispiele, jede Quality-Regression ist sofort sichtbar.
15–25 % des AI-Build-Aufwands gehen 2026 in Testing — der Mittelstand unterschätzt diese Position systematisch, vergleichbar mit Data-Cleansing in klassischen Data-Projekten.

Fünf AI-Test-Methoden 2026

AI-Testing ist kein "schreib mal ein paar Asserts", sondern ein eigenes Test-Genre. Klassisches Unit-Testing greift nicht: LLM-Output ist non-deterministisch, Equality-Asserts produzieren Falsch-Alarme oder werden so lax, dass sie nichts fangen. In DACH-Pilots regelmäßig zu sehen: 400 grüne Unit-Tests, und Production halluziniert trotzdem — erst das Eval-Set macht Quality-Drift sichtbar.

Eval-Driven-Development (EDD): Das Eval-Set ist die Test-Suite — 100–300 reale Golden-Beispiele mit Expected-Output, jede Änderung läuft automatisch dagegen. Precision/Recall pro Use-Case-Klasse ersetzen den Pass/Fail-Boolean. Cadence: Pre-Commit gegen 20–50er-Subset, Pre-Merge gegen Full-Set, nightly gegen erweiterten Stress-Slice.
Property-Based-Testing: Statt Einzel-Cases werden System-Properties spezifiziert und tausende Edge-Cases generiert (Hypothesis für Python, fast-check für TypeScript). Beispiel: "Für jeden Vision-Input von 224×224 bis 4096×4096 darf der Klassifikator nicht crashen und muss eine Confidence zwischen 0,0 und 1,0 liefern." Deckt Vision-Inputs, Tool-Use-Edge-Cases und Multi-Turn-State-Transitions ab.
Mutation-Testing für Prompts: Der Prompt wird systematisch variiert (Synonyme, Umformulierungen, Reihenfolge); die Quality-Regression auf dem Eval-Set zeigt die Sensitivität. Ein robuster Prompt hält Quality über 50+ Mutations, ein fragiler fällt bei kleinster Umformulierung von Precision 0,85 auf 0,52. Die einzige Methode, die Prompt-Qualität messbar macht.
Adversarial-Testing: Prompt-Injection, Jailbreaks und Data-Exfiltration-Probes als kuratierte Suite (80–200 Attack-Cases nach OWASP-LLM-Top-10), monatlich gegen Production. Attack-Success-Rate über 5 % = Hard-Stop für den nächsten Release.
Regression-Testing für Modell-Updates: Provider rollen Updates ohne Vorwarnung aus — alle großen Anbieter hatten 2025/2026 mindestens einen Silent-Update-Vorfall mit Quality-Shift. Alle Eval-Sets laufen automatisch bei jedem Provider-Update; der Diff-Report zeigt das Quality-Delta pro Klasse, die Re-Tune-Entscheidung wird datenbasiert.

Tooling-Stack

Methode	Tool-Option	License	Best-For
Eval-Driven-Development	Promptfoo	MIT	Multi-Provider-Evals, CI/CD, YAML-Config
Eval-Driven-Development	Inspect-AI	MIT	Forschungs-grade Evals, Multi-Turn, Tool-Use
Property-Based-Testing	Hypothesis	MPL 2.0	Python, mature Generator-Library
Property-Based-Testing	fast-check	MIT	TypeScript, Vitest/Jest-Integration
Mutation-Testing Prompts	Promptfoo + custom	MIT	Eigene Mutator-Strategien
Adversarial-Testing	Garak (NVIDIA)	Apache 2.0	LLM-Vulnerability-Scanner, OWASP-LLM-Top-10

Default-Empfehlung für DACH-Mittelstand: Promptfoo + Hypothesis + Inspect-AI — komplett Open Source, keine Lock-In-Risiken, CI/CD-tauglich. Adversarial-Suite via Garak einmal pro Quartal.

CI/CD-Integration

AI-Tests gehören in die Pipeline, nicht als manueller Pre-Release-Check. Drei Stufen trennen seriöse AI-Teams von Pilot-Setups.

Pilot-Cockpit 60 Millionen Euro sueddeutsche Privatbank 280 Mitarbeitende AI-Testing-Stack ueber 5 Monate LLM-Assistent fuer Kreditanalyse KYC Risiko-Scoring Vertragsdokumente BaFin-Audit angekuendigt kein produktives Testing-Setup zum Start Monat 1 Baseline plus EDD-Setup 187 Golden-Beispiele aus Bestands-Cases kuratiert Promptfoo-Integration in GitHub Actions erste Baseline-Precision 0 Komma 73 Monat 2 Property-Based-Tests Hypothesis-Suite fuer Vertragsdokument-Parser 23 Crash-Cases gefunden OCR-Artefakte leere Felder Datums-Formate Precision-Klasse Vertragsdaten-Extraktion 0 Komma 71 auf 0 Komma 84 Monat 3 Mutation-Testing Prompts 14 von 22 Prompts als fragil identifiziert Quality-Drop ueber 15 Prozent bei Synonym-Mutations Re-Engineering Robustness-Score 0 Komma 52 auf 0 Komma 81 Monat 4 Adversarial-Suite Garak-Run 3 erfolgreiche Prompt-Injection-Vektoren gefunden Customer-Note-Field PDF-Metadata OCR-Output Mitigations eingebaut Attack-Success-Rate 9 Prozent auf 2 Prozent Monat 5 Regression bei Provider-Update Anthropic Claude 3 Punkt 7 auf 3 Punkt 8 Eval-Drift erkannt in Klasse Risiko-Scoring Re-Tune in 4 Tagen Gesamtaufwand 42 Personentage 18 Prozent des AI-Build-Budgets BaFin-Audit bestanden — Exhibit 3: 5-Monats-Pilot Privatbank — 187 Golden-Beispiele kuratiert, 23 Crash-Cases gefunden, 3 Prompt-Injection-Vektoren geschlossen, Attack-Success-Rate 9 % → 2 %, BaFin-Audit bestanden. 42 Personentage = 18 % des AI-Build-Budgets.

Pre-Commit-Eval-Subset: 20–50er-Subset lokal, Laufzeit unter 90 Sekunden. Fängt 60–70 % aller Quality-Regressionen, bevor sie im Branch landen (Husky-Hook oder pre-commit-Framework).
Pre-Merge-Eval-Full: Full-Eval-Set (200–300 Beispiele) im CI, Laufzeit 5–15 Minuten. Fängt die übrigen 25–35 %. Merge wird blockiert, wenn Precision pro Klasse um mehr als 3 % gegen main fällt.
Pre-Release-Adversarial: Komplette Adversarial-Suite (80–200 Attack-Cases), Laufzeit 30–60 Minuten. Attack-Success-Rate über 5 % = Hard-Stop. Letzte Verteidigungslinie vor Customer-Traffic.

In einem regulierten Pilot (Bank, LLM-Assistent für Kreditanalyse unter BaFin-Audit) deckte die Property-Based-Suite über 20 Crash-Cases im Vertragsdokument-Parser auf, Mutation-Testing entlarvte 14 von 22 Prompts als fragil, der Adversarial-Run fand drei Prompt-Injection-Vektoren. Beim folgenden Provider-Update wurde Eval-Drift in "Risiko-Scoring" sofort erkannt und in wenigen Tagen re-getuned. Aufwand: rund 18 % des Build-Budgets, Audit bestanden.

Anti-Patterns

Pure-Unit-Tests: AI mit klassischen assertEquals zu testen scheitert am Non-Determinismus — Tests grün, Production halluziniert. Der gefährlichste Anti-Pattern, weil er Sicherheit vortäuscht. Fix: Eval-Set als Test-Suite-of-Truth, Unit-Tests nur für deterministischen Code drumherum (Parser, Validators, API-Adapter).
Eval-Set ohne Versionierung: Als Excel-Datei gepflegt statt in Git — niemand weiß, welche Version gegen welchen Release lief, Reproducibility unmöglich. Fix: Eval-Set ist Code, gehört in Git, semantische Versionierung, Changelog pro Release, Diff-Report bei jedem Update.
Adversarial-Tests nur einmal: Zum Launch gefahren, dann nie wieder — neue Attack-Patterns entstehen wöchentlich, die statische Suite ist nach drei Monaten veraltet. Fix: monatlicher Adversarial-Run, Patterns aus OWASP-LLM-Top-10-Updates, Threat-Intelligence-Subscription.

Default-Stack 2026

Eval-Driven-Development: Promptfoo (YAML, GitHub-Actions, Multi-Provider)
Property-Based-Testing: Hypothesis (Python) + fast-check (TS)
Mutation-Testing Prompts: Promptfoo mit custom Mutator-Strategien
Adversarial-Testing: Garak — monatlich gegen Production
Regression bei Provider-Update: Promptfoo + Cron, auto-getriggert bei Modell-Version-Change
Budget-Disziplin: 15–25 % des AI-Build-Aufwands für Testing reservieren, sonst läuft Quality-Drift unsichtbar

Aktualisierungs-Cadence: Eval-Set quartalsweise erweitern, Adversarial-Suite monatlich gegen OWASP-LLM-Updates abgleichen, Property-Tests bei jedem neuen Use-Case erweitern.

Praxis-Schritt: Ein AI Readiness Audit klärt, welche Test-Methoden für Ihre Use-Cases priorisiert gehören und wie das Testing-Budget realistisch in die Build-Roadmap eingeplant wird. Audit anfragen → /anfrage

Stand Mai 2026. AI-Testing- und Quality-Assurance-Beratung für DACH-Mittelstand — eigene BAFA-/go-digital-Akkreditierung in Vorbereitung Q3 2026, Förder-Pfade aktuell in Kooperation mit akkreditierten Partner-Beratungen.

Baybora Gülec· Gründer, Azena

Nächster Schritt

Passt das auf Ihren Fall?

30-Min-Erstgespräch, kostenfrei und unverbindlich. Wir gehen Ihren konkreten Fall durch — und sagen ehrlich, wenn nichts passt.

Erstgespräch buchen

Teilen LinkedIn Per E-Mail