TL;DR
- Vier A/B-Setup-Pattern dominieren 2026 — Random-50/50 für Hochvolumen, Multi-Armed-Bandit für Niedrig-Volumen, Shadow-Testing für High-Stakes, Geo/Tenant-Split für regionale Last.
- Statistik-Power ist die Mittelstand-Realität — 5 % relative Lift braucht ~3.000 Requests pro Arm bei α=0.05/β=0.20. Wer unter 1.000 Requests/Tag fährt, rechnet in Wochen, nicht Tagen.
- Anti-Patterns kosten am meisten — Tests unter 7 Tagen, Mehrfach-Tests ohne Bonferroni-Korrektur und fehlende Stop-Kriterien führen zu falschen Promotion-Entscheidungen.
Vier A/B-Setup-Pattern
A/B-Testing für AI-Production ist 2026 die Discipline, mit der Modell- oder Prompt-Updates gegen den Champion validiert werden. Pilot-Theater endet hier — Production-Promotion verlangt statistische Evidenz. Welches Pattern passt, entscheidet sich an Request-Volumen, Risiko-Profil und Mehrarmigkeit der Optionen.

| Pattern | Wann einsetzen | Vorteil | Limitation |
|---|---|---|---|
| Random-Split 50/50 | Hochvolumen (>10k/Tag) | Einfach, statistisch sauber | Verbrennt Traffic auf Verlierer |
| Multi-Armed-Bandit (Thompson) | Niedrig-Volumen (<1k/Tag) | Adaptive Allokation | Schwächere Endgültigkeits-Aussage |
| Shadow-Testing | High-Stakes (Compliance, Finanzen, Medizin) | Null Risiko für User | Doppelte Inference-Last |
| Geo/Tenant-Split | Regional unterschiedliche Last | Saubere Confounder-Kontrolle | Erfordert Tenant-Stratifikation |
Random-Split 50/50 ist der Default bei über 10.000 Requests/Tag: statistisch sauber, leichte Auswertung, Standard-Toolchain (Statsig, GrowthBook, LaunchDarkly oder eigene Postgres+Python-Lösung). Nachteil: die Hälfte des Traffics läuft potenziell auf dem schlechteren Arm — bei kritischen Use-Cases nicht tragbar.
Multi-Armed-Bandit mit Thompson-Sampling allokiert adaptiv mehr Traffic auf den führenden Arm und liefert bei niedrigem Volumen schneller Signal. Der Preis: schwächere Endgültigkeits-Aussagen — Bandit ist Optimierungs-, nicht Validierungs-Werkzeug.
Shadow-Testing berechnet den Challenger parallel, ohne ihn auszuspielen — nur Logging. Pflicht für Compliance-, Finanz- und Medizin-Use-Cases, in denen kein User der falschen Antwort ausgesetzt werden darf. Kostet doppelte Inference auf dem Testing-Traffic, meist akzeptabel für 1–2 Wochen Pre-Production.
Geo/Tenant-Split splittet auf Tenant- oder Geo-Ebene (DACH-DE vs DACH-AT, Mandant A vs B), wenn Champion und Challenger regional unterschiedlich performen sollen. Saubere Confounder-Kontrolle, aber Tenant-Split mit zu kleinen Tenants liefert zufallsgetriebene Ergebnisse.
Statistik-Power-Realität für Mittelstand
Statistik-Power ist 2026 der harte Bottleneck. Eine 5 %-Lift mit α=0.05 und β=0.20 benötigt rund 3.000 Requests pro Arm. Bei Hochvolumen-SaaS ist das ein Vormittag — im Mittelstand sind das Wochen.

| Request-Volumen/Tag | 5 % Lift | 10 % Lift | 20 % Lift |
|---|---|---|---|
| 100 (50/50-Split) | 60+ Tage | 15 Tage | 4 Tage |
| 500 | 12 Tage | 3 Tage | 1 Tag |
| 1.000 | 6 Tage | 1,5 Tage | <1 Tag |
| 5.000 | 1,2 Tage | <1 Tag | <1 Tag |
| 20.000 | <1 Tag | <1 Tag | <1 Tag |
In DACH-Pilots zeigt sich: Faktor 60 Zeit-Spread zwischen 100 und 20.000 Requests/Tag. Wer unter 1.000 Requests/Tag fährt, muss in Wochen denken — nicht Tagen.
Mittelstands-Use-Cases mit 500–1.000 Requests/Tag brauchen 6–12 Tage für 5 %-Lift-Signifikanz. Wer nach 3 Tagen "fertig" sagt, akzeptiert systematisch Falsch-Positive. Praktische Konsequenz bei Niedrig-Volumen: größere Lifts ansteuern (10–20 %), Bandit statt Random-Split, oder Eval-Set-Pre-Production-Gates stärker gewichten.
Quality-Metriken im A/B
Vier Metrik-Klassen sind nicht-verhandelbar.
| Klasse | Granularität | Tooling 2026 |
|---|---|---|
| Eval-Set-Score (Pre-Prod) | Pro Modell-Version | Braintrust, Langfuse, Phoenix, eigene Pytest-Suite |
| User-Implicit-Feedback | Pro Request | Thumb-Up/Down, Edit-Distance, Continuation-Rate |
| Business-KPI | Pro Funnel-Step | Conversion, Abandon-Rate, Time-to-Resolution |
| Cost + Latenz (Guardrail) | Pro Request, P50/P95 | OpenTelemetry, Langfuse, Helicone |
Der Eval-Set-Score läuft vor jedem Rollout: liegt der Challenger unter dem Champion, geht er gar nicht erst in den A/B-Test. User-Implicit-Feedback ist der wichtigste Proxy für reale Qualität — Edit-Distance bei Drafts und Continuation-Rate liefern kontinuierliche Signale. Business-KPI ist das Endkriterium, läuft wegen langer Signifikanz-Wartezeit aber meist als sekundärer Tracker. Cost und Latenz sind Guardrails: der Challenger darf nicht zu Lasten von Cost (>+30 %) oder P95-Latenz (>+200 ms) gehen, sonst wird trotz Quality-Lift nicht promotet.
Pilot: eCommerce-Produkttext-Generator über 4 Quartale
Ein DACH-eCommerce-Mittelständler mit rund 45.000 Produktbeschreibungs-Generierungen pro Quartal baute eine systematische Champion-Challenger-Pipeline für seinen Produkttext-Generator — vier Quartale, vier Challenger, A/B auf Conversion plus Eval-Score plus Cost-Guardrail.

| Quartal | Challenger | Lift Conversion | Lift Eval | Cost-Delta | Promoted? |
|---|---|---|---|---|---|
| Q3 | Sonnet-4.5 → 4.6 | +3,2 % (signif.) | +4,8 % | −12 % | Ja |
| Q4 | Sonnet-4.6 → Opus-4.7 | +2,1 % (n.s.) | +6,1 % | +210 % | Nein (Cost) |
| Q1 | Sonnet-4.6 → GPT-5-mini | +0,4 % (n.s.) | −1,2 % | −38 % | Nein (Eval-Drop) |
| Q2 | Sonnet-4.6 → 4.7 | +4,7 % (signif.) | +5,4 % | −8 % | Ja |
Zwei von vier Challengern wurden promotet — Quote 50 % ist 2026 Branchenmittel für saubere Setups. Der Cost-Guardrail blockierte Opus trotz Eval-Lift, weil der Conversion-Lift nicht signifikant und +210 % Cost nicht refinanzierbar war. Der GPT-5-mini-Eval-Drop zeigte sich vor Production — das Pre-Production-Gate sparte einen 14-Tage-Test mit erwartbar negativem Ergebnis. Insgesamt fängt das Eval-Gate typisch 20–40 % der Challenger ab, der Cost-Guardrail weitere 15–25 %.
Anti-Patterns
- Kurz-Test unter 7 Tagen: fängt keinen Wochen-Zyklus auf — Montag-Traffic ist nicht Donnerstag-Traffic, B2B-Use-Cases sind am Wochenende leer. Fix: mindestens 7 volle Kalendertage, besser 14; Niedrig-Volumen 21–28 Tage.
- Multi-Test ohne Bonferroni: wer 5 Metriken parallel auf Signifikanz testet, hat bei α=0.05 rund 23 % kumulative False-Positive-Wahrscheinlichkeit. Fix: Bonferroni-Korrektur oder eine vorab definierte Primär-Metrik; Pre-Registration vor Test-Start.
- Kein vorab definiertes Stop-Kriterium: "laufen, bis es signifikant ist" ist das klassische Peeking-Anti-Pattern mit inflationierten Falsch-Positiven. Fix: festes Sample-Size-Ziel oder Zeitfenster vor Start fixieren; Sequential-Testing (mSPRT, Always-Valid-Inference) als saubere Alternative.
Default-Discipline 2026
Vier Stufen, keine verzichtbar:
- Pre-Production-Eval-Gate — Challenger schlägt den Champion auf einem kuratierten Eval-Set (50–500 Beispiele), bevor er Production-Traffic sieht.
- Shadow-Test 1 Woche — parallel berechnet, nicht ausgespielt; Cost, Latenz und Output-Distribution vs Champion validiert.
- 50/50-Split 2–4 Wochen — Primär-Metrik und Stop-Kriterium vorab fixiert, Power-Analyse gerechnet.
- Stop-Kriterium + Promotion-Regel — Primär-Metrik signifikant und Guardrails im Rahmen: promoten. Sonst Lessons-Learned dokumentieren.
Faustregel: pro Quartal nicht mehr als 2–3 Challenger pro Use-Case, sonst überlappen Tests und Confounder bleiben unkontrolliert.
Praxis-Schritt: Ein 90-Min-Discipline-Audit prüft Setup-Pattern, Power-Realität und Anti-Pattern-Exposure für Ihre AI-Production-Pipeline. Erstgespräch anfragen → /anfrage
Stand Mai 2026. A/B-Testing-Setups und Statistik-Power-Modellierung in Kooperation mit Eval-/Observability-Partnern (Braintrust, Langfuse, Phoenix) — eigene BAFA-/go-digital-Akkreditierung in Vorbereitung Q3 2026.
Nächster Schritt
Passt das auf Ihren Fall?
30-Min-Erstgespräch, kostenfrei und unverbindlich. Wir gehen Ihren konkreten Fall durch — und sagen ehrlich, wenn nichts passt.
