TL;DR
- Fünf SLA-Dimensionen 2026 sind die echte Verhandlungs-Substanz: Availability, Latency-P95, Quality-Drift, Cost-Predictability, Support-Response. Klassische IT-Verfügbarkeit deckt keine einzige AI-spezifische Risiko-Klasse ab.
- Custom-MSA ist Standard, nicht Luxus. Wer auf Provider-Default-AGB unterschreibt, kauft 30–50 % höhere Run-Cost-Volatilität und akzeptiert einen Liability-Cap von 1× MRR statt verhandelter 12–24× MRR.
- Quality-Drift-Klausel ist Pflicht. Ohne Pinning plus 90-Tage-Change-Notice wird der Customer zur Geisel von Provider-Modell-Updates — eine Änderung kann Prompts brechen, ohne dass der Provider Compensation schuldet.
Fünf SLA-Dimensionen 2026
AI-SLAs unterscheiden sich strukturell von klassischer Cloud-Infrastruktur. Fünf Dimensionen entscheiden Produktiv-Reife — jede mit eigenem Provider-Default, Verhandlungs-Fenster und Failure-Mode.

In DACH-Pilots zeigt sich: Wer mit IT-AGB in den AI-Vertrag geht, erlebt regelmäßig, dass ein Modell-Update Klassifikations-Prompts still verändert — kein SLA-Verstoß laut Provider, weil "Modell-Verbesserung". Quartale Roadmap sind dann schnell verloren.
Availability. Provider-Default liegt bei 99,5 % für Standard-Tarife — 3,6 Stunden Downtime/Monat. Verhandelbar auf 99,9 % bei höherem Volumen, mit Hyperscaler-Verträgen auch 99,99 %. Wichtiger als die Prozent-Zahl: Measurement-Window und Downtime-Definition. Provider rechnen Maintenance-Windows gern aus — eine Total-Availability-Klausel ist Pflicht.
Latency-P95. Time-to-First-Token (TTFT) ist ehrlicher als End-to-End. Anthropic und OpenAI liefern typisch 250–500 ms TTFT, Self-Host kann unter 100 ms erreichen. P95 ist die Vertrags-Schwelle, P99 die ehrliche — wer Real-Time-UX baut, verhandelt P99.
Quality-Drift. Die kritischste, am häufigsten übersehene Dimension. Der Provider darf Modell-Verhalten zwischen Pinned-Versionen nicht still ändern — Version-Pinning plus 90-Tage-Change-Notice ist Standard. Ohne Klausel kann ein Update die Prompt-Performance um 15–40 % verschieben, ohne dass Service-Credit fällig wird.
Cost-Predictability. Volumen-Staffeln mit Reserved-Capacity und maximal 3-Monats-Pricing-Change-Window sind bei mittleren Volumina verhandelbar; der Provider-Default von 30 Tagen ist für Forecasting unzureichend. Reserved-Capacity bringt 20–40 % Rabatt bei 12-Monats-Commitment.
Support-Response. Standard 24h, Premium 4h, Enterprise 1h mit benanntem CSM. Bei Production-Workloads mit Real-User-Impact rechnet sich Enterprise ab dem ersten Outage.
Service-Level-Tiers im Vergleich
Vier Tier-Klassen dominieren den Markt. Die Cost-Premium-Spanne ist nicht linear — der Sprung Standard→Premium ist günstiger als Premium→Enterprise.
| Tier | Availability | Latency-P95 (TTFT) | Support | Cost-Premium |
|---|---|---|---|---|
| Standard | 99,5 % | <800 ms | 24h Response | Baseline |
| Premium | 99,9 % | <500 ms | 4h Response | +25–40 % |
| Enterprise | 99,95 % | <300 ms | 1h + CSM | +80–150 % |
| Dedicated | 99,99 % | <150 ms | <30 Min + Slack | +200–400 % |
Die Frage ist nicht "wie viel teurer", sondern "wie viel kostet ein Outage in Stunden geschäftlicher Wirkung". Bei einem Production-Agent amortisiert sich Premium in Monaten — bei einem internen Doku-Tool reicht Standard.
Service-Credits + Liability-Cap
Service-Credits sind die Compensation bei SLA-Verstoß — typisch 5–25 % Monats-Rabatt nach Schwere. Der Liability-Cap regelt das Maximum-Risiko des Providers, und der Default 1× MRR ist strukturell unfair: selbst wenn ein Outage einen sechsstelligen Geschäfts-Schaden auslöst, ist der Ersatz auf eine Monatsgebühr gedeckelt.

| Klausel | Provider-Default | Ziel-Verhandlung |
|---|---|---|
| Service-Credit-Mechanik | 5 % bei >0,5h Downtime | Stufenmodell 5/10/25 % nach Downtime-Klasse |
| Service-Credit-Cap | 25 % Monats-Fee | 100 % bei Major-Outage (>4h) |
| Liability-Cap | 1× MRR | 12× MRR Standard, 24× Mission-Critical |
| Quality-Drift-Notice | nicht enthalten | Pinning + 90 Tage + Re-Tune-Budget |
| Auto-Renewal | 12 Monate, 60d Notice | 12 Monate, 30d Notice + Mid-Term-Reduction |
Anti-Patterns
- Keine Quality-Drift-Klausel. Die häufigste Falle — der Customer trägt 100 % der Re-Tuning-Last ohne Service-Credit. Bei regulierten Workflows (MedTech, Finance, Pharma) ein Compliance-Risiko, kein Cost-Thema.
- Service-Credits ohne Cap. Ein 25 %-Cap bedeutet: selbst bei Total-Outage über Tage maximal 25 % Rabatt. Verhandlung auf 100 %-Cap bei Major-Outage ist Standard.
- Liability 1× MRR akzeptiert. Ein Ausfall kann ein Vielfaches der Monatsgebühr an Schaden verursachen. 12× MRR Standard, 24× Mission-Critical — wer auf 1× unterschreibt, akzeptiert strukturelles Risiko-Misalignment.
Default-MSA-Template 2026
Verbindlich: Availability 99,9 %, Latency-P95 <500 ms TTFT, Quality-Drift mit Pinning + 90-Tage-Notice + Re-Tune-Budget, Cost-Predictability mit Reserved-Capacity + 3-Monats-Pricing-Window, Support 4h Premium oder 1h Enterprise mit CSM. Plus drei Risk-Klauseln: Service-Credit 5/10/25 % mit 100 %-Cap bei Major-Outage, Liability-Cap 12× MRR (24× Mission-Critical), jährlicher SLA-Audit plus monatliches Reporting.
Cadence-Disziplin: quartalsweise SLA-Review gegen Telemetry, halbjährliche Re-Verhandlung der Volumen-Staffel bei Wachstum über 25 %, jährliche Renewal mit voller Klausel-Review — so kompoundiert Verhandlungs-Macht über 24 Monate.
Praxis-Schritt: Ein AI Readiness Audit prüft Ihre AI-Provider-Verträge gegen die fünf SLA-Dimensionen plus drei Risk-Klauseln und liefert eine Verhandlungs-Roadmap für die nächste Renewal-Runde. Audit anfragen → /anfrage
Stand Mai 2026. AI-Procurement- und Vertrags-Beratung für DACH-Mittelstand mit Schwerpunkt MedTech, Maschinenbau und B2B-SaaS — eigene BAFA-/go-digital-Akkreditierung in Vorbereitung Q3 2026, Förder-Pfade aktuell in Kooperation mit akkreditierten Partner-Beratungen.
Nächster Schritt
Passt das auf Ihren Fall?
30-Min-Erstgespräch, kostenfrei und unverbindlich. Wir gehen Ihren konkreten Fall durch — und sagen ehrlich, wenn nichts passt.
