AI-SLAs: was verhandelbar ist

TL;DR

Fünf SLA-Dimensionen 2026 sind die echte Verhandlungs-Substanz: Availability, Latency-P95, Quality-Drift, Cost-Predictability, Support-Response. Klassische IT-Verfügbarkeit deckt keine einzige AI-spezifische Risiko-Klasse ab.
Custom-MSA ist Standard, nicht Luxus. Wer auf Provider-Default-AGB unterschreibt, kauft 30–50 % höhere Run-Cost-Volatilität und akzeptiert einen Liability-Cap von 1× MRR statt verhandelter 12–24× MRR.
Quality-Drift-Klausel ist Pflicht. Ohne Pinning plus 90-Tage-Change-Notice wird der Customer zur Geisel von Provider-Modell-Updates — eine Änderung kann Prompts brechen, ohne dass der Provider Compensation schuldet.

Fünf SLA-Dimensionen 2026

AI-SLAs unterscheiden sich strukturell von klassischer Cloud-Infrastruktur. Fünf Dimensionen entscheiden Produktiv-Reife — jede mit eigenem Provider-Default, Verhandlungs-Fenster und Failure-Mode.

Exhibit Service-Level-Tiers im Vergleich 2026 AI-Provider DACH-Mittelstand Standard 99 Komma 5 Prozent Availability unter 800 Millisekunden Latency 24 Stunden Support Baseline Cost Premium 99 Komma 9 Prozent unter 500 Millisekunden 4 Stunden Support plus 25 bis 40 Prozent Cost-Premium Enterprise 99 Komma 95 Prozent unter 300 Millisekunden 1 Stunde plus Customer-Success-Manager plus 80 bis 150 Prozent Dedicated 99 Komma 99 Prozent unter 150 Millisekunden unter 30 Minuten plus Slack-Channel plus 200 bis 400 Prozent Cost-Premium-Spanne nicht linear Sprung Standard auf Premium guenstiger als Premium auf Enterprise — Exhibit 2: Service-Level-Tiers 2026 — Standard, Premium, Enterprise, Dedicated. Cost-Premium ist nicht linear; Sprung Standard → Premium ist günstiger als Premium → Enterprise.

In DACH-Pilots zeigt sich: Wer mit IT-AGB in den AI-Vertrag geht, erlebt regelmäßig, dass ein Modell-Update Klassifikations-Prompts still verändert — kein SLA-Verstoß laut Provider, weil "Modell-Verbesserung". Quartale Roadmap sind dann schnell verloren.

Availability. Provider-Default liegt bei 99,5 % für Standard-Tarife — 3,6 Stunden Downtime/Monat. Verhandelbar auf 99,9 % bei höherem Volumen, mit Hyperscaler-Verträgen auch 99,99 %. Wichtiger als die Prozent-Zahl: Measurement-Window und Downtime-Definition. Provider rechnen Maintenance-Windows gern aus — eine Total-Availability-Klausel ist Pflicht.

Latency-P95. Time-to-First-Token (TTFT) ist ehrlicher als End-to-End. Anthropic und OpenAI liefern typisch 250–500 ms TTFT, Self-Host kann unter 100 ms erreichen. P95 ist die Vertrags-Schwelle, P99 die ehrliche — wer Real-Time-UX baut, verhandelt P99.

Quality-Drift. Die kritischste, am häufigsten übersehene Dimension. Der Provider darf Modell-Verhalten zwischen Pinned-Versionen nicht still ändern — Version-Pinning plus 90-Tage-Change-Notice ist Standard. Ohne Klausel kann ein Update die Prompt-Performance um 15–40 % verschieben, ohne dass Service-Credit fällig wird.

Cost-Predictability. Volumen-Staffeln mit Reserved-Capacity und maximal 3-Monats-Pricing-Change-Window sind bei mittleren Volumina verhandelbar; der Provider-Default von 30 Tagen ist für Forecasting unzureichend. Reserved-Capacity bringt 20–40 % Rabatt bei 12-Monats-Commitment.

Support-Response. Standard 24h, Premium 4h, Enterprise 1h mit benanntem CSM. Bei Production-Workloads mit Real-User-Impact rechnet sich Enterprise ab dem ersten Outage.

Service-Level-Tiers im Vergleich

Vier Tier-Klassen dominieren den Markt. Die Cost-Premium-Spanne ist nicht linear — der Sprung Standard→Premium ist günstiger als Premium→Enterprise.

Tier	Availability	Latency-P95 (TTFT)	Support	Cost-Premium
Standard	99,5 %	<800 ms	24h Response	Baseline
Premium	99,9 %	<500 ms	4h Response	+25–40 %
Enterprise	99,95 %	<300 ms	1h + CSM	+80–150 %
Dedicated	99,99 %	<150 ms	<30 Min + Slack	+200–400 %

Die Frage ist nicht "wie viel teurer", sondern "wie viel kostet ein Outage in Stunden geschäftlicher Wirkung". Bei einem Production-Agent amortisiert sich Premium in Monaten — bei einem internen Doku-Tool reicht Standard.

Service-Credits + Liability-Cap

Service-Credits sind die Compensation bei SLA-Verstoß — typisch 5–25 % Monats-Rabatt nach Schwere. Der Liability-Cap regelt das Maximum-Risiko des Providers, und der Default 1× MRR ist strukturell unfair: selbst wenn ein Outage einen sechsstelligen Geschäfts-Schaden auslöst, ist der Ersatz auf eine Monatsgebühr gedeckelt.

Pilot-Cockpit 100 Millionen Euro sueddeutscher MedTech-Mittelstaendler 420 Mitarbeitende Hyperscaler-AI-SLA-Verhandlung ueber 6 Monate Volumen 180k Euro pro Jahr regulatorische Dokumentations-Generation IEC 62304 plus MDR Anhang II Availability vor 99 Komma 5 Prozent nach 99 Komma 9 Prozent vier mal weniger Downtime-Risiko von 10 Stunden pro Monat auf 2 Stunden Latency-P95 vor unter 800 Millisekunden TTFT nach unter 400 Millisekunden UX-Akzeptanz plus 28 Punkte intern Quality-Drift-Klausel vor nicht enthalten nach Pinning plus 90 Tage Notice plus 25k Euro Re-Tune-Budget Service-Credit-Cap vor 25 Prozent Monats-Fee nach 100 Prozent Monats-Fee Liability-Cap vor 1 mal MRR 15k Euro nach 12 mal MRR 180k Euro Cost-Lock vor 30 Tage Notice nach 12 Monate Lock plus 3 Monate Notice Verhandlungs-Cost 38k Euro Legal plus Architektur ueber 6 Monate Amortisation im ersten produktiven Quartal — Exhibit 3: 6-Monats-Verhandlung MedTech mit Hyperscaler-AI — Availability 99,5 % → 99,9 %, Liability-Cap 1× → 12× MRR, Quality-Drift-Klausel von 'nicht enthalten' auf Pinning + 90d Notice. Verhandlungs-Cost, Amortisation im ersten Quartal.

Klausel	Provider-Default	Ziel-Verhandlung
Service-Credit-Mechanik	5 % bei >0,5h Downtime	Stufenmodell 5/10/25 % nach Downtime-Klasse
Service-Credit-Cap	25 % Monats-Fee	100 % bei Major-Outage (>4h)
Liability-Cap	1× MRR	12× MRR Standard, 24× Mission-Critical
Quality-Drift-Notice	nicht enthalten	Pinning + 90 Tage + Re-Tune-Budget
Auto-Renewal	12 Monate, 60d Notice	12 Monate, 30d Notice + Mid-Term-Reduction

Anti-Patterns

Keine Quality-Drift-Klausel. Die häufigste Falle — der Customer trägt 100 % der Re-Tuning-Last ohne Service-Credit. Bei regulierten Workflows (MedTech, Finance, Pharma) ein Compliance-Risiko, kein Cost-Thema.
Service-Credits ohne Cap. Ein 25 %-Cap bedeutet: selbst bei Total-Outage über Tage maximal 25 % Rabatt. Verhandlung auf 100 %-Cap bei Major-Outage ist Standard.
Liability 1× MRR akzeptiert. Ein Ausfall kann ein Vielfaches der Monatsgebühr an Schaden verursachen. 12× MRR Standard, 24× Mission-Critical — wer auf 1× unterschreibt, akzeptiert strukturelles Risiko-Misalignment.

Default-MSA-Template 2026

Verbindlich: Availability 99,9 %, Latency-P95 <500 ms TTFT, Quality-Drift mit Pinning + 90-Tage-Notice + Re-Tune-Budget, Cost-Predictability mit Reserved-Capacity + 3-Monats-Pricing-Window, Support 4h Premium oder 1h Enterprise mit CSM. Plus drei Risk-Klauseln: Service-Credit 5/10/25 % mit 100 %-Cap bei Major-Outage, Liability-Cap 12× MRR (24× Mission-Critical), jährlicher SLA-Audit plus monatliches Reporting.

Cadence-Disziplin: quartalsweise SLA-Review gegen Telemetry, halbjährliche Re-Verhandlung der Volumen-Staffel bei Wachstum über 25 %, jährliche Renewal mit voller Klausel-Review — so kompoundiert Verhandlungs-Macht über 24 Monate.

Praxis-Schritt: Ein AI Readiness Audit prüft Ihre AI-Provider-Verträge gegen die fünf SLA-Dimensionen plus drei Risk-Klauseln und liefert eine Verhandlungs-Roadmap für die nächste Renewal-Runde. Audit anfragen → /anfrage

Stand Mai 2026. AI-Procurement- und Vertrags-Beratung für DACH-Mittelstand mit Schwerpunkt MedTech, Maschinenbau und B2B-SaaS — eigene BAFA-/go-digital-Akkreditierung in Vorbereitung Q3 2026, Förder-Pfade aktuell in Kooperation mit akkreditierten Partner-Beratungen.

Azena Editorial· AI-Procurement

Nächster Schritt

Passt das auf Ihren Fall?

30-Min-Erstgespräch, kostenfrei und unverbindlich. Wir gehen Ihren konkreten Fall durch — und sagen ehrlich, wenn nichts passt.

Erstgespräch buchen

Teilen LinkedIn Per E-Mail