TL;DR
- Hardware-Tier 2026: sieben relevante On-Prem-Plattformen — NVIDIA H100/H200/B200/GB200, AMD MI300X, Groq LPU, Cerebras WSE-3. Einzelkarten im fünfstelligen Bereich, Rack-Scale-Systeme im Millionen-Bereich.
- Mittelstands-Sweet-Spot: ein 8×H100-Cluster für Llama-3.3-70B-FP16-Inferenz deckt 90 % der Frontier-Workloads im typischen Mittelstands-Segment ab, bei 7–10 kW Dauerlast.
- Break-Even: Cloud-OPEX vs. On-Prem-CAPEX kippt bei kontinuierlich hoher Auslastung nach ~19 Monaten. Danach ist On-Prem strukturell günstiger — und in KRITIS-Sektoren ohnehin Pflicht.
Hardware-Landschaft 2026
Die On-Prem-Hardware ist 2026 ausdifferenziert. Sieben Plattformen decken das Spektrum von Training über Frontier-Inferenz bis Edge-Latency ab. Reseller-Aufschläge in DACH liegen typisch bei +10–15 % über dem Listen-Direktbezug.
| Plattform | Speicher | TFLOPs FP16 | Preis-Tier | Use-Case |
|---|---|---|---|---|
| NVIDIA H100 SXM5 | 80 GB HBM3 | 990 | hoch fünfstellig | Standard Frontier-Inferenz + Training |
| NVIDIA H200 | 141 GB HBM3e | 990 | hoch fünfstellig | 70B-Modelle in FP16, weniger Karten |
| NVIDIA B200 | 192 GB HBM3e | 2.250 | hoch fünfstellig | Blackwell-Gen, 2,5× Throughput vs H100 |
| NVIDIA GB200 NVL72 | 13,5 TB Pool | 1,4 EFLOPs | Millionen-Bereich | Rack-Scale, 72 GPUs + 36 Grace-CPUs |
| AMD MI300X | 192 GB HBM3 | 1.300 | mittel fünfstellig | Preis-Leistung, ROCm 6.2 |
| Groq LPU | 230 MB SRAM | — | mittel fünfstellig | Inference-Only, <50 ms P95 |
| Cerebras WSE-3 | 44 GB SRAM | 125 (sparse) | Millionen-Bereich | Wafer-Scale, Training-spezialisiert |
NVIDIA dominiert 2026 mit rund 85 % Marktanteil bei AI-Training-GPUs. AMD MI300X bricht in den Preis-Leistungs-Kanal ein — rund 40 % günstiger bei vergleichbarem HBM-Volumen. Groq und Cerebras besetzen Spezial-Nischen, sind aber kein Ersatz für eine Allzweck-GPU-Flotte.
GPU-Anforderung pro Modell
Llama-3.3-70B ist 2026 der Mittelstands-Standard für selbst-gehostete Frontier-Qualität. Die Hardware-Anforderung hängt direkt an der Quantisierung.
| Modell + Quant | VRAM-Bedarf | Mindest-GPUs | Empfehlung Mittelstand |
|---|---|---|---|
| Llama-3.3-70B FP16 | ~140 GB | 2×H200 oder 4×H100 | Wenn Qualität nicht verhandelbar |
| Llama-3.3-70B Q8 | ~75 GB | 1×H200 oder 2×H100 | Sweet-Spot, 95 % FP16-Qualität |
| Llama-3.3-70B Q4 | ~40 GB | 1×H100 oder 1×MI300X | Edge / Low-Latency, ~85 % Qualität |
| Llama-3.3-405B FP16 | ~810 GB | 8×H200 oder GB200 NVL36 | Nur ab sehr großem Umsatz sinnvoll |
| Mistral-Large-2 FP16 | ~250 GB | 4×H100 + 1×H200 | EU-souveräne Alternative |
Die Quantisierungs-Wahl ist eine kommerzielle Entscheidung, keine technische. Q8 spart 50 % Hardware bei unter 5 % Qualitätsverlust auf Benchmarks. Wer Q4 fährt, baut Konsumenten-Chat. Wer FP16 fährt, hat ein Compliance- oder Audit-Argument.
Power + Cooling Reality
H100 zieht 700 W TDP unter Volllast — acht Karten plus CPUs, NICs und Storage ergeben 7–10 kW Dauerlast. Diese Zahl vergessen viele Mittelständler im CAPEX-Modell. Air-Cooling ist bis 8 GPUs pro 8U-Rack machbar; ab B200 (1.000 W TDP) ist Liquid-Cooling Pflicht und der Serverraum-Retrofit ein eigener Investitionsblock pro Rack (CDU, Manifold, Leak-Detection). Ein Standard-19"-Rack schafft thermisch 40–50 kW; GB200 NVL72 braucht 120 kW — 3× der RZ-Default. Wer GB200 fährt, baut faktisch ein neues RZ; für ein 8×H100-Cluster reicht ein bestehendes RZ mit ausreichend dimensioniertem Klima und USV.

CAPEX vs OPEX-Cloud
Die zentrale Mittelstands-Frage ist nicht "welche GPU", sondern "kaufen oder mieten". Die Antwort hängt am Auslastungs-Profil: Wer 80 %+ Auslastung über 24 Monate planen kann, gewinnt mit CAPEX. Wer unter 40 % schwankt, bleibt in der Cloud.

| Position | On-Prem 8×H100 | Cloud Bedrock Llama-3.3-70B |
|---|---|---|
| Hardware-CAPEX | einmalig hoch | — |
| Server-Raum-Retrofit | einmalig | — |
| Strom (8 kW × 24/7) | laufend, ~0,22/kWh | inklusive |
| Kühlung + Wartung | laufend gering | inklusive |
| Personal (0,3 FTE Ops) | laufend anteilig | — |
| Cloud-Inferenz | — | laufend hoch |
| Break-Even | Monat 19 | — |
Bei 80 %+ Auslastung kippt der TCO nach 19 Monaten zugunsten On-Prem. Die unterschätzte Variable ist nicht die Hardware — es ist Strom und Personal. Wer 0,3 FTE Ops nicht im Haus hat, kauft sich faktisch ein Outsourcing-Problem ein. Wichtig: GB200-Cluster brechen die Rechnung — bei Millionen-Einstiegspreis und 120 kW Last liegt der Break-Even erst bei Monat 34–40 und nur bei kontinuierlicher 90 %-Auslastung. Für den klassischen Mittelstand gilt: H100/H200, niemals GB200.
Pilot: KRITIS-Energieversorger, On-Prem-AI-Migration
KRITIS-Sektoren sind nach BSI-Kritisverordnung und BNetzA-Sicherheitskatalog (§ 11 Abs. 1a EnWG) verpflichtet, versorgungsrelevante Daten in souveräner Infrastruktur zu verarbeiten. AI-Workloads in US-Cloud fallen in den Top-Workload-Kategorien regulatorisch durch. Pilot Q1 2026, deutscher Regionalversorger, Migration von Azure OpenAI auf On-Prem-H100:
| Kennzahl | Cloud Azure OpenAI | On-Prem 8×H100 |
|---|---|---|
| Setup-Zeit | 6 Wochen | 14 Wochen (inkl. RZ-Retrofit) |
| Latency P95 | 1.200 ms | 380 ms |
| BSI-C5 Type 2 konform | Teilweise | Voll |
| BNetzA § 11 1a EnWG | Nein (US-Sub-Processor) | Ja |
| Audit-Right vor Ort | Q&A only | Voll |
Break-Even Monat 21. Nach 36 Monaten ein klarer TCO-Vorteil zugunsten On-Prem — plus regulatorische Compliance, die in der Cloud nicht erreichbar war. Der Pilot läuft seit Februar 2026 produktiv mit zwei Modellen (Llama-3.3-70B Q8 + Mistral-Large-2 FP16).
Wann Cloud bleibt
On-Prem ist nicht universell richtig. Vier Szenarien sprechen für Cloud: variable Last unter 40 % Durchschnitts-Auslastung (CAPEX verbrennt, Pay-per-Token skaliert nach unten); Inferenz-Spikes mit 10× Peak vs. Median, wo hybrid richtig ist — On-Prem-Baseline plus Cloud-Burst; kein Rack-Space, wenn der RZ-Retrofit das kleine Jahres-AI-Budget übersteigt; und kein OPEX-Budget für Ops, da ein H100-Cluster mindestens 0,3 FTE Senior-Ops für Patching, Monitoring und Incident-Response braucht.
Einordnung für den CFO-Tisch
Die On-Prem-Frage 2026 ist keine technische, sondern eine bilanzielle und regulatorische. CAPEX vs. OPEX, Auslastungs-Profil und KRITIS-Status bestimmen die Antwort, nicht die GPU-Auswahl: Kleinerer Mittelstand ohne KRITIS-Pflicht bleibt in der Cloud (Bedrock, Azure OpenAI EU); mittlerer Umsatz mit hoher Auslastung fährt hybrid (8×H100-Baseline, Cloud-Burst); großer Umsatz oder KRITIS geht On-Prem-First mit H200 oder B200 — GB200 nur in der allerobersten Größenklasse.
Praxis-Schritt: Ein kurzes Hardware-Audit klärt, ob Ihr aktuelles Auslastungs-Profil On-Prem trägt, welche Karten zu Ihrem Modell-Mix passen und was der RZ-Retrofit kosten würde. Erstgespräch anfragen → /anfrage
Stand Mai 2026. KRITIS-/BNetzA-Compliance in Zusammenarbeit mit zertifizierten IT-Sicherheitsberatern — eigene BSI-Akkreditierung in Vorbereitung Q4 2026.
Nächster Schritt
Passt das auf Ihren Fall?
30-Min-Erstgespräch, kostenfrei und unverbindlich. Wir gehen Ihren konkreten Fall durch — und sagen ehrlich, wenn nichts passt.
