On-Prem AI-Hardware: CAPEX vs OPEX

TL;DR

Hardware-Tier 2026: sieben relevante On-Prem-Plattformen — NVIDIA H100/H200/B200/GB200, AMD MI300X, Groq LPU, Cerebras WSE-3. Einzelkarten im fünfstelligen Bereich, Rack-Scale-Systeme im Millionen-Bereich.
Mittelstands-Sweet-Spot: ein 8×H100-Cluster für Llama-3.3-70B-FP16-Inferenz deckt 90 % der Frontier-Workloads im typischen Mittelstands-Segment ab, bei 7–10 kW Dauerlast.
Break-Even: Cloud-OPEX vs. On-Prem-CAPEX kippt bei kontinuierlich hoher Auslastung nach ~19 Monaten. Danach ist On-Prem strukturell günstiger — und in KRITIS-Sektoren ohnehin Pflicht.

Hardware-Landschaft 2026

Die On-Prem-Hardware ist 2026 ausdifferenziert. Sieben Plattformen decken das Spektrum von Training über Frontier-Inferenz bis Edge-Latency ab. Reseller-Aufschläge in DACH liegen typisch bei +10–15 % über dem Listen-Direktbezug.

Plattform	Speicher	TFLOPs FP16	Preis-Tier	Use-Case
NVIDIA H100 SXM5	80 GB HBM3	990	hoch fünfstellig	Standard Frontier-Inferenz + Training
NVIDIA H200	141 GB HBM3e	990	hoch fünfstellig	70B-Modelle in FP16, weniger Karten
NVIDIA B200	192 GB HBM3e	2.250	hoch fünfstellig	Blackwell-Gen, 2,5× Throughput vs H100
NVIDIA GB200 NVL72	13,5 TB Pool	1,4 EFLOPs	Millionen-Bereich	Rack-Scale, 72 GPUs + 36 Grace-CPUs
AMD MI300X	192 GB HBM3	1.300	mittel fünfstellig	Preis-Leistung, ROCm 6.2
Groq LPU	230 MB SRAM	—	mittel fünfstellig	Inference-Only, <50 ms P95
Cerebras WSE-3	44 GB SRAM	125 (sparse)	Millionen-Bereich	Wafer-Scale, Training-spezialisiert

NVIDIA dominiert 2026 mit rund 85 % Marktanteil bei AI-Training-GPUs. AMD MI300X bricht in den Preis-Leistungs-Kanal ein — rund 40 % günstiger bei vergleichbarem HBM-Volumen. Groq und Cerebras besetzen Spezial-Nischen, sind aber kein Ersatz für eine Allzweck-GPU-Flotte.

GPU-Anforderung pro Modell

Llama-3.3-70B ist 2026 der Mittelstands-Standard für selbst-gehostete Frontier-Qualität. Die Hardware-Anforderung hängt direkt an der Quantisierung.

Modell + Quant	VRAM-Bedarf	Mindest-GPUs	Empfehlung Mittelstand
Llama-3.3-70B FP16	~140 GB	2×H200 oder 4×H100	Wenn Qualität nicht verhandelbar
Llama-3.3-70B Q8	~75 GB	1×H200 oder 2×H100	Sweet-Spot, 95 % FP16-Qualität
Llama-3.3-70B Q4	~40 GB	1×H100 oder 1×MI300X	Edge / Low-Latency, ~85 % Qualität
Llama-3.3-405B FP16	~810 GB	8×H200 oder GB200 NVL36	Nur ab sehr großem Umsatz sinnvoll
Mistral-Large-2 FP16	~250 GB	4×H100 + 1×H200	EU-souveräne Alternative

Die Quantisierungs-Wahl ist eine kommerzielle Entscheidung, keine technische. Q8 spart 50 % Hardware bei unter 5 % Qualitätsverlust auf Benchmarks. Wer Q4 fährt, baut Konsumenten-Chat. Wer FP16 fährt, hat ein Compliance- oder Audit-Argument.

Power + Cooling Reality

H100 zieht 700 W TDP unter Volllast — acht Karten plus CPUs, NICs und Storage ergeben 7–10 kW Dauerlast. Diese Zahl vergessen viele Mittelständler im CAPEX-Modell. Air-Cooling ist bis 8 GPUs pro 8U-Rack machbar; ab B200 (1.000 W TDP) ist Liquid-Cooling Pflicht und der Serverraum-Retrofit ein eigener Investitionsblock pro Rack (CDU, Manifold, Leak-Detection). Ein Standard-19"-Rack schafft thermisch 40–50 kW; GB200 NVL72 braucht 120 kW — 3× der RZ-Default. Wer GB200 fährt, baut faktisch ein neues RZ; für ein 8×H100-Cluster reicht ein bestehendes RZ mit ausreichend dimensioniertem Klima und USV.

CAPEX-versus-OPEX-Cloud-Vergleichs-Matrix 8x H100 On-Prem TCO 36 Monate gegen Cloud Bedrock Llama mit Break-Even Monat 19 — Exhibit 2: Break-Even Monat 19 — die unterschätzte Variable ist nicht die Hardware-CAPEX, sondern Strom (/Monat bei 8 kW Dauerlast) und 0,3 FTE Ops-Personal.

CAPEX vs OPEX-Cloud

Die zentrale Mittelstands-Frage ist nicht "welche GPU", sondern "kaufen oder mieten". Die Antwort hängt am Auslastungs-Profil: Wer 80 %+ Auslastung über 24 Monate planen kann, gewinnt mit CAPEX. Wer unter 40 % schwankt, bleibt in der Cloud.

Pilot-Cockpit KRITIS Energieversorger 180 Millionen Euro On-Prem-Migration mit Azure OpenAI versus 8x H100 inklusive BSI-C5 BNetzA Paragraph 11 EnWG — Exhibit 3: KRITIS-Pilot, Q1 2026 — TCO-Vorteil über 36 Monate plus BNetzA-§-11-1a-EnWG-Compliance, die in der US-Cloud nicht erreichbar war.

Position	On-Prem 8×H100	Cloud Bedrock Llama-3.3-70B
Hardware-CAPEX	einmalig hoch	—
Server-Raum-Retrofit	einmalig	—
Strom (8 kW × 24/7)	laufend, ~0,22/kWh	inklusive
Kühlung + Wartung	laufend gering	inklusive
Personal (0,3 FTE Ops)	laufend anteilig	—
Cloud-Inferenz	—	laufend hoch
Break-Even	Monat 19	—

Bei 80 %+ Auslastung kippt der TCO nach 19 Monaten zugunsten On-Prem. Die unterschätzte Variable ist nicht die Hardware — es ist Strom und Personal. Wer 0,3 FTE Ops nicht im Haus hat, kauft sich faktisch ein Outsourcing-Problem ein. Wichtig: GB200-Cluster brechen die Rechnung — bei Millionen-Einstiegspreis und 120 kW Last liegt der Break-Even erst bei Monat 34–40 und nur bei kontinuierlicher 90 %-Auslastung. Für den klassischen Mittelstand gilt: H100/H200, niemals GB200.

Pilot: KRITIS-Energieversorger, On-Prem-AI-Migration

KRITIS-Sektoren sind nach BSI-Kritisverordnung und BNetzA-Sicherheitskatalog (§ 11 Abs. 1a EnWG) verpflichtet, versorgungsrelevante Daten in souveräner Infrastruktur zu verarbeiten. AI-Workloads in US-Cloud fallen in den Top-Workload-Kategorien regulatorisch durch. Pilot Q1 2026, deutscher Regionalversorger, Migration von Azure OpenAI auf On-Prem-H100:

Kennzahl	Cloud Azure OpenAI	On-Prem 8×H100
Setup-Zeit	6 Wochen	14 Wochen (inkl. RZ-Retrofit)
Latency P95	1.200 ms	380 ms
BSI-C5 Type 2 konform	Teilweise	Voll
BNetzA § 11 1a EnWG	Nein (US-Sub-Processor)	Ja
Audit-Right vor Ort	Q&A only	Voll

Break-Even Monat 21. Nach 36 Monaten ein klarer TCO-Vorteil zugunsten On-Prem — plus regulatorische Compliance, die in der Cloud nicht erreichbar war. Der Pilot läuft seit Februar 2026 produktiv mit zwei Modellen (Llama-3.3-70B Q8 + Mistral-Large-2 FP16).

Wann Cloud bleibt

On-Prem ist nicht universell richtig. Vier Szenarien sprechen für Cloud: variable Last unter 40 % Durchschnitts-Auslastung (CAPEX verbrennt, Pay-per-Token skaliert nach unten); Inferenz-Spikes mit 10× Peak vs. Median, wo hybrid richtig ist — On-Prem-Baseline plus Cloud-Burst; kein Rack-Space, wenn der RZ-Retrofit das kleine Jahres-AI-Budget übersteigt; und kein OPEX-Budget für Ops, da ein H100-Cluster mindestens 0,3 FTE Senior-Ops für Patching, Monitoring und Incident-Response braucht.

Einordnung für den CFO-Tisch

Die On-Prem-Frage 2026 ist keine technische, sondern eine bilanzielle und regulatorische. CAPEX vs. OPEX, Auslastungs-Profil und KRITIS-Status bestimmen die Antwort, nicht die GPU-Auswahl: Kleinerer Mittelstand ohne KRITIS-Pflicht bleibt in der Cloud (Bedrock, Azure OpenAI EU); mittlerer Umsatz mit hoher Auslastung fährt hybrid (8×H100-Baseline, Cloud-Burst); großer Umsatz oder KRITIS geht On-Prem-First mit H200 oder B200 — GB200 nur in der allerobersten Größenklasse.

Praxis-Schritt: Ein kurzes Hardware-Audit klärt, ob Ihr aktuelles Auslastungs-Profil On-Prem trägt, welche Karten zu Ihrem Modell-Mix passen und was der RZ-Retrofit kosten würde. Erstgespräch anfragen → /anfrage

Stand Mai 2026. KRITIS-/BNetzA-Compliance in Zusammenarbeit mit zertifizierten IT-Sicherheitsberatern — eigene BSI-Akkreditierung in Vorbereitung Q4 2026.

Baybora Gülec· Gründer, Azena

Nächster Schritt

Passt das auf Ihren Fall?

30-Min-Erstgespräch, kostenfrei und unverbindlich. Wir gehen Ihren konkreten Fall durch — und sagen ehrlich, wenn nichts passt.

Erstgespräch buchen

Teilen LinkedIn Per E-Mail