Alle Beiträge

Modelle, Voice & Vision

On-Prem AI-Hardware: CAPEX vs OPEX

Eigene AI-Hardware lohnt sich ab einem klaren Volumen- und Souveränitäts-Schwellenwert — wann CAPEX die Cloud-Miete schlägt.

Baybora Gülec17. Mai 20269 Min.

TL;DR

  • Hardware-Tier 2026: sieben relevante On-Prem-Plattformen — NVIDIA H100/H200/B200/GB200, AMD MI300X, Groq LPU, Cerebras WSE-3. Einzelkarten im fünfstelligen Bereich, Rack-Scale-Systeme im Millionen-Bereich.
  • Mittelstands-Sweet-Spot: ein 8×H100-Cluster für Llama-3.3-70B-FP16-Inferenz deckt 90 % der Frontier-Workloads im typischen Mittelstands-Segment ab, bei 7–10 kW Dauerlast.
  • Break-Even: Cloud-OPEX vs. On-Prem-CAPEX kippt bei kontinuierlich hoher Auslastung nach ~19 Monaten. Danach ist On-Prem strukturell günstiger — und in KRITIS-Sektoren ohnehin Pflicht.

Hardware-Landschaft 2026

Die On-Prem-Hardware ist 2026 ausdifferenziert. Sieben Plattformen decken das Spektrum von Training über Frontier-Inferenz bis Edge-Latency ab. Reseller-Aufschläge in DACH liegen typisch bei +10–15 % über dem Listen-Direktbezug.

PlattformSpeicherTFLOPs FP16Preis-TierUse-Case
NVIDIA H100 SXM580 GB HBM3990hoch fünfstelligStandard Frontier-Inferenz + Training
NVIDIA H200141 GB HBM3e990hoch fünfstellig70B-Modelle in FP16, weniger Karten
NVIDIA B200192 GB HBM3e2.250hoch fünfstelligBlackwell-Gen, 2,5× Throughput vs H100
NVIDIA GB200 NVL7213,5 TB Pool1,4 EFLOPsMillionen-BereichRack-Scale, 72 GPUs + 36 Grace-CPUs
AMD MI300X192 GB HBM31.300mittel fünfstelligPreis-Leistung, ROCm 6.2
Groq LPU230 MB SRAMmittel fünfstelligInference-Only, <50 ms P95
Cerebras WSE-344 GB SRAM125 (sparse)Millionen-BereichWafer-Scale, Training-spezialisiert

NVIDIA dominiert 2026 mit rund 85 % Marktanteil bei AI-Training-GPUs. AMD MI300X bricht in den Preis-Leistungs-Kanal ein — rund 40 % günstiger bei vergleichbarem HBM-Volumen. Groq und Cerebras besetzen Spezial-Nischen, sind aber kein Ersatz für eine Allzweck-GPU-Flotte.

GPU-Anforderung pro Modell

Llama-3.3-70B ist 2026 der Mittelstands-Standard für selbst-gehostete Frontier-Qualität. Die Hardware-Anforderung hängt direkt an der Quantisierung.

Modell + QuantVRAM-BedarfMindest-GPUsEmpfehlung Mittelstand
Llama-3.3-70B FP16~140 GB2×H200 oder 4×H100Wenn Qualität nicht verhandelbar
Llama-3.3-70B Q8~75 GB1×H200 oder 2×H100Sweet-Spot, 95 % FP16-Qualität
Llama-3.3-70B Q4~40 GB1×H100 oder 1×MI300XEdge / Low-Latency, ~85 % Qualität
Llama-3.3-405B FP16~810 GB8×H200 oder GB200 NVL36Nur ab sehr großem Umsatz sinnvoll
Mistral-Large-2 FP16~250 GB4×H100 + 1×H200EU-souveräne Alternative

Die Quantisierungs-Wahl ist eine kommerzielle Entscheidung, keine technische. Q8 spart 50 % Hardware bei unter 5 % Qualitätsverlust auf Benchmarks. Wer Q4 fährt, baut Konsumenten-Chat. Wer FP16 fährt, hat ein Compliance- oder Audit-Argument.

Power + Cooling Reality

H100 zieht 700 W TDP unter Volllast — acht Karten plus CPUs, NICs und Storage ergeben 7–10 kW Dauerlast. Diese Zahl vergessen viele Mittelständler im CAPEX-Modell. Air-Cooling ist bis 8 GPUs pro 8U-Rack machbar; ab B200 (1.000 W TDP) ist Liquid-Cooling Pflicht und der Serverraum-Retrofit ein eigener Investitionsblock pro Rack (CDU, Manifold, Leak-Detection). Ein Standard-19"-Rack schafft thermisch 40–50 kW; GB200 NVL72 braucht 120 kW — 3× der RZ-Default. Wer GB200 fährt, baut faktisch ein neues RZ; für ein 8×H100-Cluster reicht ein bestehendes RZ mit ausreichend dimensioniertem Klima und USV.

CAPEX-versus-OPEX-Cloud-Vergleichs-Matrix 8x H100 On-Prem TCO 36 Monate gegen Cloud Bedrock Llama mit Break-Even Monat 19
Exhibit 2: Break-Even Monat 19 — die unterschätzte Variable ist nicht die Hardware-CAPEX, sondern Strom (/Monat bei 8 kW Dauerlast) und 0,3 FTE Ops-Personal.

CAPEX vs OPEX-Cloud

Die zentrale Mittelstands-Frage ist nicht "welche GPU", sondern "kaufen oder mieten". Die Antwort hängt am Auslastungs-Profil: Wer 80 %+ Auslastung über 24 Monate planen kann, gewinnt mit CAPEX. Wer unter 40 % schwankt, bleibt in der Cloud.

Pilot-Cockpit KRITIS Energieversorger 180 Millionen Euro On-Prem-Migration mit Azure OpenAI versus 8x H100 inklusive BSI-C5 BNetzA Paragraph 11 EnWG
Exhibit 3: KRITIS-Pilot, Q1 2026 — TCO-Vorteil über 36 Monate plus BNetzA-§-11-1a-EnWG-Compliance, die in der US-Cloud nicht erreichbar war.
PositionOn-Prem 8×H100Cloud Bedrock Llama-3.3-70B
Hardware-CAPEXeinmalig hoch
Server-Raum-Retrofiteinmalig
Strom (8 kW × 24/7)laufend, ~0,22/kWhinklusive
Kühlung + Wartunglaufend geringinklusive
Personal (0,3 FTE Ops)laufend anteilig
Cloud-Inferenzlaufend hoch
Break-EvenMonat 19

Bei 80 %+ Auslastung kippt der TCO nach 19 Monaten zugunsten On-Prem. Die unterschätzte Variable ist nicht die Hardware — es ist Strom und Personal. Wer 0,3 FTE Ops nicht im Haus hat, kauft sich faktisch ein Outsourcing-Problem ein. Wichtig: GB200-Cluster brechen die Rechnung — bei Millionen-Einstiegspreis und 120 kW Last liegt der Break-Even erst bei Monat 34–40 und nur bei kontinuierlicher 90 %-Auslastung. Für den klassischen Mittelstand gilt: H100/H200, niemals GB200.

Pilot: KRITIS-Energieversorger, On-Prem-AI-Migration

KRITIS-Sektoren sind nach BSI-Kritisverordnung und BNetzA-Sicherheitskatalog (§ 11 Abs. 1a EnWG) verpflichtet, versorgungsrelevante Daten in souveräner Infrastruktur zu verarbeiten. AI-Workloads in US-Cloud fallen in den Top-Workload-Kategorien regulatorisch durch. Pilot Q1 2026, deutscher Regionalversorger, Migration von Azure OpenAI auf On-Prem-H100:

KennzahlCloud Azure OpenAIOn-Prem 8×H100
Setup-Zeit6 Wochen14 Wochen (inkl. RZ-Retrofit)
Latency P951.200 ms380 ms
BSI-C5 Type 2 konformTeilweiseVoll
BNetzA § 11 1a EnWGNein (US-Sub-Processor)Ja
Audit-Right vor OrtQ&A onlyVoll

Break-Even Monat 21. Nach 36 Monaten ein klarer TCO-Vorteil zugunsten On-Prem — plus regulatorische Compliance, die in der Cloud nicht erreichbar war. Der Pilot läuft seit Februar 2026 produktiv mit zwei Modellen (Llama-3.3-70B Q8 + Mistral-Large-2 FP16).

Wann Cloud bleibt

On-Prem ist nicht universell richtig. Vier Szenarien sprechen für Cloud: variable Last unter 40 % Durchschnitts-Auslastung (CAPEX verbrennt, Pay-per-Token skaliert nach unten); Inferenz-Spikes mit 10× Peak vs. Median, wo hybrid richtig ist — On-Prem-Baseline plus Cloud-Burst; kein Rack-Space, wenn der RZ-Retrofit das kleine Jahres-AI-Budget übersteigt; und kein OPEX-Budget für Ops, da ein H100-Cluster mindestens 0,3 FTE Senior-Ops für Patching, Monitoring und Incident-Response braucht.

Einordnung für den CFO-Tisch

Die On-Prem-Frage 2026 ist keine technische, sondern eine bilanzielle und regulatorische. CAPEX vs. OPEX, Auslastungs-Profil und KRITIS-Status bestimmen die Antwort, nicht die GPU-Auswahl: Kleinerer Mittelstand ohne KRITIS-Pflicht bleibt in der Cloud (Bedrock, Azure OpenAI EU); mittlerer Umsatz mit hoher Auslastung fährt hybrid (8×H100-Baseline, Cloud-Burst); großer Umsatz oder KRITIS geht On-Prem-First mit H200 oder B200 — GB200 nur in der allerobersten Größenklasse.

Praxis-Schritt: Ein kurzes Hardware-Audit klärt, ob Ihr aktuelles Auslastungs-Profil On-Prem trägt, welche Karten zu Ihrem Modell-Mix passen und was der RZ-Retrofit kosten würde. Erstgespräch anfragen → /anfrage

Stand Mai 2026. KRITIS-/BNetzA-Compliance in Zusammenarbeit mit zertifizierten IT-Sicherheitsberatern — eigene BSI-Akkreditierung in Vorbereitung Q4 2026.

Baybora Gülec· Gründer, Azena

Nächster Schritt

Passt das auf Ihren Fall?

30-Min-Erstgespräch, kostenfrei und unverbindlich. Wir gehen Ihren konkreten Fall durch — und sagen ehrlich, wenn nichts passt.

Teilen LinkedIn Per E-Mail