Alle Beiträge

Modelle, Voice & Vision

Self-Hosted LLMs: Llama, Mistral, Qwen, DeepSeek

Bei sensiblen Daten, hohem Volumen oder harter Latenz schlägt ein selbst gehostetes Open-Weight-Modell die Cloud — sonst nicht.

Azena Editorial17. Mai 20268 Min.

TL;DR

  • Drei Trigger rechtfertigen Self-Hosting 2026: hochsensitive Daten (Pharma-Forschung, M&A-Diligence, Konstruktionspläne), Volumen ab 30–50 Mio. Tokens/Tag und Latenz-Hard-Requirements unter 200 ms.
  • Sweet-Spot-Modell: Llama 3.3 70B auf 2× H100 liefert ~85 % MMLU/HumanEval bei einem Bruchteil der Cloud-API-Kosten und reicht für Standard-RAG, Klassifikation und Dokumentenextraktion.
  • Break-Even zur Frontier-Cloud-API (Claude Opus 4.7, GPT-5) liegt bei ~30–50 Mio. Tokens/Tag — darüber ist Self-Hosting wirtschaftlich, darunter nicht.

Drei Trigger für Self-Hosting

Self-Hosting ist keine Glaubensfrage, sondern eine TCO-Entscheidung mit drei klaren Triggern. Wer keinen trifft, bleibt 2026 besser bei Cloud-APIs — Frontier-Qualität, kein DevOps-Overhead, Pay-per-Use. Erst wenn mindestens ein Trigger zieht, lohnt sich der Bench-Aufbau.

Modell-Landschaft Open-Weight 2026 Llama 3.3 70B Llama 3.1 405B Mistral Large 2 Qwen2.5 72B DeepSeek-V3 mit Hardware-Anforderung Lizenz und Sweet-Spot-Use-Case
Exhibit 2: Fünf Open-Weight-Modelle 2026 — Llama 3.3 70B als Sweet-Spot auf 2× H100, DeepSeek-V3 mit MoE-Architektur als spannendster Newcomer.

Self-Hosting ist 2026 die richtige Antwort auf drei Fragen — und die falsche auf alle anderen.

TriggerSchwelle 2026Beispiel-Use-Case
Daten-SensitivitätPharma-Forschung, M&A-Diligence, geheime KonstruktionPatent-Vorprüfung, Deal-Room-Analyse
Volumen> 30–50 Mio. Tokens/TagDokumenten-Pipeline, Support-Klassifikation
Latenz< 200 ms P95 (Cloud-API typ. 800–1.500 ms)Voice-Bot, Echtzeit-Routing, IDE-Completion

Open-Weight-Modell-Landschaft 2026

  • Llama 3.3 70B — der Sweet-Spot: Default für Mittelstands-Self-Hosting, Meta Llama 3 Community License (kommerziell bis 700 Mio. MAU). Auf 2× H100 80GB mit FP8 läuft das Modell mit ~80 Tokens/Sek pro Request, ~6.000 Tokens/Sek im Batch. Qualität: ~85 % MMLU, ~88 % HumanEval, GSM8K stark. Reicht für RAG, Klassifikation, Extraktion, Summarization; unter Frontier bei Multi-Step-Reasoning und Tool-Use.
  • Llama 3.1 405B — GPT-4-Klasse on-prem: MMLU 88,6 %, HumanEval 89 %. Hardware: 8× H100 80GB mit FP8 oder 16× H100 ohne Quantisierung. Sinnvoll nur bei sehr hohem Volumen (>100 Mio. Tokens/Tag) oder Reasoning-kritischen Use-Cases mit Daten-Sensitivität.
  • Mistral Large 2 — EU-souverän: 123B Dense, Mistral Research License (kommerzielle Nutzung über Commercial License). Stärke: starker Code, Multi-Lingual inkl. nativem Deutsch. Hardware: 4× H100 80GB oder 2× H200 141GB. Sweet-Spot für DACH-Mittelstand mit Souveränitäts-Anforderung.
  • Qwen2.5 72B — echtes Apache 2.0: keine MAU-Schranken, MMLU 86,1 %, stark bei Math und Tool-Use, auf 2× H100 lauffähig. Caveat: Gewichte aus China — in regulierter Industrie Vendor-Risk-Assessment vor Produktiv-Einsatz.
  • DeepSeek-V3 — 671B MoE, 37B aktiv: effektive Hardware-Last wie ein 37B-Modell, Qualität nahe Frontier (MMLU ~88 %). Hardware: 8× H100. DeepSeek Open License, kommerziell mit Auflagen.

Quality-Gap Frontier vs Open

BenchmarkLlama 3.3 70BLlama 3.1 405BDeepSeek-V3Claude Opus 4.7GPT-5
MMLU85,1 %88,6 %88,5 %~92 %~93 %
HumanEval88,4 %89,0 %89,2 %~95 %~95 %
GSM8K95,1 %96,8 %96,5 %~98 %~98 %
MATH70,0 %73,8 %74,1 %~85 %~86 %
ARC-Agentic38,0 %52,0 %58,0 %~88 %~90 %

Praxis-Lesart: Open-Weight liegt 2026 bei 85–90 % der Frontier-Qualität auf Standard-Benchmarks — aber 40–50 Prozentpunkte zurück bei agentischem Reasoning (ARC-Agentic). Für RAG und Klassifikation reicht das, für Multi-Step-Agenten nicht.

Stack: vLLM + LiteLLM + Langfuse

vLLM ist der De-facto-Standard für High-Throughput-Inference — PagedAttention und continuous batching liefern 5–10× höheren Durchsatz als HuggingFace Transformers, OpenAI-kompatible API out-of-the-box, Docker-Deployment mit Prometheus-Metriken. Davor sitzt LiteLLM als OpenAI-kompatibler Proxy: Rate-Limiting, Budget-Tracking pro Team, Fallback auf Cloud-API bei Outage, einheitliche API über mehrere Modelle. Migrations-Bonus: bestehende OpenAI-SDK-Calls laufen unverändert, nur die Base-URL wird umgestellt. Langfuse liefert die Observability-Schicht — Trace-Logging, Cost-Tracking, Latenz-Histogramme, Prompt-Versionierung, Eval-Pipelines, Open-Source und self-hostbar. In regulierter Industrie unverzichtbar: EU AI Act Art. 12 (Logging) und Art. 13 (Transparenz) sind ohne Tracing nicht erfüllbar.

Break-Even-Matrix Cloud-API GPT-5 versus Self-Hosted Llama 3.3 70B und Llama 3.1 405B bei 10 50 und 100 Millionen Tokens pro Tag mit Monatskosten
Exhibit 3: Break-Even Cloud vs Self-Hosted liegt 2026 bei ~30–50 Mio. Tokens/Tag — darunter dominiert Cloud, darüber dominiert Self-Hosted in jeder Konstellation.

Break-Even-Rechnung: Cloud vs Self-Hosted

VolumenCloud (GPT-5, Mix In/Out)Self-Hosted 2× H100 (Llama 3.3)Self-Hosted 8× H100 (405B)
10 Mio. Tokens/Taggünstigunwirtschaftlichklar unwirtschaftlich
50 Mio. Tokens/Taghochdeutlich günstigervergleichbar
100 Mio. Tokens/Tagsehr hocham günstigstengünstig

Annahmen: H100-Server bei Hetzner/Equinix als monatliche Karten-Miete, Strom + Cooling pro Karte, DevOps 0,5 FTE auf das Setup, Cloud-API mit Mix 60 % Input / 40 % Output. Lesart: Der Break-Even Cloud vs. Self-Hosted Llama 3.3 70B liegt bei rund 30–50 Mio. Tokens/Tag. Darüber ist Self-Hosted in jedem Szenario günstiger. Darunter überwiegen die Cloud-Vorteile (Zero-Ops, Frontier-Qualität, Skalierung auf Knopfdruck).

Pilot: Pharma-Mittelständler, Llama 3.3 für Patent-Vorprüfung

DimensionBefund
Use-CasePatent-Vorprüfung über interne Forschungsdaten + EPO-Datenbank
Daten-SensitivitätHochsensitiv — Forschungsergebnisse pre-publication, Cloud-API ausgeschlossen
Volumen~25 Mio. Tokens/Tag (unter Break-Even, aber Sensitivität dominiert)
ModellLlama 3.3 70B, FP8-quantisiert
Hardware2× H100 80GB im eigenen RZ Frankfurt
StackvLLM + LiteLLM-Proxy + Langfuse + Qdrant-Vector-Store
Latenz P95140 ms (vs. Cloud-API ~850 ms)
QualitätTreffsicherheit Patent-Klassifikation 91 % (vs. 94 % mit Claude Opus, Delta akzeptiert)
Time-to-Production9 Wochen Pilot, 14 Wochen bis Roll-out

Der Volumen-Trigger ist nicht erfüllt, aber der Sensitivitäts-Trigger ist dominant: Der Pharma-Mittelständler kann Forschungsdaten vertraglich nicht in US-Cloud schicken. Self-Hosting ist hier keine Cost-Optimization, sondern Daten-Compliance.

Wann NICHT self-hosten

Drei Konstellationen sprechen klar dagegen:

  • Kleines Volumen (< 10 Mio. Tokens/Tag): Cloud-API ist günstiger, weniger Komplexität, Zugriff auf Frontier-Qualität.
  • Instabile Use-Cases: Wer noch nicht weiß, ob er Klassifikation, Generation oder Reasoning braucht, kauft sich mit Self-Hosting eine Hardware-Bindung in eine Modell-Wahl ein, die in 6 Monaten überholt ist.
  • Kein DevOps-Team: vLLM ist robust, aber GPU-Drift, Modell-Updates, Quantisierungs-Tuning und Incident-Response brauchen mindestens 0,5 FTE Senior-Engineer. Wer das nicht hat, baut Tech-Debt statt auszulagern.

Einordnung für den CIO-Tisch

Self-Hosting 2026 ist kein Standard, sondern Spezialfall — getrieben durch Daten-Sensitivität, Volumen oder Latenz. Wer einen der drei Trigger trifft, baut mit Llama 3.3 70B, vLLM, LiteLLM-Proxy und Langfuse einen produktionsreifen Stack in 8–12 Wochen. Die meisten Mittelständler treffen noch keinen Trigger und sind mit Cloud-APIs besser bedient — sobald aber ein Use-Case mit Pharma-Sensitivität, Voice-Latenz oder ≥50 Mio. Tokens/Tag entsteht, wird Self-Hosting wirtschaftlich oder regulatorisch zwingend.

Praxis-Schritt: Ein kurzer Self-Hosting-Readiness-Check klärt, welche Use-Cases im Haus die drei Trigger treffen, welche Hardware-Option (Kauf, Colocation, Cloud-GPU-Reservierung) am besten passt und ob ein 12-Wochen-Pilot mit Llama 3.3 70B den TCO-Beweis liefert. Erstgespräch anfragen → /anfrage

Stand Mai 2026. Modell-Landschaft, Hardware-Preise und Cloud-Tarife ändern sich quartalsweise — Aktualisierung dieser Übersicht durch Azena Editorial.

Azena Editorial· AI-Engineering

Nächster Schritt

Passt das auf Ihren Fall?

30-Min-Erstgespräch, kostenfrei und unverbindlich. Wir gehen Ihren konkreten Fall durch — und sagen ehrlich, wenn nichts passt.

Teilen LinkedIn Per E-Mail