TL;DR
- Fünf Zero-Trust-Komponenten für Production-AI 2026: Network-Segmentation (Inference in eigenem VPC), Service-Authentication via mTLS, Identity-Aware-Proxy mit Customer-Identity-Propagation, Secret-Rotation für Provider-Keys, Egress-Filtering mit Whitelist auf LLM-Provider.
- Service-Mesh (Istio, Linkerd) ist der Default-Zero-Trust-Layer 2026 — plus Customer-VPC-Pin via AWS PrivateLink, Azure Private Endpoints oder Google VPC Service Controls.
- Plain-HTTP zwischen Services und shared API-Keys sind 2026 klassische Breach-Vektoren. Der Setup-Aufwand amortisiert sich gegen die Schadenshöhe eines einzigen Breach — die Mathematik ist nicht mehr verhandelbar.
Fünf Zero-Trust-Komponenten
Zero-Trust ist 2026 keine Architektur-Option mehr, sondern die Default-Haltung für Production-AI: keine impliziten Vertrauens-Beziehungen, jeder Service authentifiziert sich, jede Verbindung verschlüsselt — auch innerhalb des eigenen VPC. Der Mittelstand zieht nach, weil Provider-Verträge Customer-Side-Anforderungen kodifizieren.

- Network-Segmentation. Der Inference-Layer läuft in einem eigenen VPC mit minimaler Internet-Exposition. Kein direkter Customer-Traffic an den LLM-Endpoint, kein Public-Subnet für den Pod. Der Proxy davor ist die einzige öffentlich erreichbare Komponente.
- Service-Authentication via mTLS. Jeder Call zwischen Backend, LLM-Proxy und Provider hat zertifikatsbasierte gegenseitige Authentifizierung. Service-Mesh (Istio, Linkerd) macht das transparent, keine App-Logik enthält mTLS-Code. Zertifikate rotieren automatisch über kurze Lebensdauern (24–72h).
- Identity-Aware-Proxy. Die Customer-Identity propagiert durch jeden Layer. Kein „Admin-Service-Account" für alle Requests — jede Inferenz trägt den auslösenden User-Kontext für Audit-Trail und Rate-Limiting. DSGVO-Audits scheitern 2026 an genau dieser Stelle, wenn sie es nicht tut.
- Secret-Rotation. Provider-API-Keys werden 30–90-tägig über Vault, Doppler, AWS Secrets Manager oder Azure Key Vault rotiert. Kein Key liegt unrotiert im Wiki, Slack oder env-File.
- Egress-Filtering. Die LLM-Provider-Endpoints sind die einzigen Whitelist-Ziele für Egress aus dem Inference-VPC. Egress-Proxy (Cilium, AWS Network Firewall) erzwingt das auf Netzwerk-Ebene und schließt DNS-Exfiltration strukturell aus.
Tool-Stack für Zero-Trust-AI
Der Stack 2026 ist konsolidiert: fünf Open-Source-Komponenten plus ein bis zwei Cloud-Services decken die fünf Säulen produktiv ab. Wer eigenen mTLS-Code schreibt, baut Wartungs-Schulden auf.
| Komponente | Tool-Option | License |
|---|---|---|
| Service-Mesh + mTLS | Istio, Linkerd | Apache 2.0 |
| Identity-Aware-Proxy | Pomerium, Google IAP, AWS Verified Access | Apache 2.0 / SaaS |
| Secrets-Manager | HashiCorp Vault, Doppler, AWS Secrets Manager | OSS / SaaS |
| Egress-Filtering | Cilium, AWS Network Firewall, Calico | Apache 2.0 / Cloud |
| Customer-VPC-Pin | AWS PrivateLink, Azure Private Endpoint, GCP PSC | Cloud-native |
| Audit-Logging | OpenTelemetry + Loki / Datadog | Apache 2.0 / SaaS |
In DACH-Pilots ist Istio plus Vault plus PrivateLink die Default-Kombi — alle drei sind reif, gut dokumentiert und integrierbar ohne Plattform-Team von acht Leuten.
Customer-VPC-Pin bei Hyperscaler-LLMs
Frontier-LLMs auf Hyperscaler-Plattformen erlauben 2026 private Netzwerk-Pin direkt in den Customer-VPC: kein Public-Internet-Traffic, keine Egress-Charges, voller Audit-Trail auf Cloud-Ebene.

- AWS PrivateLink für Bedrock. Claude erreicht den Customer-VPC über einen Endpoint im selben Region-VPC — kein Internet-Egress, kein NAT-Gateway-Cost, voller VPC-Flow-Log-Audit.
- Azure Private Endpoints. Azure OpenAI bindet via Private Endpoint direkt ins Subnet ein. Mit Azure Firewall plus Network Security Groups ergibt das Zero-Trust-Standard.
- Google VPC Service Controls. Gemini über Vertex AI nutzt einen Service-Perimeter, der Daten-Exfiltration zu Services außerhalb verhindert — selbst bei kompromittierten Credentials. 2026er Default für Healthcare- und Finance-Workloads auf GCP.
Anti-Patterns
Drei Anti-Patterns treffen 2026 mehr als die Hälfte aller AI-Production-Audits im Mittelstand. Jedes ist ein klassischer Breach-Vektor — und jedes ist in unter 4 Wochen sanierbar.
- Plain-HTTP zwischen Services. Backend ruft LLM-Proxy über
http://internal-proxy:8080ohne Authentifizierung. „Ist doch im internen Netz" — bis ein kompromittierter Pod oder ein Insider Zugriff hat. mTLS via Service-Mesh kostet keinen App-Code und keine spürbare Latency. - Shared API-Key für alle Requests. Ein Provider-Key für alle User, kein Rate-Limit pro User, kein Audit-Trail. DSGVO-Verantwortlichkeit nicht nachweisbar, Cost-Attribution unmöglich, Missbrauchs-Erkennung blind. Identity-Aware-Proxy plus User-Context-Header lösen das in 2–3 Wochen.
- Kein Egress-Filtering. Der Inference-VPC kann frei ins Internet — ein kompromittierter Pod exfiltriert Daten via DNS, HTTP oder ICMP-Tunneling. In 60–70 % der Production-Audits 2025–2026 offen. Egress-Whitelist auf 3–5 Provider-Domains schließt den Vektor.
Default-Setup 2026
Die Default-Architektur ist klar und in sequenzierter Reihenfolge umsetzbar: Network-Segmentation (eigenes Inference-VPC, Private-Subnet, 1–2 Wochen), Service-Mesh + mTLS (Linkerd oder Istio, 2–3 Wochen), Identity-Aware-Proxy (Pomerium oder AWS Verified Access, 1–2 Wochen), Secret-Rotation (Vault oder Doppler, 1 Woche), Egress-Whitelist (Cilium oder Cloud-native, 1–2 Wochen) und Customer-VPC-Pin (PrivateLink, 1 Woche). Owner ist durchgängig das Plattform-Team, je nach Schritt ergänzt um IAM, SecOps, Netzwerk oder Cloud.
Praxis-Schritt: Ein AI Readiness Audit bewertet Ihren aktuellen AI-Production-Stack gegen Zero-Trust-Defaults, identifiziert die kritischen Lücken und liefert einen phasierten 6-Monats-Sanierungs-Plan. Audit anfragen → /anfrage
Stand Mai 2026. AI-Security- und Production-Architektur-Beratung für DACH-Mittelstand mit Schwerpunkt MedTech, Versicherung, Maschinenbau — eigene BAFA-/go-digital-Akkreditierung in Vorbereitung Q3 2026, Förder-Pfade aktuell in Kooperation mit akkreditierten Partner-Beratungen.
Nächster Schritt
Passt das auf Ihren Fall?
30-Min-Erstgespräch, kostenfrei und unverbindlich. Wir gehen Ihren konkreten Fall durch — und sagen ehrlich, wenn nichts passt.
