TL;DR
- Drei Rollen-Cluster strukturieren AI-Engineering 2026 — AI-Product-Engineer (Production-Stack LLM-API + RAG + Eval), ML-Engineer (klassisches Training + MLOps), AI-Application-Engineer (Frontier-LLM-Prototyping mit Vibe-Coding-Skill).
- Sweet-Spot für DACH-Mittelstand ist der AI-Product-Engineer — er baut produktive AI-Mitarbeiter auf bestehender Infrastruktur, ohne Trainings-Stack oder GPU-Cluster zu brauchen.
- Gehalts-Realität DACH 2026: AI-Product-Engineer mit Production-Track-Record kostet auf jedem Level 15–25 % Premium über vergleichbaren Backend-Rollen — plus optionale Equity-Komponente bei Spin-offs und Holding-Strukturen.
Drei AI-Engineering-Rollen 2026
AI-Engineering ist 2026 ein eigenes Rolle-Profil, kein "Data-Scientist mit ChatGPT-Kurs". Wer dasselbe Anforderungs-Profil aus dem 2018er-ML-Playbook ausschreibt, fischt im falschen Teich. Im Mittelstand dominieren drei klar trennbare Cluster.

| Rolle | Stack-Schwerpunkt | Mittelstands-Eignung |
|---|---|---|
| AI-Product-Engineer | LLM-API, RAG, Eval-Loops, OTel | Sweet-Spot |
| ML-Engineer | Trainings-Pipelines, MLOps, GPU | Nur bei Self-Hosting |
| AI-Application-Engineer | Frontier-LLM, Vibe-Coding, Prototyping | Innovation-Backlog |
- AI-Product-Engineer — die Kern-Rolle für Mittelstands-AI. Skills: LLM-API-Integration (OpenAI, Anthropic, Mistral), RAG-Architektur (Vector-DB, Re-Ranking, Citation-Pattern), Eval-Loops (Promptfoo, LangSmith, RAGAS), Observability (OpenTelemetry, Logfire, Langfuse). Baut produktive AI-Mitarbeiter auf bestehender Infrastruktur — kein GPU-Cluster, kein Trainings-Stack. Production-Discipline ersetzt Forschungs-Tiefe.
- ML-Engineer — braucht Trainings-Pipelines, MLOps, GPU-Operationen. Für 90 % der Mittelstands-Use-Cases überqualifiziert und unterausgelastet. Sinnvoll nur bei drei Triggern: Self-Hosted-Llama/Qwen wegen Datenresidenz, Fine-Tuning auf eigenen Daten, klassisches Forecasting/Anomaly-Detection außerhalb der LLM-Welt.
- AI-Application-Engineer — neue Rolle 2026 mit Vibe-Coding-Skill (Cursor, Claude-Code, Copilot), schnelles Prototyping, UX-Sense. Sinnvoll für Innovation-Backlog und Discovery, nicht für Production-Systeme mit Compliance-Anforderungen. Im Mittelstand oft als Hybrid mit dem AI-Product-Engineer gehirt.
Interview-Loop in fünf Stufen
Der 2026-Standard-Loop hat fünf Stufen und filtert in jeder ein anderes Signal. Wer nur ein Code-Interview macht, hirte 2018 — heute ist das fahrlässig.
| Stufe | Inhalt | Signal | Dauer |
|---|---|---|---|
| 1. Take-Home | RAG-System mit Open-Source-Stack | Production-Verdrahtung | 4–6 h async |
| 2. Code-Review | Eval-Set mit absichtlichen Bugs | Defensives Lesen | 60 Min live |
| 3. System-Design | Production-Pipeline mit Cost + OTel | Architektur-Tiefe | 75 Min live |
| 4. Behavior | Production-Incident-Story | Erfahrungs-Echo | 45 Min live |
| 5. Reference | 30 Min mit ex-Tech-Lead | Externe Validierung | 30 Min async |
Stufe 1–3 testen Können, Stufe 4 testet Erfahrung, Stufe 5 schließt die Lücke zwischen Self-Reporting und Realität. Keine Stufe ist optional — wer eine weglässt, kauft ein Risiko.
- Take-Home: kleines RAG-System mit Open-Source-Stack (LlamaIndex/Haystack, pgvector oder Qdrant, beliebigem LLM-API). Bewertet: Code-Struktur, Eval-Set-Anlage, Citation-Pattern, README-Discipline.
- Code-Review: Kandidat reviewt ein Production-Eval-Set mit drei absichtlichen Bugs — Schema-Mismatch, fehlende Subgroup-Klassifikation, fehlerhafter Faithfulness-Score. Signal: erkennt er Bugs ohne Hinweis?
- System-Design: Design einer Production-Pipeline mit Cost-Cap, Observability, Failover, DSGVO-Logging. Bewertet: Cost-Awareness, OTel-Verdrahtung, Provider-Fallback, EU-AI-Act-Klassifikation.
- Behavior: konkrete Lessons aus echtem Production-Incident — Hallu vor Kunden, Cost-Spike, Provider-Outage, Eval-Drift. Signal: selbst erlebt oder Blog-Posts zitiert?
- Reference-Check: mit ex-Tech-Lead oder Engineering-Manager. Fokus: Production-Echtheit, Team-Verhalten unter Druck, On-Call-Discipline.
In DACH-Hiring-Loops zeigt sich: Wer keinen einzigen Production-Incident frei erzählen kann, hat nie Production gesehen — dann ist er Application-Engineer-Material, nicht Product-Engineer.
Gehalts-Realität DACH 2026
Die DACH-Gehalts-Realität hat sich seit 2023 deutlich verschoben. Ein AI-Product-Engineer mit Production-Track-Record kostet 2026 auf jedem Level rund 15–25 % Premium über einer vergleichbaren Senior-Backend-Rolle — plus Equity-Hebel bei Spin-offs.

| Level | Relatives Comp-Niveau | Equity (Spinoff/Holding) |
|---|---|---|
| Junior | Backend-Junior + 15–25 % | 0,1–0,3 % |
| Senior | Backend-Senior + 15–25 % | 0,3–0,8 % |
| Staff | Backend-Staff + 15–25 % | 0,8–1,5 % |
| Principal | Backend-Principal + 15–25 % | 1,5–3 % |
Klassische Mittelständler ohne Holding-Struktur kompensieren mit Bonus-Modellen (10–20 % Variable) oder VSOP/Phantom-Shares für strategische AI-Rollen. Pure-Cash-Hires verlieren 2026 gegen jedes Spin-off mit Equity. Wer unter Marktband ausschreibt, fischt im Bewerber-Pool dritter Klasse.
Pilot: Maschinenbauer, AI-Hiring-Sprint über 6 Wochen
Ein mittelständischer DACH-Maschinenbauer suchte einen Senior AI-Product-Engineer. Ausgangslage: erste Stellenanzeige zwei Monate offen, drei Interviews, kein Hire.
| Phase | Maßnahme | Findings |
|---|---|---|
| Woche 1 | Rolle-Profil neu geschnitten | Alte Anzeige war 2018-ML-Profil |
| Woche 2 | Take-Home + Code-Review eingeführt | 60 % der Vorqualifizierten ausgesiebt |
| Woche 3 | System-Design + Behavior | weitere 50 % ausgesiebt |
| Woche 4 | Reference-Check + Gehaltsband-Sync | Marktband lag deutlich über dem ersten Angebot |
| Woche 5–6 | 2 Offers, 1 angenommen | Hire-Rate 7 % auf qualifizierten Funnel |
Das 2018-Profil verfehlte die Zielgruppe vollständig — keine Production-AI-Erfahrung in den alten Bewerbern. Erst die Anpassung an das Marktband brachte einen qualifizierten Funnel. Die Hire-Rate von 7 % liegt im 2026-Median für Senior-AI-Engineer-Searches.
Vier häufigste Hiring-Fehler
- Stanford-PhD-Fetisch ohne Production-Erfahrung — Geschäftsführer hört "PhD" und hirt blind. Resultat: Forschungs-Profil ohne Production-Discipline, kein Eval-/OTel-Wissen, Time-to-Production scheitert nach Monat 3. Fix: PhD ist kein Signal mehr — Track-Record an deployten Systemen, Eval-Discipline und Incident-Erfahrung schlagen jede Forschungs-CV.
- Anzeige liest sich wie 2018-ML-Profil — TensorFlow, PyTorch-Training, MLOps-CI/CD, Spark/Hadoop in den Pflicht-Skills. Production-AI 2026 braucht LLM-API, RAG, Eval, OTel — nicht GPU-Training. Fix: Stack-Liste auf 2026-Realität ziehen, GPU-Training optional (nur bei Self-Hosting).
- Take-Home im Pure-Notebook-Stil — nur ein Jupyter-Notebook mit Modell-Vergleich testet 2018-Forschungs-Skills, nicht Production-Verdrahtung. Fix: Take-Home production-shaped — README, Schema-Validierung, Eval-Set, Logging, Citation-Pattern. Notebook allein disqualifiziert.
- Kein Eval- oder Observability-Signal — Interviews ohne Eval- und OTel-Frage filtern Production-Erfahrung nicht heraus. Fix: mindestens eine Eval-Frage (RAGAS, Promptfoo, LLM-as-Judge) und eine Observability-Frage (OTel, Langfuse, Logfire) in jedem System-Design-Interview.
Fazit
AI-Engineer-Hiring 2026 ist ein eigenes Profil, keine Erweiterung der ML-Rolle aus 2018. Drei Cluster strukturieren die Auswahl, Sweet-Spot ist der AI-Product-Engineer, das Comp-Niveau liegt rund 15–25 % über vergleichbaren Backend-Rollen. Wer den Fünf-Stufen-Loop sauber operationalisiert, erreicht eine Hire-Rate von 5–10 % und Retention über 18 Monate; wer abkürzt, kauft ein Risiko, das spätestens in Monat 4 zurückkommt.
Praxis-Schritt: Ein 90-Min-Hiring-Audit prüft Ihre offenen Stellenanzeigen, Take-Home-Templates und Interview-Loops gegen den 2026-Standard. Erstgespräch anfragen → /anfrage
Stand Mai 2026. Hiring-Audits und Take-Home-Templates basierend auf Production-AI-Hires in DACH-Mittelstand-Mandaten 2024–2026 — eigene BAFA-/go-digital-Akkreditierung in Vorbereitung Q3 2026.
Nächster Schritt
Passt das auf Ihren Fall?
30-Min-Erstgespräch, kostenfrei und unverbindlich. Wir gehen Ihren konkreten Fall durch — und sagen ehrlich, wenn nichts passt.
