TL;DR
- AI-Tech-Debt ist 2026 ein eigenes Schuld-Genre. Sechs Klassen — Prompt-Sprawl, Modell-Pinning, Eval-Set-Verlust, Tool-Description, Vector-Drift, Cost-Drift — werden von klassischen Code-Debt-Tools nicht erkannt.
- Monatlicher AI-Hygiene-Sprint (1 Tag/Monat) ist Pflicht-Cadence. Wer AI-Tech-Debt im normalen Backlog parkt, schiebt sie unter Production-Druck endlos vor sich her.
- AI-Tech-Debt-Index 0–30 (6 Dimensionen × 0–5). Ohne Index keine Sichtbarkeit. Ohne Sichtbarkeit kein Refactoring-Budget bei der Geschäftsführung.
Sechs AI-Tech-Debt-Klassen
AI-Systeme akkumulieren eine eigene Form technischer Schuld — weder im SonarQube-Report noch im Coverage-Dashboard sichtbar. Typisches Muster aus DACH-Pilots: Qualität fällt binnen eines Quartals zweistellig, niemand weiß warum — Ursache sind fehlende Modell-Pins, ein Vector-Store auf alten Embeddings und ein ungepflegtes Eval-Set.

- Prompt-Sprawl: Produktive Codebasen führen 10–30 Versionen desselben Prompts in verschiedenen Pfaden. Niemand weiß, welche "richtig" ist; jedes Refactoring trifft nur eine Teilmenge. Wirkung: 8–18 % Qualitäts-Streuung über Pfade.
- Modell-Pinning-Schuld: Code referenziert
latestoder einen Alias statt datierter Modelle. Provider rollen still neue Versionen aus — silent quality regression über Nacht. Dergpt-4o-Rollover August 2024 zerstörte JSON-Mode-Compliance in rund 30 % produktiver RAG-Systeme. - Eval-Set-Verlust: Das Set existierte beim Build (300–500 gold-labeled Cases), aber niemand pflegt es. Nach 6–9 Monaten zeigt der Eval-Run 0,87 Precision, während Production ab Woche 12 Beschwerden produziert — das Set bildet die Realität nicht mehr ab.
- Tool-Description-Debt: Tools mit veralteten Beschreibungen produzieren falsche Calls. Beobachtet: ein
update_customer_recordohne Hinweis auf Vor-/Nachnamen-Trennung — Agent ruft mit"Anna Müller"als Vorname auf, 2 % aller Records korrupt. - Vector-Store-Drift: Embeddings auf einer Modell-Version, neue Queries auf einer still aktualisierten. Cosine-Distance verschiebt sich, Retrieval-Quality fällt um 6–14 Punkte — niemand korreliert mit dem Provider-Date.
- Cost-Drift: Reasoning-Token-Verbrauch wächst um 30–60 % pro Monat ohne Use-Case-Wachstum, weil neue Prompts "mehr Denken" anfordern und niemand monitort. Der CFO erkennt es typisch erst bei der vierten Monatsrechnung — zu spät.
AI-Tech-Debt-Index
Sechs Dimensionen × Score 0–5 = Total 0–30. Über 18 = kritisch, 10–18 = handlungsbedürftig, unter 10 = handhabbar.
| Dimension | Score 0 (sauber) | Score 5 (kritisch) | Mess-Methode |
|---|---|---|---|
| Prompt-Sprawl | 1 Version pro Use-Case, versioniert | >20 Versionen, kein Owner | Grep-Count Prompt-Strings |
| Modell-Pinning | 100 % datierte Modelle | >50 % auf latest/Alias | Static-Analyse Provider-Calls |
| Eval-Set | Update <30 Tage, ≥300 Cases | Update >180 Tage, <50 Cases | Git-Log + Case-Count |
| Tool-Description | 100 % reviewed letzte 90 Tage | <50 % reviewed | Tool-Schema-Audit |
| Vector-Drift | Embedding-Version gepinnt | >12 Monate, Version unklar | Embedding-Metadata-Check |
| Cost-Drift | Cost/Request stabil ±10 % | +30 %/Monat ungemonitort | Telemetrie-Trend |
Faustregel: Score 18+ → dedizierter Quarterly-Refactor-Sprint Pflicht. Score 10–18 → monatlicher Hygiene-Sprint hält den Score stabil.
Hygiene-Sprint-Pattern
AI-Tech-Debt wird nur durch dedizierte Cadence abgetragen, niemals als "normales Backlog-Issue".

- Monthly (1 Tag/Monat): Festes Datum, etwa erster Freitag. Scope: Prompt-Konsolidierung, Tool-Description-Review, Eval-Set-Add neuer Production-Edge-Cases. Output: PR mit 5–15 Mikro-Refactorings ohne Feature-Druck.
- Quarterly-Index-Update (½ Tag): Re-Score über alle sechs Dimensionen, Owner Tech-Lead AI plus Senior-Engineer. Output: Score-Trend, Vorschlag für Major-Refactor bei Score über 18.
- Yearly-Major-Refactor (1 Sprint, 10 Werktage): Strukturelles Re-Architecting — Prompt-Library-Konsolidierung, Vector-Store-Re-Embedding, Modell-Versions-Sweep, Eval-Set-Komplett-Refresh. Output: Index-Reduktion typisch von 18+ auf unter 8.
In DACH-Pilots fällt der Index über sechs Monate aus dem kritischen Bereich auf einstellige Werte — bei zweistelligem Quality-Gewinn, deutlich gesunkenem Reasoning-Cost und reduzierter Incident-Rate, für einen Bruchteil des Aufwands eines einzigen SLA-Bruchs.
Anti-Patterns
- Tech-Debt als Backlog-Issue: "Nehmen wir ins nächste Planning auf" — und dann nie wieder. Production-Druck frisst Refactoring zu rund 90 % auf, wenn es keinen eigenen Slot hat. Korrekt: dedizierter Hygiene-Sprint als fixe Cadence, nicht als Backlog-Card.
- Kein Index, kein Refactoring-Budget: Ohne quantifizierten Index ist AI-Tech-Debt für die Geschäftsführung unsichtbar. Korrekt: Index-Score als KPI im Monthly-Engineering-Review, neben Feature-Velocity und Incident-Rate.
- Kein dedizierter Sprint: "Refactoren wir nebenher" funktioniert nicht — Senior-Engineer-Stunden sind teurer als jeder Hygiene-Sprint-Tag. Korrekt: festes Datum im Kalender, gleiche Person jeden Monat als Owner.
Default-Hygiene-Stack 2026
Sechs nicht-verhandelbare Bausteine:
- Prompt-Versionierung: Prompts als versionierte Files in Git (
prompts/v3/chat_agent.md), Loader im Code, keine Inline-Strings über 20 Zeilen. - Modell-Pinning: 100 % explizit datierte Modelle in Production, Aliase nur in Dev, Static-Analyse-Check im CI.
- Eval-Set-Maintenance: In Git versioniert, mindestens 300 Cases pro Use-Case, monatlicher Add von 5–10 Production-Edge-Cases, Quarterly-Refresh-Sprint Pflicht.
- Tool-Description-Review: Quarterly-Audit aller Schemas, Examples und Edge-Case-Hints in der Description, Owner Tech-Lead AI.
- Embedding-Refresh: Vector-Store-Embedding-Version gepinnt, Re-Embedding bei Provider-Version-Wechsel mandatorisch, parallele A/B-Phase 14 Tage.
- Cost-Monitoring: Cost-per-Request-Telemetrie, Anomaly-Alert bei +1,5σ, Reasoning-Budget-Cap pro Use-Case, monatlicher Cost-Review mit Tech-Lead AI plus CFO.
Praxis-Schritt: Ein AI Readiness Audit klärt, auf welchem AI-Tech-Debt-Index Ihre Production-Systeme stehen — inklusive Hygiene-Sprint-Schema, Index-Dashboard-Template und 12-Monats-Refactor-Roadmap. Audit anfragen → /anfrage
Stand Mai 2026. AI-Engineering- und Tech-Debt-Beratung für DACH-Mittelstand mit Schwerpunkt MedTech, Maschinen- und Anlagenbau, Familienunternehmen — eigene BAFA-/go-digital-Akkreditierung in Vorbereitung Q3 2026, Förder-Pfade aktuell in Kooperation mit akkreditierten Partner-Beratungen.
Nächster Schritt
Passt das auf Ihren Fall?
30-Min-Erstgespräch, kostenfrei und unverbindlich. Wir gehen Ihren konkreten Fall durch — und sagen ehrlich, wenn nichts passt.
