AI-Tech-Debt: versteckte Schuld-Klassen abtragen

TL;DR

AI-Tech-Debt ist 2026 ein eigenes Schuld-Genre. Sechs Klassen — Prompt-Sprawl, Modell-Pinning, Eval-Set-Verlust, Tool-Description, Vector-Drift, Cost-Drift — werden von klassischen Code-Debt-Tools nicht erkannt.
Monatlicher AI-Hygiene-Sprint (1 Tag/Monat) ist Pflicht-Cadence. Wer AI-Tech-Debt im normalen Backlog parkt, schiebt sie unter Production-Druck endlos vor sich her.
AI-Tech-Debt-Index 0–30 (6 Dimensionen × 0–5). Ohne Index keine Sichtbarkeit. Ohne Sichtbarkeit kein Refactoring-Budget bei der Geschäftsführung.

Sechs AI-Tech-Debt-Klassen

AI-Systeme akkumulieren eine eigene Form technischer Schuld — weder im SonarQube-Report noch im Coverage-Dashboard sichtbar. Typisches Muster aus DACH-Pilots: Qualität fällt binnen eines Quartals zweistellig, niemand weiß warum — Ursache sind fehlende Modell-Pins, ein Vector-Store auf alten Embeddings und ein ungepflegtes Eval-Set.

Prompt-Sprawl: Produktive Codebasen führen 10–30 Versionen desselben Prompts in verschiedenen Pfaden. Niemand weiß, welche "richtig" ist; jedes Refactoring trifft nur eine Teilmenge. Wirkung: 8–18 % Qualitäts-Streuung über Pfade.
Modell-Pinning-Schuld: Code referenziert latest oder einen Alias statt datierter Modelle. Provider rollen still neue Versionen aus — silent quality regression über Nacht. Der gpt-4o-Rollover August 2024 zerstörte JSON-Mode-Compliance in rund 30 % produktiver RAG-Systeme.
Eval-Set-Verlust: Das Set existierte beim Build (300–500 gold-labeled Cases), aber niemand pflegt es. Nach 6–9 Monaten zeigt der Eval-Run 0,87 Precision, während Production ab Woche 12 Beschwerden produziert — das Set bildet die Realität nicht mehr ab.
Tool-Description-Debt: Tools mit veralteten Beschreibungen produzieren falsche Calls. Beobachtet: ein update_customer_record ohne Hinweis auf Vor-/Nachnamen-Trennung — Agent ruft mit "Anna Müller" als Vorname auf, 2 % aller Records korrupt.
Vector-Store-Drift: Embeddings auf einer Modell-Version, neue Queries auf einer still aktualisierten. Cosine-Distance verschiebt sich, Retrieval-Quality fällt um 6–14 Punkte — niemand korreliert mit dem Provider-Date.
Cost-Drift: Reasoning-Token-Verbrauch wächst um 30–60 % pro Monat ohne Use-Case-Wachstum, weil neue Prompts "mehr Denken" anfordern und niemand monitort. Der CFO erkennt es typisch erst bei der vierten Monatsrechnung — zu spät.

AI-Tech-Debt-Index

Sechs Dimensionen × Score 0–5 = Total 0–30. Über 18 = kritisch, 10–18 = handlungsbedürftig, unter 10 = handhabbar.

Dimension	Score 0 (sauber)	Score 5 (kritisch)	Mess-Methode
Prompt-Sprawl	1 Version pro Use-Case, versioniert	>20 Versionen, kein Owner	Grep-Count Prompt-Strings
Modell-Pinning	100 % datierte Modelle	>50 % auf `latest`/Alias	Static-Analyse Provider-Calls
Eval-Set	Update <30 Tage, ≥300 Cases	Update >180 Tage, <50 Cases	Git-Log + Case-Count
Tool-Description	100 % reviewed letzte 90 Tage	<50 % reviewed	Tool-Schema-Audit
Vector-Drift	Embedding-Version gepinnt	>12 Monate, Version unklar	Embedding-Metadata-Check
Cost-Drift	Cost/Request stabil ±10 %	+30 %/Monat ungemonitort	Telemetrie-Trend

Faustregel: Score 18+ → dedizierter Quarterly-Refactor-Sprint Pflicht. Score 10–18 → monatlicher Hygiene-Sprint hält den Score stabil.

Hygiene-Sprint-Pattern

AI-Tech-Debt wird nur durch dedizierte Cadence abgetragen, niemals als "normales Backlog-Issue".

Pilot-Cockpit 90 Millionen Euro Stuttgarter B2B-SaaS-Mittelstaendler 4 produktive AI-Use-Cases AI-Tech-Debt-Reduktion ueber 6 Monate November 2025 bis April 2026 Sprint 1 November 25 Initial-Audit 18 Prompt-Versionen fuer Chat-Agent identifiziert Index 22 von 30 Sprint 2 Dezember 25 Prompt-Konsolidierung von 18 auf 4 Versionen 1 kanonische pro Tier Index 22 auf 19 Sprint 3 Januar 26 7 gpt-4o-Aliase auf gpt-4o-2024-11-20 gepinnt Index 19 auf 16 Sprint 4 Februar 26 Quarterly-Refactor Eval-Set von 80 auf 340 Cases erweitert Vector-Store re-embedded Index 16 auf 11 Sprint 5 Maerz 26 12 Tool-Descriptions reviewed plus Examples ergaenzt Index 11 auf 10 Sprint 6 April 26 Cost-Telemetrie mit Anomaly-Alerting Reasoning-Budget-Cap pro Use-Case Index 10 auf 9 Ergebnis Quality-Score Production plus 9 Punkte Reasoning-Cost minus 34 Prozent Incident-Rate minus 62 Prozent investiertes Engineering-Budget 11 Personentage ueber 6 Monate Bruchteil eines einzigen SLA-Bruchs — Exhibit 3: 6-Monats-Pilot SaaS — Index 22 → 9, Quality +9 Punkte, Reasoning-Cost −34 %, Incident-Rate −62 %. Investiert: 11 Personentage über 6 Monate. Monatliche Hygiene plus ein Quarterly-Refactor reichen.

Monthly (1 Tag/Monat): Festes Datum, etwa erster Freitag. Scope: Prompt-Konsolidierung, Tool-Description-Review, Eval-Set-Add neuer Production-Edge-Cases. Output: PR mit 5–15 Mikro-Refactorings ohne Feature-Druck.
Quarterly-Index-Update (½ Tag): Re-Score über alle sechs Dimensionen, Owner Tech-Lead AI plus Senior-Engineer. Output: Score-Trend, Vorschlag für Major-Refactor bei Score über 18.
Yearly-Major-Refactor (1 Sprint, 10 Werktage): Strukturelles Re-Architecting — Prompt-Library-Konsolidierung, Vector-Store-Re-Embedding, Modell-Versions-Sweep, Eval-Set-Komplett-Refresh. Output: Index-Reduktion typisch von 18+ auf unter 8.

In DACH-Pilots fällt der Index über sechs Monate aus dem kritischen Bereich auf einstellige Werte — bei zweistelligem Quality-Gewinn, deutlich gesunkenem Reasoning-Cost und reduzierter Incident-Rate, für einen Bruchteil des Aufwands eines einzigen SLA-Bruchs.

Anti-Patterns

Tech-Debt als Backlog-Issue: "Nehmen wir ins nächste Planning auf" — und dann nie wieder. Production-Druck frisst Refactoring zu rund 90 % auf, wenn es keinen eigenen Slot hat. Korrekt: dedizierter Hygiene-Sprint als fixe Cadence, nicht als Backlog-Card.
Kein Index, kein Refactoring-Budget: Ohne quantifizierten Index ist AI-Tech-Debt für die Geschäftsführung unsichtbar. Korrekt: Index-Score als KPI im Monthly-Engineering-Review, neben Feature-Velocity und Incident-Rate.
Kein dedizierter Sprint: "Refactoren wir nebenher" funktioniert nicht — Senior-Engineer-Stunden sind teurer als jeder Hygiene-Sprint-Tag. Korrekt: festes Datum im Kalender, gleiche Person jeden Monat als Owner.

Default-Hygiene-Stack 2026

Sechs nicht-verhandelbare Bausteine:

Prompt-Versionierung: Prompts als versionierte Files in Git (prompts/v3/chat_agent.md), Loader im Code, keine Inline-Strings über 20 Zeilen.
Modell-Pinning: 100 % explizit datierte Modelle in Production, Aliase nur in Dev, Static-Analyse-Check im CI.
Eval-Set-Maintenance: In Git versioniert, mindestens 300 Cases pro Use-Case, monatlicher Add von 5–10 Production-Edge-Cases, Quarterly-Refresh-Sprint Pflicht.
Tool-Description-Review: Quarterly-Audit aller Schemas, Examples und Edge-Case-Hints in der Description, Owner Tech-Lead AI.
Embedding-Refresh: Vector-Store-Embedding-Version gepinnt, Re-Embedding bei Provider-Version-Wechsel mandatorisch, parallele A/B-Phase 14 Tage.
Cost-Monitoring: Cost-per-Request-Telemetrie, Anomaly-Alert bei +1,5σ, Reasoning-Budget-Cap pro Use-Case, monatlicher Cost-Review mit Tech-Lead AI plus CFO.

Praxis-Schritt: Ein AI Readiness Audit klärt, auf welchem AI-Tech-Debt-Index Ihre Production-Systeme stehen — inklusive Hygiene-Sprint-Schema, Index-Dashboard-Template und 12-Monats-Refactor-Roadmap. Audit anfragen → /anfrage

Stand Mai 2026. AI-Engineering- und Tech-Debt-Beratung für DACH-Mittelstand mit Schwerpunkt MedTech, Maschinen- und Anlagenbau, Familienunternehmen — eigene BAFA-/go-digital-Akkreditierung in Vorbereitung Q3 2026, Förder-Pfade aktuell in Kooperation mit akkreditierten Partner-Beratungen.

Baybora Gülec· Gründer, Azena

Nächster Schritt

Passt das auf Ihren Fall?

30-Min-Erstgespräch, kostenfrei und unverbindlich. Wir gehen Ihren konkreten Fall durch — und sagen ehrlich, wenn nichts passt.

Erstgespräch buchen

Teilen LinkedIn Per E-Mail