Alle Beiträge

Daten & RAG-Architektur

AI-Tech-Debt: versteckte Schuld-Klassen abtragen

AI-Systeme verschulden anders als Code, und klassische Tools sehen es nicht — so messen und tilgen Sie diese versteckten Lasten.

Baybora Gülec17. Mai 20269 Min.

TL;DR

  • AI-Tech-Debt ist 2026 ein eigenes Schuld-Genre. Sechs Klassen — Prompt-Sprawl, Modell-Pinning, Eval-Set-Verlust, Tool-Description, Vector-Drift, Cost-Drift — werden von klassischen Code-Debt-Tools nicht erkannt.
  • Monatlicher AI-Hygiene-Sprint (1 Tag/Monat) ist Pflicht-Cadence. Wer AI-Tech-Debt im normalen Backlog parkt, schiebt sie unter Production-Druck endlos vor sich her.
  • AI-Tech-Debt-Index 0–30 (6 Dimensionen × 0–5). Ohne Index keine Sichtbarkeit. Ohne Sichtbarkeit kein Refactoring-Budget bei der Geschäftsführung.

Sechs AI-Tech-Debt-Klassen

AI-Systeme akkumulieren eine eigene Form technischer Schuld — weder im SonarQube-Report noch im Coverage-Dashboard sichtbar. Typisches Muster aus DACH-Pilots: Qualität fällt binnen eines Quartals zweistellig, niemand weiß warum — Ursache sind fehlende Modell-Pins, ein Vector-Store auf alten Embeddings und ein ungepflegtes Eval-Set.

Exhibit AI-Tech-Debt-Index 2026 sechs Dimensionen Score 0 bis 5 Total 0 bis 30 Prompt-Sprawl Score 0 eine Prompt-Version pro Use-Case versioniert Score 5 mehr als 20 Versionen kein Owner Mess-Methode Grep-Count auf Prompt-Strings Modell-Pinning Score 0 100 Prozent explizit datierte Modelle Score 5 mehr als 50 Prozent auf latest oder Alias Mess-Methode Static-Analyse Provider-Calls Eval-Set-Maintenance Score 0 Update unter 30 Tage mindestens 300 Cases Score 5 Update ueber 180 Tage unter 50 Cases Mess-Methode Eval-Set-Git-Log plus Case-Count Tool-Description Score 0 100 Prozent reviewed in letzten 90 Tagen Score 5 unter 50 Prozent reviewed fehlende Examples Mess-Methode Tool-Schema-Audit Vector-Drift Score 0 Embedding-Version vertraglich gepinnt Score 5 Embeddings ueber 12 Monate unklare Provider-Version Mess-Methode Embedding-Metadata-Check Cost-Drift Score 0 Cost-per-Request stabil plus minus 10 Prozent ueber 3 Monate Score 5 Cost plus 30 Prozent pro Monat ungemonitort Mess-Methode Telemetrie-Trend-Analyse Score ueber 18 kritisch Score 10 bis 18 handlungsbeduerftig Score unter 10 handhabbar
Exhibit 2: AI-Tech-Debt-Index 6 Dimensionen × 0–5 = 0–30. Score >18 = Quarterly-Refactor-Sprint Pflicht. Score 10–18 = monatlicher Hygiene-Sprint hält stabil. Score <10 = handhabbar.
  • Prompt-Sprawl: Produktive Codebasen führen 10–30 Versionen desselben Prompts in verschiedenen Pfaden. Niemand weiß, welche "richtig" ist; jedes Refactoring trifft nur eine Teilmenge. Wirkung: 8–18 % Qualitäts-Streuung über Pfade.
  • Modell-Pinning-Schuld: Code referenziert latest oder einen Alias statt datierter Modelle. Provider rollen still neue Versionen aus — silent quality regression über Nacht. Der gpt-4o-Rollover August 2024 zerstörte JSON-Mode-Compliance in rund 30 % produktiver RAG-Systeme.
  • Eval-Set-Verlust: Das Set existierte beim Build (300–500 gold-labeled Cases), aber niemand pflegt es. Nach 6–9 Monaten zeigt der Eval-Run 0,87 Precision, während Production ab Woche 12 Beschwerden produziert — das Set bildet die Realität nicht mehr ab.
  • Tool-Description-Debt: Tools mit veralteten Beschreibungen produzieren falsche Calls. Beobachtet: ein update_customer_record ohne Hinweis auf Vor-/Nachnamen-Trennung — Agent ruft mit "Anna Müller" als Vorname auf, 2 % aller Records korrupt.
  • Vector-Store-Drift: Embeddings auf einer Modell-Version, neue Queries auf einer still aktualisierten. Cosine-Distance verschiebt sich, Retrieval-Quality fällt um 6–14 Punkte — niemand korreliert mit dem Provider-Date.
  • Cost-Drift: Reasoning-Token-Verbrauch wächst um 30–60 % pro Monat ohne Use-Case-Wachstum, weil neue Prompts "mehr Denken" anfordern und niemand monitort. Der CFO erkennt es typisch erst bei der vierten Monatsrechnung — zu spät.

AI-Tech-Debt-Index

Sechs Dimensionen × Score 0–5 = Total 0–30. Über 18 = kritisch, 10–18 = handlungsbedürftig, unter 10 = handhabbar.

DimensionScore 0 (sauber)Score 5 (kritisch)Mess-Methode
Prompt-Sprawl1 Version pro Use-Case, versioniert>20 Versionen, kein OwnerGrep-Count Prompt-Strings
Modell-Pinning100 % datierte Modelle>50 % auf latest/AliasStatic-Analyse Provider-Calls
Eval-SetUpdate <30 Tage, ≥300 CasesUpdate >180 Tage, <50 CasesGit-Log + Case-Count
Tool-Description100 % reviewed letzte 90 Tage<50 % reviewedTool-Schema-Audit
Vector-DriftEmbedding-Version gepinnt>12 Monate, Version unklarEmbedding-Metadata-Check
Cost-DriftCost/Request stabil ±10 %+30 %/Monat ungemonitortTelemetrie-Trend

Faustregel: Score 18+ → dedizierter Quarterly-Refactor-Sprint Pflicht. Score 10–18 → monatlicher Hygiene-Sprint hält den Score stabil.

Hygiene-Sprint-Pattern

AI-Tech-Debt wird nur durch dedizierte Cadence abgetragen, niemals als "normales Backlog-Issue".

Pilot-Cockpit 90 Millionen Euro Stuttgarter B2B-SaaS-Mittelstaendler 4 produktive AI-Use-Cases AI-Tech-Debt-Reduktion ueber 6 Monate November 2025 bis April 2026 Sprint 1 November 25 Initial-Audit 18 Prompt-Versionen fuer Chat-Agent identifiziert Index 22 von 30 Sprint 2 Dezember 25 Prompt-Konsolidierung von 18 auf 4 Versionen 1 kanonische pro Tier Index 22 auf 19 Sprint 3 Januar 26 7 gpt-4o-Aliase auf gpt-4o-2024-11-20 gepinnt Index 19 auf 16 Sprint 4 Februar 26 Quarterly-Refactor Eval-Set von 80 auf 340 Cases erweitert Vector-Store re-embedded Index 16 auf 11 Sprint 5 Maerz 26 12 Tool-Descriptions reviewed plus Examples ergaenzt Index 11 auf 10 Sprint 6 April 26 Cost-Telemetrie mit Anomaly-Alerting Reasoning-Budget-Cap pro Use-Case Index 10 auf 9 Ergebnis Quality-Score Production plus 9 Punkte Reasoning-Cost minus 34 Prozent Incident-Rate minus 62 Prozent investiertes Engineering-Budget 11 Personentage ueber 6 Monate Bruchteil eines einzigen SLA-Bruchs
Exhibit 3: 6-Monats-Pilot SaaS — Index 22 → 9, Quality +9 Punkte, Reasoning-Cost −34 %, Incident-Rate −62 %. Investiert: 11 Personentage über 6 Monate. Monatliche Hygiene plus ein Quarterly-Refactor reichen.
  • Monthly (1 Tag/Monat): Festes Datum, etwa erster Freitag. Scope: Prompt-Konsolidierung, Tool-Description-Review, Eval-Set-Add neuer Production-Edge-Cases. Output: PR mit 5–15 Mikro-Refactorings ohne Feature-Druck.
  • Quarterly-Index-Update (½ Tag): Re-Score über alle sechs Dimensionen, Owner Tech-Lead AI plus Senior-Engineer. Output: Score-Trend, Vorschlag für Major-Refactor bei Score über 18.
  • Yearly-Major-Refactor (1 Sprint, 10 Werktage): Strukturelles Re-Architecting — Prompt-Library-Konsolidierung, Vector-Store-Re-Embedding, Modell-Versions-Sweep, Eval-Set-Komplett-Refresh. Output: Index-Reduktion typisch von 18+ auf unter 8.

In DACH-Pilots fällt der Index über sechs Monate aus dem kritischen Bereich auf einstellige Werte — bei zweistelligem Quality-Gewinn, deutlich gesunkenem Reasoning-Cost und reduzierter Incident-Rate, für einen Bruchteil des Aufwands eines einzigen SLA-Bruchs.

Anti-Patterns

  • Tech-Debt als Backlog-Issue: "Nehmen wir ins nächste Planning auf" — und dann nie wieder. Production-Druck frisst Refactoring zu rund 90 % auf, wenn es keinen eigenen Slot hat. Korrekt: dedizierter Hygiene-Sprint als fixe Cadence, nicht als Backlog-Card.
  • Kein Index, kein Refactoring-Budget: Ohne quantifizierten Index ist AI-Tech-Debt für die Geschäftsführung unsichtbar. Korrekt: Index-Score als KPI im Monthly-Engineering-Review, neben Feature-Velocity und Incident-Rate.
  • Kein dedizierter Sprint: "Refactoren wir nebenher" funktioniert nicht — Senior-Engineer-Stunden sind teurer als jeder Hygiene-Sprint-Tag. Korrekt: festes Datum im Kalender, gleiche Person jeden Monat als Owner.

Default-Hygiene-Stack 2026

Sechs nicht-verhandelbare Bausteine:

  • Prompt-Versionierung: Prompts als versionierte Files in Git (prompts/v3/chat_agent.md), Loader im Code, keine Inline-Strings über 20 Zeilen.
  • Modell-Pinning: 100 % explizit datierte Modelle in Production, Aliase nur in Dev, Static-Analyse-Check im CI.
  • Eval-Set-Maintenance: In Git versioniert, mindestens 300 Cases pro Use-Case, monatlicher Add von 5–10 Production-Edge-Cases, Quarterly-Refresh-Sprint Pflicht.
  • Tool-Description-Review: Quarterly-Audit aller Schemas, Examples und Edge-Case-Hints in der Description, Owner Tech-Lead AI.
  • Embedding-Refresh: Vector-Store-Embedding-Version gepinnt, Re-Embedding bei Provider-Version-Wechsel mandatorisch, parallele A/B-Phase 14 Tage.
  • Cost-Monitoring: Cost-per-Request-Telemetrie, Anomaly-Alert bei +1,5σ, Reasoning-Budget-Cap pro Use-Case, monatlicher Cost-Review mit Tech-Lead AI plus CFO.

Praxis-Schritt: Ein AI Readiness Audit klärt, auf welchem AI-Tech-Debt-Index Ihre Production-Systeme stehen — inklusive Hygiene-Sprint-Schema, Index-Dashboard-Template und 12-Monats-Refactor-Roadmap. Audit anfragen → /anfrage

Stand Mai 2026. AI-Engineering- und Tech-Debt-Beratung für DACH-Mittelstand mit Schwerpunkt MedTech, Maschinen- und Anlagenbau, Familienunternehmen — eigene BAFA-/go-digital-Akkreditierung in Vorbereitung Q3 2026, Förder-Pfade aktuell in Kooperation mit akkreditierten Partner-Beratungen.

Baybora Gülec· Gründer, Azena

Nächster Schritt

Passt das auf Ihren Fall?

30-Min-Erstgespräch, kostenfrei und unverbindlich. Wir gehen Ihren konkreten Fall durch — und sagen ehrlich, wenn nichts passt.

Teilen LinkedIn Per E-Mail