Warum die meisten KI-Piloten im Mittelstand nie in Produktion gehen

TL;DR

Es ist fast nie die Technik. MIT (2025): ~95 % der GenAI-Piloten ohne messbaren P&L-Effekt. Die Lücke liegt im Betrieb und in der Organisation, nicht im Modell.
Drei stille Killer: kein Owner (nur ein Sponsor), ein Budget, das den Piloten zahlt aber nie den Betrieb, und kuratierte Sandkasten-Daten, die es im Echtbetrieb so nicht gibt.
Der Mensch entscheidet. Der Pilot stirbt in der Stunde nach dem Demo — wenn die skeptische Sachbearbeiterin für jeden KI-Fehler geradesteht, aber für keinen KI-Erfolg gelobt wird.
Die Gewinner bauen langweilig: ein enger Use-Case, ein Owner mit Namen, Mensch im Lenkrad, harte Eval-Gates. Das unbeeindruckende System ist das einzige, das in sechs Monaten noch läuft.

Die eine These

Der Pilot ist nicht der erste Schritt zur Produktion. Er ist meistens der letzte.

Das klingt zynisch, ist aber die nüchterne Statistik. IDC rechnet vor: von 33 Proof-of-Concepts gehen vier live — eine Versickerungsquote von 88 %. Der Anteil der Firmen, die die Mehrheit ihrer KI-Initiativen wieder einstampfen, sprang laut S&P Global von 17 % (2024) auf 42 % (2025). Ein Pilot, der gefeiert wird, ist kein Versprechen auf Betrieb — er ist meistens eine Vorführung, die nie zu Ende gedacht wurde.

Wer das verstehen will, muss aufhören, das Modell anzuschauen. Das Modell ist 2026 Massenware. Knapp ist alles andere.

Das Missverständnis: "das Modell ist zu dumm"

MITs GenAI Divide-Report ist diese Saison überall zitiert — und fast überall falsch gelesen. Die populäre Erzählung: Die KI sei noch nicht reif genug. Das steht da nicht. MIT verortet die Lücke explizit im Learning Gap — Tools, die nichts über die Organisation lernen, und Organisationen, die den Betrieb nie ernsthaft aufsetzen.

Der Denkfehler hat eine bequeme Funktion: Wenn das Modell schuld ist, muss niemand die eigene Hausaufgabe ansehen. Man wartet auf das nächste, klügere Modell — und der Pilot bleibt im Sandkasten liegen, sauber, eingefroren, folgenlos.

Die unbequeme Wahrheit: Ein Pilot misst die beste Antwort. Produktion misst die schlechteste. Beide Zahlen liegen weit auseinander, und nur die zweite zählt am Montagmorgen.

Drei Brüche, die jeder Pilot übersieht

Im Mittelstand wiederholen sich dieselben drei Konstruktionsfehler — und alle drei sind organisatorisch, nicht technisch.

1. Kein Owner, nur ein Sponsor. Der Pilot wird vom Innovationsbeauftragten oder einer Stabsstelle bestellt — nicht von der Fachabteilung, die täglich mit dem Prozess lebt. Wer ein Experiment bestellt, betreibt es nicht. Ein Pilot ohne operativen Eigentümer ist per Konstruktion ein Schubladen-Projekt.

2. Der Budget-Bruch. Innovationsbudget zahlt den Piloten. Den Betrieb — Monitoring, Wartung, Datenpflege, die zweite Reihe — zahlt niemand, weil es im Investitionsplan keine Zeile dafür gibt. McKinsey beobachtet: zwei Drittel hängen dauerhaft im Pilot-Modus. Der Tod liegt nicht im Scheitern, sondern im Nicht-Entscheiden.

3. Die Daten-Lüge des Sandkastens. Rund drei Viertel der KMU kämpfen mit Datenqualität. Der Pilot lief auf einem handverlesenen Export — vollständig, gepflegt, eingefroren. Produktion heißt: drei Altsysteme, Excel-Inseln, Felder, die „mal so, mal so" befüllt werden. Das Modell war nie das Risiko. Die Pipeline dorthin war es.

Die Betriebs-Lücke: was zwischen Demo und Dienstag liegt

Ein Pilot läuft auf kuratierten Beispielen, in der Demo, mit dem Entwickler daneben. Produktion ist das Gegenteil: messige Eingaben, Lastspitzen, das hässliche PDF aus dem ERP von 2009 — um 3 Uhr nachts, ohne Aufsicht. Genau diese Schicht überspringt fast jeder Pilot. Sie besteht aus fünf langweiligen Teilen.

Ketten-Zuverlässigkeit. 85 % Genauigkeit pro Schritt klingt exzellent. Über zehn verkettete Schritte sind es noch rund 20 %. Jeder fünfte Vorgang kippt — und niemand hat das im Piloten gerechnet:

Die Mathematik hinter dem Scheitern

85 % Erfolg pro Schritt klingt nach einer guten Note. Aber ein Agent macht selten nur einen Schritt. Über zehn Schritte multipliziert sich der Fehler — und die Kette gelingt nur noch in rund 20 % der Fälle. Deshalb scheitert die Produktion, wo die Demo glänzte: nicht am einzelnen Schritt, sondern an seiner Verkettung.

Evals und Monitoring. Im Piloten heißt QA „sieht gut aus". In Produktion brauchst du eine Testsuite über echte Fälle — Anthropic nennt Evals zurecht die erste Verteidigungslinie in der CI — plus Drift-Erkennung danach. Ohne Eval-Suite weißt du nach dem nächsten Modell-Update nicht, ob du besser oder schlechter geworden bist. Mehr dazu in KI-Agenten in Produktion: warum Evals der Unterschied sind.

Fehler-Recovery. Was passiert, wenn die Schnittstelle 500 wirft oder das Modell halluziniert? Ein Profi-System hat Fallback, Retry, Human-in-the-Loop. Ein Pilot hat einen Stacktrace.

Integration in den Bestand. Die Antwort muss zurück in DATEV, ins ERP, in den Mailflow — nicht in eine Chat-Box. Genau hier sterben die meisten.

Security und Zugriffe. Welche Rechte hat der Agent, wer sieht welche Daten? Kein Pilot-Thema — aber ein Show-Stopper im Review.

Die skeptische Sachbearbeiterin

Der Demo funktioniert, weil der Geschäftsführer daneben sitzt und der eine begeisterte Kollege es bedient. Produktion heißt: die Sachbearbeiterin in der Buchhaltung, die seit vierzehn Jahren ihren Weg kennt, nutzt das Tool, wenn keiner zuschaut — und merkt, dass sie für jeden KI-Fehler geradesteht, aber für jeden KI-Erfolg niemand sie lobt.

Das ist kein Technik-, das ist ein Anreiz- und Vertrauensproblem. Wer für die Kontrolle der KI-Ausgabe verantwortlich gemacht wird, ohne dafür Zeit oder Status zu bekommen, sabotiert leise. Und zwar rational. Der Pilot scheitert genau dort, wo er auf der Bühne als Erfolg galt.

Deutsche KMU-Erhebungen 2025 deuten in dieselbe Richtung: Eine breite Mehrheit hält KI für relevant, aber nur ein Bruchteil setzt produktiv um — und nur eine Minderheit hat überhaupt eine Change-Strategie (die Zahlen schwanken stark zwischen den Reports, also als Tendenz, nicht als Dezimalstelle lesen). Wer KI kauft und Change spart, kauft einen teuren Demo.

Was die wenigen anders machen

Die Gewinner behandeln den Piloten von Tag eins als Betrieb mit Trainingsrädern — nicht als Tech-Beweis. Vier Muster, und alle vier sind unspektakulär:

Ein enger Use-Case, nicht das Schweizer Taschenmesser. Eingehende Lieferantenrechnungen vorerfassen. Angebotstexte aus dem ERP ziehen. Eine Aufgabe, ein Datenformat, eine messbare Fehlerquote. Ein offenes „frag mich irgendwas" hat keine Definition von „funktioniert" — und damit keinen Grund, je fertig zu werden.
Ein Owner mit Namen. Nicht „die IT", nicht „wir alle" — eine Person mit dem Schmerz, die das Ding besitzt, misst und verantwortet. Am besten die, die das Problem nachts wachhält.
Mensch im Lenkrad, nicht im Rückspiegel. Die KI schlägt vor, ein Mensch bestätigt. Das schafft Vertrauen und liefert die Trainingssignale, die das System überhaupt besser machen. Und: Der alte Weg muss wegfallen — ein Tool neben dem alten Prozess stirbt.
Eingegrenzt statt frei. Die echten Wins liegen laut MIT im Back-Office: Belegprüfung, Support, Dokumente. Abgegrenzt, betreibbar, langweilig.

Genau das ist der azena-Weg: Substanz vor Demo, ein einziger Vorgang fertig gebaut statt zehn beeindruckender Vorführungen.

Die Pointe

Ein Pilot, der von Anfang an eng, besessen, überwacht und eingegrenzt ist, sieht auf der Demo weniger beeindruckend aus — und ist genau deshalb der einzige, der in sechs Monaten noch läuft. Nicht das klügste Modell gewinnt. Das langweiligste, das nie überrascht.

Innovationstheater produziert Demos. Boutique-Arbeit produziert Betrieb. Der Unterschied ist nie das Werkzeug. Es ist die Frage, ob jemand bereit war, den langweiligen Teil zu besitzen.

Hören Sie auf, KI zu demonstrieren. Bauen Sie einen einzigen Vorgang zu Ende. Was danach kommt — den Agenten im Betrieb wach halten, bevor er still falsch liegt — seziert KI-Observability: wenn der Agent leise lügt. Wenn Sie wissen wollen, welcher Vorgang das bei Ihnen wäre, sprechen Sie mit uns — oder lesen Sie, wie KI-Beratung für den Mittelstand bei uns konkret aussieht.

Baybora Gülec· Gründer, Azena

Nächster Schritt

Passt das auf Ihren Fall?

30-Min-Erstgespräch, kostenfrei und unverbindlich. Wir gehen Ihren konkreten Fall durch — und sagen ehrlich, wenn nichts passt.

Erstgespräch buchen

Teilen LinkedIn Per E-Mail