KI-Wirtschaftlichkeit ehrlich messen: Was die Lotung dem Mittelstand über den ROI verrät

TL;DR: Die runde Prozentzahl auf der Vorstandsfolie — „300 % ROI", „achtzig Prozent automatisiert" — ist fast nie gemessen. Sie ist geschätzt, gerundet und ins Board-Layout gepresst. Wer KI mit den Werkzeugen einer klassischen Maschineninvestition bewertet, misst das Falsche, scheingenau, und blendet die teure Hälfte aus. Dieser Artikel eröffnet einen eigenen Themenstrang: nicht welcher Use-Case und nicht bauen oder kaufen — sondern die Frage danach. Zahlt sich das aus, und woran erkenne ich das ehrlich? Die kurze Antwort: an gesparter stumpfer Zeit, an Durchlaufzeit und Fehlerquote — nicht an einer erfundenen Euro-Zahl. Und am Portfolio, nicht am Einzelprojekt.

Die These: Hype-ROI ist Selbstbetrug

Ein Lotse, der eine fremde Untiefe befährt, vertraut nicht der Tiefenzahl, die auf der Seekarte gedruckt steht. Er wirft das Lot — eine Leine mit Gewicht — über Bord und liest ab, wie tief das Wasser an dieser Stelle, zu dieser Stunde wirklich ist. Die gedruckte Zahl ist bequem. Sie ist auch das, was ihn auf Grund laufen lässt.

Genau dieser Unterschied trennt ehrliche KI-Wirtschaftlichkeit vom Hype-ROI. Die Plakatzahl auf der Folie ist die gedruckte Tiefenangabe: glatt, überzeugend, gerendert — und ohne Bezug zu dem Grund, über dem Ihr Projekt tatsächlich schwimmt. Eine ehrliche qualitative Messung ist das Lot: weniger elegant, von Hand, Stelle für Stelle — aber sie sagt Ihnen die Wahrheit über das, was unter der Oberfläche liegt. Und unter der Oberfläche liegt bei KI das meiste.

Niemand lügt, wenn die 300-%-Folie entsteht. Man hat nur eine Zahl gebraucht, die ins Board passt, und sie aus zwei Annahmen und einem Bauchgefühl destilliert. Der Reflex ist verständlich — und er ist das Problem. Eine ehrlich-qualitative Aussage schlägt eine präzise-falsche jederzeit, auch im Controlling.

Warum die naive ROI-Rechnung an KI scheitert

Klassischer ROI ist eine saubere Division: Ertrag durch Einsatz. Das funktioniert, wenn beide Größen stabil und ablesbar sind. Bei KI ist keine von beiden stabil — und die naive Formel irrt auf beiden Seiten zugleich.

Auf der Ertragsseite verführt das System zu Vanity-Metriken. „12.000 Anfragen automatisch beantwortet" klingt nach Erfolg — sagt aber nichts darüber, ob die Antworten richtig waren, ob jemand sie nachprüfen musste oder ob die Anfragen ohne das System gar nicht erst entstanden wären. Eine Zahl, die immer nur nach oben zeigt, misst Aktivität, nicht Wirkung. Sie ist die Oberfläche des Wassers: Sie sieht über tiefem wie über flachem Grund gleich aus. Wer nur auf sie schaut, weiß nie, wie viel Wasser ihn trägt.

Auf der Einsatzseite hört die naive Rechnung bei der Lizenzgebühr auf. Die steht im Vertrag, ist sichtbar und leicht in die Folie zu tippen. Aber sie ist nur die Tiefe direkt unter dem Kiel — der kleinste Teil dessen, was wirklich zählt. Was Sie tatsächlich zahlen, liegt darunter, im Betrieb, lange nach der Folie.

Die versteckten Kosten: was unter der Oberfläche liegt

Diese Kosten sind nicht versteckt, weil jemand sie verbirgt. Sie sind versteckt, weil sie erst im Dauerbetrieb auftauchen — dort, wohin keine Demo das Lot wirft:

Betrieb und Wartung. Modelle, Schnittstellen, Datenpipelines altern. Was heute läuft, kippt beim nächsten Anbieter-Update. Das ist die Betriebslücke, die wir am Produktionsbeispiel beschrieben haben — der Pilot funktioniert, der Dauerbetrieb kostet.
Menschliche Aufsicht. Jede KI-Ausgabe, auf die Geld oder Haftung folgt, braucht eine prüfende Hand. Diese Prüfzeit ist real und gehört auf die Kostenseite — sonst rechnen Sie eine Ersparnis, die Sie durch Kontrolle wieder ausgeben.
Einarbeitung und Datenpflege. Gute Ergebnisse brauchen gepflegte Daten. Wer sie sauber hält, arbeitet — dauerhaft.
Lock-in. Je tiefer ein Anbieter verdrahtet ist, desto teurer der Ausstieg. Das ist die Kehrseite der Reversibilität aus der Build-vs-Buy-Frage: bequem heute, teuer beim Wechsel.
Fehlerkosten. Ein selbstbewusst falsches Ergebnis, das ungeprüft durchrutscht, kann mehr kosten, als das ganze System spart.

Wer beim Vergleich von Build, Buy und Compose nur den Anschaffungspreis ansieht, lotet nie bis zum Grund. Eine ehrliche Wert-Gleichung stellt diese Posten neben den Nutzen — nicht darunter, wo man sie überblättert.

Das Tiefenlot — was unter der Plakatzahl liegt

An der Oberfläche die glatte Plakatzahl. Das Lot sinkt daran vorbei und passiert die Schichten, die jede naive Rechnung überblättert — Betrieb, Aufsicht, Datenpflege, Lock-in, Fehler. Der echte Netto-Wert liegt tief unten, weit unter dem, was die Oberfläche versprach.

Der ehrliche Wert-Maßstab: messen, was man beobachten kann

Wenn die Euro-Zahl scheingenau ist — was lotet man dann? Etwas, das man tatsächlich ablesen kann, pro Use-Case, an einem klaren Vorher/Nachher. Vier qualitative Maße tragen weit:

Gesparte stumpfe Zeit — die Stunden, die vorher in Copy-Paste, Nachschlagen und Formatieren versickert sind. Nicht „Köpfe eingespart". Stumpfe Zeit ist die ehrlichste Währung: Sie wird frei für Arbeit, die nur Menschen können.
Durchlaufzeit — vom Eingang bis zum fertigen Ergebnis. Wird der Vorgang schneller, ohne dass die Qualität fällt?
Fehlerquote und der Anteil ohne manuelle Korrektur — wie viel geht ohne nachträgliches Eingreifen durch? Diese Quote ist der härteste, ehrlichste Indikator, denn sie enthält die Aufsichtskosten gleich mit.
Spürbare Entlastung — verschwindet die Arbeit, die niemand vermisst? Weil sich das weich anfühlt, koppeln Sie es an einen beobachtbaren Proxy: Überstunden in dem Vorgang, die Zahl der Rückfragen, der Krankenstand in der betroffenen Rolle. Bewegt sich der Proxy, ist die Entlastung echt; bewegt er sich nicht, war sie ein Gefühl.

Damit diese Maße etwas wert sind, brauchen sie einen Nullpunkt. Erheben Sie das Vorher bevor das System live geht — stoppen Sie eine Woche lang den Ist-Zustand des Vorgangs (Durchlaufzeit, Korrekturanteil, Stunden), schwarz auf weiß. Ohne diese eine Woche Baseline misst man später gegen eine Erinnerung, und Erinnerungen schmeicheln dem Projekt.

Ein Lot misst in Metern, nicht im Wert der Ladung. Genau so misst der ehrliche Maßstab in Zeit, Tempo und Fehlern — in physischen, ablesbaren Einheiten, nicht in einer Geldzahl, die nur Genauigkeit vortäuscht. Das knüpft direkt an die Erfolgsmetrik aus der Use-Case-Auswahl an: ein Maß, bevor man startet, festgelegt — und ehrlich qualitativ gehalten.

Zeit vor Geld

In den ersten Wochen ist jede Euro-Angabe Theater. Eine junge Anwendung in eine scheingenaue Geldzahl zu pressen, erzeugt nur falsche Sicherheit — eine gedruckte Tiefe, der niemand vertrauen sollte. Beschreiben Sie stattdessen Richtung statt Endwert: Gehen Durchlaufzeit und Korrekturanteil dorthin, wo Sie sie haben wollen, und tut die Anwendung das verlässlich?

Das ist keine Weichheit, das ist Redlichkeit. Die Euro-Brille setzen Sie auf, wenn der Effekt stabil ist — wenn Sie an derselben Stelle mehrfach gelotet haben und immer denselben Grund finden. Vorher misst die Zeit, nicht das Geld.

Der Fall, der sich nicht auszahlt — ehrlich zugelassen

Hier liegt der eigentliche Wert ehrlicher Messung: Sie darf auch Nein sagen. Manche KI-Projekte tragen sich nicht — die versteckten Kosten fressen die gesparte Zeit, die Korrekturquote bleibt zu niedrig, der Aufwand wandert nur von einer Schulter auf die andere. Das ist kein Scheitern der Messung. Das ist das Ergebnis. Ein Lot, das auf Fels stößt, bevor der Kiel Wasser unter sich hat, hat Sie nicht im Stich gelassen — es hat Sie vor dem Auflaufen bewahrt.

Dafür gibt es das Go/No-Go-Gate aus dem Sechs-Wochen-Piloten: ein vorab vereinbarter Punkt, an dem man abschaltet, ohne sich rechtfertigen zu müssen. Ein Gate, aus dem am Ende nur „Erfolg" herauskommen kann, ist kein Gate, sondern eine Rechtfertigungsmaschine. Wer den Ausstieg nicht einplant, rechnet sich jeden Piloten schön — und das ist teurer als jedes ehrliche Nein. Ein früh gestopptes Projekt ist gemessener Wert, nicht verlorener.

Compounding: das Fahrwasser, nicht die einzelne Lotung

Die Wirtschaftlichkeit von KI entscheidet sich selten am ersten Projekt. Kein Lotse vertraut einer einzelnen Lotung; er trägt viele Soundings zu einer Karte des ganzen Fahrwassers zusammen, und jede Messung macht die nächste Passage sicherer. ROI ist eine Portfolio-Größe, keine Projekt-Größe.

Ein kleiner, sauber gemessener Sieg senkt die Kosten des nächsten: dieselbe Datenpflege, dieselbe Aufsichtsroutine, dasselbe gelernte Vertrauen. Bewerten Sie deshalb die Kultur über mehrere Versuche, nicht die einzelne Folie. Drei ehrliche Anläufe, von denen einer trägt, einer abgeschaltet wird und einer den Weg für den vierten ebnet — das ist eine gesunde Bilanz. Genau diese Reihenfolge zeichnet die Adoptions-Landkarte nach: erst tragfähige kleine Erfolge, dann der nächste Schritt. Eine einzelne 300-%-Zahl ist dagegen nur eine besonders glatte gedruckte Tiefe.

Das Fahrwasser — ROI ist eine Portfolio-Größe

Kein Lotse vertraut einer einzelnen Lotung. Erst viele Soundings ergeben die sichere Fahrrinne: die tragfähigen Projekte verbinden sich zum Kurs, die Untiefe bleibt sichtbar und wird umfahren, der neue Punkt verlängert den Weg nach vorn. Eine Lotung ist Glück, eine Karte ist Wirtschaftlichkeit.

Die Pointe

Ehrlich gemessen heißt: Sie wissen, wann KI sich auszahlt — und wann nicht. Das ist kein Misstrauen gegen die Technologie, sondern die Voraussetzung dafür, ihr beim nächsten Mal mehr anzuvertrauen. Es ist auch europäische Gründlichkeit als Wettbewerbsvorteil: Wer lotet, statt die gedruckte Zahl zu glauben, baut auf Grund — nicht auf Oberfläche. Dem Board legt man am Ende nicht die Plakatzahl vor, sondern drei Dinge: die *eine* Erfolgsmetrik je Use-Case mit ihrem Vorher/Nachher, die *vollständige* Kostenseite inklusive Betrieb und Aufsicht, und das Go/No-Go-Gate, das auch ein Nein zulässt. Ein Board, dem man die Fehlschläge offen zeigt, glaubt den Erfolgen.

Wohin von hier: Wie wir Wert mit unseren Kunden messen, statt ihn zu behaupten, zeigt der azena-Weg. Wenn Sie diese Rechnung für einen konkreten Vorgang ehrlich aufstellen wollen — von der Use-Case-Wahl über die Build-vs-Buy-Entscheidung bis zum Sechs-Wochen-Piloten mit hartem Go/No-Go —, ist das der Kern unserer KI-Beratung für den Mittelstand. Ehrliche Wirtschaftlichkeit ist keine größere Zahl. Sie ist eine, die trägt.

Teil der [Wirtschaftlichkeits-Landkarte](/blog/ki-wirtschaftlichkeit-mittelstand-landkarte): die vier Geld-Fragen — lohnt es sich, woran messe ich Erfolg, was kostet es wirklich, bauen oder kaufen — als ein zusammenhängendes Hauptbuch.

Baybora Gülec· Gründer, Azena

Nächster Schritt

Passt das auf Ihren Fall?

30-Min-Erstgespräch, kostenfrei und unverbindlich. Wir gehen Ihren konkreten Fall durch — und sagen ehrlich, wenn nichts passt.

Erstgespräch buchen

Teilen LinkedIn Per E-Mail