TL;DR
- Vier Komponenten tragen produktive Demand-Forecasts 2026: Baseline-Time-Series, Outlier-Detection mit LLM-Reasoning, Promotion-Impact-Modellierung und Cross-SKU-Substitution. Zusammen heben sie die Accuracy auf 65–80 % als Mittelstands-Standard.
- 10–25 % Inventar-Reduktion bei gleichem Service-Level und 15–30 % weniger Stockouts sind in 9–12 Monaten reproduzierbar und befreien dauerhaft Working-Capital.
- Human-in-the-Loop bei Out-of-Distribution-Events ist Pflicht: Pandemie, Lieferketten-Krise, neue Konkurrenz werden unsicher klassifiziert und brauchen eine Planner-Entscheidung.
Vier Demand-Forecast-Komponenten
Demand-Forecast ist 2026 ein Sweet-Spot: strukturierte Zeitreihen plus narrativer Reasoning-Layer passen zu modernen Tooling-Stacks. Vier Komponenten dominieren — keine ist optional, keine ersetzt die andere.

- Baseline-Time-Series: Prophet, SARIMA oder Statsforecast liefern den Basis-Forecast mit Saison-, Trend- und Wochentags-Komponente und schlagen jedes LLM-only-Setup bei stabilen Sortimenten — 65–80 % Accuracy auf SKU-Wochen-Ebene, höher nur mit massivem Feature-Engineering und auch dann nur bis ~85 %.
- Outlier-Detection plus LLM-Reasoning: Statistische Ausreißer (Z-Score, Isolation-Forest) werden markiert, das LLM erklärt die Ursache mit Branchen-Kontext ("SKU-Spitze KW 14 vermutlich Oster-Effekt plus Wettbewerber-Stockout"). Der Wert liegt in der Hypothesen-Generation: Der Planner liest in 90 Sekunden, was klassisch zwei Stunden CSV-Analyse kostete.
- Promotion-Impact-Modellierung: Kausale Modelle wie DoubleML oder Uplift-Modeling trennen Promo-Effekt von Baseline-Demand und beantworten "Was wäre ohne diese Promo passiert?". Promo-Planung wird quantitativ steuerbar; Budget verlagert sich von Volumen- zu Margen-Promos.
- Cross-SKU-Substitution: Substitution-Matrizen aus Transaktionsdaten zeigen, welche Produkte sich ersetzen, wenn eines fehlt. Wer A nicht hat und B kauft, hat den Umsatz behalten — die Stockout-Definition wird ehrlicher.
Tooling-Optionen
Die Landschaft hat sich in vier dominante Cluster plus Eigenbau sortiert. Wer ohne explizite Tool-Wahl startet, baut zu groß oder zu klein.
| Tool | Best-For | Lizenz |
|---|---|---|
| Prophet / Statsforecast | Baseline, <5.000 SKUs | Open Source |
| Slim4 | Großhandel, 5.000–50.000 SKUs | Kommerziell |
| ToolsGroup SO99+ | Multi-Echelon, >50.000 SKUs | Kommerziell |
| Eigenbau (Python + DWH + LLM) | hochspezifische Branchen, eigene Daten-Teams | Open Source + interne IP |
Default: Großhandel und Konsumgüter starten Slim4 oder ToolsGroup, hochspezialisierte Industrie-Sortimente bauen Eigenbau plus LLM-Outlier-Layer. Für rund 80 % der Mittelstands-Großhändler ist ein Standard-Tool die richtige Antwort; Eigenbau lohnt sich erst, wenn die Sortiments-Logik in kein Standard-Modell passt.
ROI-Pattern pro Branche
Demand-Forecast-AI zahlt sich nicht überall gleich aus. Drei Cluster dominieren:

- Handel und Großhandel: höchste Inventar-Sensitivität, 10–25 % Inventar-Reduktion Standard, Payback 6–9 Monate. Stockouts kosten das 2–4-Fache des Stück-DB, Inventar bindet Cash — wer beides senkt, gewinnt zweimal.
- Produktion und Fertigung: 15–30 % weniger Materialengpässe, Payback 9–14 Monate. Komplexer, weil Bedarf über Stücklisten-Auflösung übersetzt werden muss — dafür höherer strategischer Hebel: Demand-Forecast plus MRP-Integration gewinnt Lieferzeit.
- B2B-Service und Ersatzteil: schwierigster Fall wegen sporadischer Bedarfe (viele SKUs mit <5 Bewegungen/Jahr). Klassische Time-Series versagt — hier zahlen sich Cross-SKU-Substitution und LLM-Reasoning besonders aus. Realistisch 5–12 % Inventar-Reduktion, Payback 12–18 Monate.
Pilot: Technik-Großhändler, 12 Monate
Ein süddeutscher Technik-Großhändler, 18.000 SKUs, 6 Lagerstandorte. Ausgangslage: Excel-Forecast pro Produkt-Manager, 52 % Accuracy, Stockout-Rate 8,4 %, Inventar-Reichweite 92 Tage.
| Quartal | Schritt | Accuracy-Δ |
|---|---|---|
| Q1 | Prophet-Baseline auf Top-2.000-SKUs | 52 % → 67 % |
| Q2 | Outlier + LLM-Reasoning, 142 Outlier | 67 % → 72 %, Planner-Zeit −45 % |
| Q3 | Promo-Modell (DoubleML) | 72 % → 76 % |
| Q4 | Cross-SKU + Long-Tail via Slim4 | → 78 %, Stockout 8,4 % → 5,1 %, Reichweite 92 → 74 Tage |
Der größte Wert war nicht die Accuracy, sondern die zurückgewonnene Planner-Zeit: AI macht 80 % Standard, der Mensch entscheidet die teuren 20 %. Der Stack amortisiert sich im ersten Jahr.
Anti-Patterns
- AI ohne Edge-Case-Loop: Out-of-Distribution-Events werden wie Standard behandelt, der Forecast wird über Monate falsch, Planner umgehen das Tool. Fix: Confidence-Intervall pro SKU plus Eskalations-Trigger — Planner bekommt die Worklist der Unsicherheits-Fälle, AI macht den Rest still.
- Forecast ohne Validierung: Output wird ungeprüft ins MRP geladen, Drift fällt erst beim Quartals-Stockout-Bericht auf. Fix: Pre-Run-Plausibilitäts-Check plus wöchentlicher Sanity-Check auf Top-200-SKUs.
- Kein Promo-Modell: Promo-Wochen werden wie normale Wochen behandelt; Stockouts sind dort 2–4× häufiger und werden niemandem zugeordnet. Fix: kausales Promo-Modell als eigene Komponente, mit dem Marketing-Workflow integriert.
Default-Stack
Fünf Pflicht-Komponenten: Prophet oder Statsforecast für die Baseline, Outlier-Detection plus LLM-Reasoning für Edge-Cases, ein kausales Promo-Modell, ein Demand-Planner-Loop mit wöchentlicher Top-200-Validierung und ein Quartals-Review mit Re-Kalibrierung. Wer ohne diese fünf liefert, erntet eine stille Tool-Beerdigung oder lässt den 10–25 %-Hebel liegen.
Praxis-Schritt: Ein AI Readiness Audit misst Ihren Forecast-Stack gegen die fünf Default-Komponenten und liefert die Tool-Empfehlung für Ihr Sortiments-Profil. Audit anfragen → /anfrage
Stand Mai 2026. AI-Beratung für Supply-Chain und Demand-Planning im DACH-Mittelstand — eigene BAFA-/go-digital-Akkreditierung in Vorbereitung Q3 2026, Förder-Pfade aktuell in Kooperation mit akkreditierten Partner-Beratungen.
Nächster Schritt
Passt das auf Ihren Fall?
30-Min-Erstgespräch, kostenfrei und unverbindlich. Wir gehen Ihren konkreten Fall durch — und sagen ehrlich, wenn nichts passt.
