Alle Beiträge

Team & Befähigung

AI-Lab-Setup: fünf Komponenten gegen Innovation-Theater

Ein AI-Lab liefert nur mit Ergebnis-Druck — klare Definition-of-Done und Hand-Over-Disziplin verwandeln Experimente in produktive Builds statt Innovation-Theater.

Baybora Gülec17. Mai 20269 Min.

TL;DR

  • Fünf Pflicht-Komponenten machen ein AI-Lab im Mittelstand 2026 belastbar: Team (2–3 FTE), Sandbox-Infrastruktur, 4-Wochen-Sprint-Discipline mit Definition-of-Done, Quartals-Review mit Executive Sponsor, Hand-Over-Disziplin in die IT-Produktion. Fehlt eine Komponente, kippt das Lab in Theater.
  • 60–70 % der Experimente werden bewusst gestoppt nach 4 Wochen — das ist Erfolg, nicht Scheitern. Die restlichen 30–40 % gehen in Hand-Over und erzeugen typisch 2–3 produktive Builds pro Jahr.
  • Lab ab größeren Umsatz-Brackets sinnvoll, darunter Hybrid-Pattern mit einem internen Innovation-Lead plus externer Beratung als Lab-as-a-Service.

Fünf Pflicht-Komponenten

Ein AI-Lab im Mittelstand 2026 ist kein "Spielplatz", sondern produktive Experiment-Disziplin mit Ergebnis-Druck. Wer Lab-Setup mit Hackathon-Kultur verwechselt, brennt Budget ohne Skalierung. Die fünf Komponenten sind nicht verhandelbar.

Cost-Modell AI-Lab 2026 Mittelstand 2 bis 3 FTE Vollkosten 400 bis 600 Tausend Euro pro Jahr Innovation-Lead Senior 1 FTE 145 bis 195 Tausend Euro AI-Engineer Senior 1 FTE 130 bis 180 Tausend Euro Fach-Lead 0,3 bis 0,5 FTE 50 bis 85 Tausend Euro API-Keys Tools LLM Eval Observability 25 bis 95 Tausend Euro Cloud-Subscription separat 12 bis 36 Tausend Euro Beratung punktuell Architektur Eval 50 bis 100 Tausend Euro
Exhibit 2: Cost-Modell für 2–3-FTE-Lab — –691k Vollkosten pro Jahr. Wer mit plant, baut Theater; wer mit + plant, hat einen Use-Case-Mangel.
  • Team. 2–3 FTE mit klaren Rollen: ein Innovation-Lead (Backlog, Sponsor-Kommunikation, Quartals-Review), ein AI-Engineer (Prototypen, Eval-Sets, Hand-Over-Code), ein Fach-Lead aus dem Business-Bereich (Use-Case, Akzeptanz-Kriterien, Daten-Zugang). Ohne Fach-Lead kippt jedes Experiment in technologische Selbstbeschäftigung. Der Fach-Lead muss 30–50 % FTE investieren, nicht 5 % als "Reviewer-Rolle".
  • Sandbox-Infrastruktur. Eigene Infrastruktur, getrennt von der Produktions-IT: separates Git-Repo mit eigenen CI-Rechten, getrennte Cloud-Subscription, eigenes API-Keys-Budget (OpenAI, Anthropic, Nebius, Mistral). Ohne diese Trennung entstehen Procurement-Loops von 6–12 Wochen pro Experiment, was Sprint-Discipline tötet.
  • Sprint-Discipline. Jedes Experiment läuft vier Wochen mit klarer Definition-of-Done: ein eingefrorenes Eval-Set, eine ROI-Bewertung, eine Go/No-Go-Empfehlung am Sprint-Ende. Längere Pilots verlieren Fokus, kürzere produzieren keine belastbaren Eval-Daten. Die Definition-of-Done ist vor Sprint-Start schriftlich fixiert.
  • Quartals-Review. Alle drei Monate entscheidet der Executive Sponsor (CIO, CDO oder GF) mit dem Lab-Team das Folge-Budget auf Basis der Experiment-Ergebnisse. Kein Selbstläufer-Budget. Diese harte Kopplung ist der einzige Mechanismus, der ein Lab vor Drift in Forschungs-Theater schützt.
  • Hand-Over. Erfolgs-Experimente gehen mit klarem Übergabe-Plan in die IT-Produktion: Wer betreibt das System, wer ist on-call, wer pflegt Eval-Sets, wer entscheidet über Modell-Updates. Ohne Hand-Over-Disziplin bleibt das Lab Eigentümer des Produktiv-Systems und blockiert damit Kapazität für neue Experimente.

In DACH-Pilots zeigt sich ein wiederkehrendes Muster: Labs ohne diese fünf Komponenten produzieren 18 Monate Pilots ohne einen einzigen Produktiv-Übergang. Mit installierter Disziplin liegen innerhalb von zwei Quartalen mehrere Builds im operativen Betrieb.

Experiment-Sprint-Schablone

Jeder 4-Wochen-Sprint folgt einer festen Choreografie mit Definition-of-Done am Sprint-Ende. Diese Schablone ist die operative Lab-Disziplin.

WocheAktivitätDefinition-of-Done
Woche 1Use-Case-Setup, Daten-Zugang, Eval-Set v0 einfrierenEval-Set mit 30–80 Items, Akzeptanz-Schwelle definiert
Woche 2Prototyp-Build, erste Eval-IterationLauffähiger Prototyp, erste Eval-Zahlen dokumentiert
Woche 3Iteration auf Eval-Schwelle, Edge-CasesEval-Schwelle erreicht oder begründet verfehlt, Cost/Run dokumentiert
Woche 4ROI-Bewertung, Go/No-Go, Hand-Over-Plan oder Stop-Memo2–3-Seiten-Memo mit Empfehlung, Sprint-Demo vor Sponsor

Anti-Patterns

Drei Anti-Patterns treffen rund 60 % der Mittelständler-Labs im ersten Audit. Jedes kostet 6–12 Monate Markt-Zeit und verbrennt Sponsor-Glaubwürdigkeit.

Pilot-Cockpit 180 Millionen Euro Industrie-Mittelstand Sueddeutschland 720 Mitarbeiter AI-Lab 2,5 FTE 560 Tausend Euro Jahresbudget vier Quartale Q1 2025 drei Experimente Belegerfassung Service-Voice Lieferanten-Klassifikation zwei Stop ein Hand-Over Belegerfassung Run-Rate 140 Tausend Euro pro Jahr Q2 drei Experimente Field-RAG Vertrags-Suche Marketing-Brief zwei Stop ein Hand-Over Field-RAG plus 310 Tausend Euro Q3 drei Experimente Reklamations-Triage Voice-Bestell-Telefon CAD-Assist zwei Stop ein Hand-Over Reklamations-Triage plus 420 Tausend Euro Q4 drei Experimente Engineering-RAG Predictive-Maintenance Audit-Pre-Read zwei Stop ein Hand-Over Engineering-RAG plus 680 Tausend Euro Summe 12 Experimente 8 Stop 67 Prozent 4 Hand-Over 33 Prozent 1,55 Millionen Euro Run-Rate Payback unter 5 Monaten
Exhibit 3: Industrie-Mittelstand AI-Lab über 4 Quartale — 12 Experimente, 8 Stop, 4 Hand-Over, Run-Rate bei Lab-Budget. Payback unter 5 Monaten.
  • Lab als Spielplatz. Wer das Lab als "Sandkasten für AI-Begeisterung" framet, bekommt Hackathon-Kultur ohne ROI-Druck. Folge: 18 Monate Pilots, kein Hand-Over, Budget-Kürzung im nächsten Geschäftsjahr. Das Lab braucht denselben Investitions-Rigor wie eine neue Produktlinie.
  • Kein Definition-of-Done. Sprints ohne vor-Sprint-fixiertes Eval-Set und Go/No-Go-Kriterien produzieren ewige Pilots — jedes Experiment wird am Ende neu definiert, um "Erfolg" zu rechtfertigen. Die Eval-Set-Disziplin ist der teuerste, aber wirksamste Hebel.
  • Kein Quartals-Review. Labs ohne harte Budget-Kopplung driften: Der Sponsor erscheint nur zum Jahresende, der Backlog wird zur Wunschliste, Hand-Over passiert nie. Der Quartals-Review ist das Kontroll-Organ, das Drift verhindert.

Default-Empfehlung 2026

Lab-Setup ist nicht für jeden Mittelständler die richtige Antwort. Die Empfehlung hängt vom Umsatz-Bracket ab.

  • Großes Umsatz-Bracket — internes Lab. Ab den oberen Mittelstands-Umsätzen rechnet sich ein internes Lab mit 2–3 FTE. Die Skalierungs-Hebel (mehrere Geschäftsbereiche, eigenes Daten-Asset, Hand-Over-Komplexität) übersteigen die externen Beratungs-Alternativen. Default: 2,5 FTE, vier 4-Wochen-Sprints pro Quartal.
  • Mittleres Bracket — Hybrid-Lab. Hier ist ein Voll-Lab überdimensioniert. Default: ein interner Innovation-Lead plus externe Beratung als Lab-as-a-Service für AI-Engineering und Eval-Aufbau. Drei Sprints pro Quartal, klare Hand-Over-Architektur mit externer Unterstützung.
  • Kleines Bracket — Beratung-only. Eigenes Lab nicht sinnvoll. Default: projekt-basierte Beratung, ein bis zwei strategische Use-Cases pro Jahr, gebaut von externen Partnern, betrieben von der eigenen IT. Lab-Disziplin (Eval-Set, Quartals-Review) gilt analog, aber ohne fixes internes Team.

Belastbare Labs produzieren typisch zwei Drittel bewusst gestoppte Experimente und ein Drittel Hand-Overs — und amortisieren das Lab-Budget über die Run-Rate-Effekte der produktiven Builds meist im ersten Jahr.

Praxis-Schritt: Ein AI Readiness Audit klärt vor Lab-Setup die Voraussetzungen — Use-Case-Reife, Sponsor-Klarheit, Daten-Zugang, IT-Übernahme-Fähigkeit. Audit anfragen → /anfrage

Stand Mai 2026. AI-Lab-Setup-Beratung für DACH-Mittelstand — eigene BAFA-/go-digital-Akkreditierung in Vorbereitung Q3 2026, Förder-Pfade aktuell in Kooperation mit akkreditierten Partner-Beratungen.

Baybora Gülec· Gründer, Azena

Nächster Schritt

Passt das auf Ihren Fall?

30-Min-Erstgespräch, kostenfrei und unverbindlich. Wir gehen Ihren konkreten Fall durch — und sagen ehrlich, wenn nichts passt.

Teilen LinkedIn Per E-Mail