TL;DR
- Fünf Document-Vision-Use-Cases dominieren 2026: Rechnungs-Extraktion, Konstruktionsplan-Q&A, Handschriften-OCR, Tabellen-Strukturierung, Multi-Page-Synthese — jeder mit eigenem Genauigkeits-Profil.
- Hybrid-Architektur ist Default: dedizierter OCR-Layer (Reducto, Mistral-OCR) für strukturierte Massen-Extraktion plus Frontier-Vision-Layer (Claude Opus, GPT-5 Vision, Gemini 2.5) für Reasoning und Klärfragen.
- Genauigkeits-Realität: Pure-Vision erreicht 92–97 % bei strukturierten Belegen, dedizierte OCR-Stacks 99 %+ — Pure-Vision lohnt nur bei niedrigem Volumen oder hochkomplexen Layouts.
Fünf Document-Use-Cases
Was früher separate Pipelines aus OCR plus Regelwerk waren, läuft heute in einer API-Call-Kette. Fünf Use-Cases trennen produktive Stacks von Demo-Theater.

- Rechnungs-Extraktion. Strukturierte Daten aus PDF und Foto zu JSON. Claude Opus und GPT-5 Vision erreichen 92–97 % Feld-Genauigkeit, dedizierte OCR-Stacks 99 %+. Faustregel: unter 1.000 Belege/Monat reicht Pure-Vision, über 5.000 gehört der OCR-Layer in den Stack.
- Konstruktionspläne und CAD-Q&A. "Welche Wandstärke hat das Bauteil im Schnitt A-A?" lösen nur Frontier-Vision-Modelle. Claude Opus und Gemini 2.5 Pro interpretieren Bemaßung, Schweißsymbole und Schnittebenen mit 80–90 % Treffsicherheit. OCR-Only scheitert komplett.
- Handschriften-OCR. Deutsche Kurrentschrift und Sütterlin sind die härteste Disziplin. Claude Opus liefert 78–84 % Wort-Genauigkeit, GPT-5 Vision 65–72 %. Transkribus bleibt für reine Massen-Digitalisierung relevant, verliert aber semantisch.
- Tabellen-Strukturierung. Geschachtelte Tabellen mit Merged-Cells brechen klassische Parser (50–70 %). Frontier-Vision erreicht 88–94 %, weil es Hierarchien semantisch statt nur geometrisch interpretiert.
- Multi-Page-Synthese. Vertrags-Pakete mit Anhängen sind der Long-Context-Fall. Gemini 2.5 Pro (1 Mio Token) und Claude Opus (200k Token) beherrschen die Synthese nativ, klassisches OCR plus Chunking liefert brüchige Ergebnisse.
Hybrid-Architektur: OCR-Layer + Vision-Layer
Default 2026 ist weder Pure-Vision noch Pure-OCR, sondern eine Pipeline, in der jeder Layer das macht, was er am besten kann.

| Aufgabe | Stack | Trigger |
|---|---|---|
| Massen-Rechnungs-Extraktion | Reducto / Mistral-OCR | >5.000 Belege/Monat, strukturierte Layouts |
| Tabellen simpel | Reducto Tables / Camelot | klares Grid, keine Hierarchien |
| Tabellen komplex | Claude Opus / GPT-5 Vision | Merged Cells, Sub-Header |
| Konstruktionsplan-Q&A | Claude Opus / Gemini 2.5 | CAD, Bemaßung, Schweißsymbole |
| Handschrift | Claude Opus | Kurrent, Sütterlin, historisch |
| Multi-Page-Synthese | Gemini 2.5 (1M Token) | Vertrags-Pakete >100 Seiten |
Im Beleg-Workflow extrahiert Reducto die strukturierten Felder zu JSON, Claude Opus übernimmt Klärfragen wie "Welcher Steuersatz gilt für Position 7?" oder "Ist diese Rechnung ein Storno?".
In DACH-Pilots zeigt sich: Pure-Vision erreicht 92–97 % bei strukturierten Belegen, dedizierte OCR-Stacks 99 %+ — der Unterschied wird bei Massen-Volumen geschäftsentscheidend.
Genauigkeits-Vergleich pro Use-Case
| Use-Case | Klassisch OCR | Frontier Vision | Hybrid |
|---|---|---|---|
| Rechnung-Standard (DACH) | 99,2 % | 94,5 % | 99,4 % |
| Rechnung-Foto (mobil) | 78–85 % | 93–96 % | 96–98 % |
| Konstruktionsplan-Q&A | nicht möglich | 82–89 % | 85–90 % |
| Handschrift Kurrentschrift | 50–60 % | 78–84 % | 80–86 % |
| Tabellen komplex | 50–70 % | 88–94 % | 90–95 % |
| Multi-Page-Vertrags-Synthese | nicht möglich | 85–92 % | 87–93 % |
Bei strukturierten Massen-Rechnungen führt Hybrid knapp vor Pure-OCR. Bei allen Reasoning-Use-Cases führt Hybrid oder Pure-Vision — OCR scheitert komplett.
Pilot: Steuerberater-Kanzlei, Belegerfassung-Hybrid
Eine DACH-Steuerberater-Kanzlei testete einen Hybrid-Beleg-Stack — Reducto-OCR für die Extraktion, Claude Opus für Klärfragen und Edge-Cases. Korpus: 12.000 Belege/Monat aus 240 Mandanten.

| Metric | Pure-OCR | Hybrid |
|---|---|---|
| Feld-Genauigkeit | 97,8 % | 99,4 % |
| Edge-Case-Quote | 18 % Re-Queue | 4 % HITL |
| Klärfragen via Agent | nicht möglich | 74 % automatisiert |
Nach 90 Tagen: Der Hybrid-Stack schlägt Pure-OCR durch die automatisierte Klärfragen-Schleife — Claude Opus reduziert die Edge-Case-HITL-Quote um 78 % und übernimmt Storno-Erkennung, Steuersatz-Klärung und Lieferanten-Disambiguierung. Der ROI-Hebel liegt nicht in der reinen Extraktions-Genauigkeit, sondern in dieser Klärfragen-Schleife — und die ist nur mit Frontier-Vision-Layer möglich. Der Stack amortisiert sich im ersten Jahr.
Drei Anti-Patterns
- Vision-Only für Massen-Rechnung. Bei über 5.000 Belegen/Monat ist Pure-Vision ein Cost-Disaster. Fix: OCR-Layer für die Extraktion, Vision nur für Edge-Cases.
- OCR-Only für komplexe Pläne. Klassisches OCR scheitert an Konstruktionsplänen und geschachtelten Tabellen. Fix: Frontier-Vision für alle Reasoning-Use-Cases.
- Kein Confidence-Score-Tracking. Bei 96 % Feld-Genauigkeit landen 4 % falsche Daten still im ERP. Fix: Per-Feld-Confidence mit Schwellen (Betrag 99 %, Adresse 95 %, Memo 90 %), Auto-HITL bei Unterschreitung.
Default-Stack 2026
Vier Schichten mit klarer Verantwortung: OCR-Layer (Reducto/Mistral) für die Massen-Extraktion zu JSON; Strukturierung zum Domain-Schema (XRechnung, ZUGFeRD, DATEV) mit Schema-Validation; Vision-Layer (Claude Opus/Gemini 2.5) für Klärfragen und Reasoning; Confidence-Gate mit Per-Feld-Threshold und Golden-Set für Drift-Monitoring. Pure-Vision ohne OCR lohnt nur bei niedrigem Volumen oder hochkomplexen Layouts.
Praxis-Schritt: Ein 90-Min-Document-Audit klärt, welche Use-Cases in den OCR-Layer gehören, welche in den Vision-Layer und wo das Confidence-Gate sitzt. Erstgespräch anfragen → /anfrage
Stand Mai 2026. Document-Vision-Architektur in Kooperation mit DACH-Implementierungs-Partnern — eigene BAFA-/go-digital-Akkreditierung in Vorbereitung Q3 2026.
Nächster Schritt
Passt das auf Ihren Fall?
30-Min-Erstgespräch, kostenfrei und unverbindlich. Wir gehen Ihren konkreten Fall durch — und sagen ehrlich, wenn nichts passt.
