TL;DR
- Accuracy-Diff: Pure-Tesseract auf deutschen Mittelstand-Dokumenten ~75–85 %, kombiniert mit Layout-Detection (DocLayout-YOLO + Surya) 88–95 % — der Sprung sitzt im Layout-Layer, nicht im OCR-Engine.
- Hardware: Selfhosting realistisch ab GPU 8 GB VRAM (Surya-Base), für Marker + DocLayout-YOLO 16–24 GB komfortabel — ohne GPU bleibt Tesseract die einzige Option.
- Sweet-Spot: Pipelines mit 1.000–50.000 Seiten/Monat fahren mit Surya + Marker on-prem oder einem gehosteten SaaS; Eigen-Build lohnt erst ab konstanter Volumen-Last über ~80.000 Seiten/Monat.
Warum klassisches OCR 2026 nicht mehr reicht
Tesseract liefert auf reinem Fließtext solide 90 %+. Auf einem deutschen Lieferanten-Datenblatt mit mehrspaltigem Layout, eingebetteten Tabellen, Logos und Stempeln bricht die Accuracy oft unter 80 % ein.
Der Bruch sitzt nicht im Zeichen-Erkenner, sondern in der Reading-Order. Tesseract liest links-oben-nach-rechts-unten — ein zweispaltiges Datenblatt wird so zu Text-Salat, Tabellen verlieren ihre Spalten-Struktur, Footnotes landen mitten im Absatz.
Layout-Detection ist 2026 der entscheidende Layer. Ein vorgeschaltetes Modell identifiziert Blöcke (Heading, Paragraph, Table, Figure, List), bestimmt die Reading-Order und übergibt strukturierte Regionen an den OCR-Engine.
In DACH-Pipelines zeigt sich: Tesseract-Output von einem mehrspaltigen Datenblatt ist für Downstream-RAG kaum indizierbar. Die Layout-Detection ist nicht Nice-to-have, sie ist der eigentliche Hebel.
Stack-Vergleich Open-Source
| Stack | Engine-Typ | Accuracy DE | Hardware-Minimum | Output |
|---|---|---|---|---|
| Tesseract 5 | Klassisch (LSTM) | 75–85 % | CPU-only | Plain-Text |
| Surya (Datalab) | ML (Detection + Recognition + Layout) | 88–93 % | GPU 8 GB | Strukturiertes JSON |
| Marker (Datalab) | Surya + Layout-Pipeline | 90–95 % | GPU 12–16 GB | Markdown |
| DocLayout-YOLO | Layout-only (kombinierbar) | Detection-Score 0.85+ | GPU 6 GB | Block-Koordinaten |
Der Sprung von 75 % auf 90 % kostet ungefähr 8–16 GB GPU-VRAM — die billigste Accuracy-Investition im gesamten Dokumenten-Stack.
Tesseract bleibt der ehrliche Default für reine Fließtext-Dokumente ohne Spalten — Briefe, einfache Rechnungen, Behördenformulare. Sobald die Layout-Komplexität steigt, ist Surya der neue Default. Marker (PDF→Markdown) ist die produktive Vollendung: Layout-Detection plus OCR plus Markdown in einer Pipeline, Output direkt RAG-tauglich. DocLayout-YOLO ist kein eigenständiges OCR, sondern das Layout-Modell, das man vor jedes OCR schaltet.
Cloud vs. Selfhosting
Drei Pfade decken die Mittelstands-Realität ab; die Wahl hängt an Volumen, Datenschutz-Position und GPU-Infrastruktur. Ein gehosteter SaaS (Surya/Marker, Frankfurt-Hosting, AVV standardisiert) ist für unter 10.000 Seiten/Monat der ehrliche Default — kein Engineering-Aufwand, keine GPU-Beschaffung. Azure Document Intelligence lohnt bei bestehender Azure-Subscription (~90 % Accuracy, vergleichbar mit Marker, aber teurer pro Seite). On-Prem-GPU (RTX 4090 24 GB oder A6000 48 GB, 2–4 Seiten/Sekunde) rechnet sich erst ab ~80.000 Seiten/Monat konstanter Last oder wenn Compliance externe Hosting-Pfade ausschließt.
Mittelstand-Pipeline: PDF → Markdown
| Stage | Komponente | Throughput (P50) | Output |
|---|---|---|---|
| 1. Ingestion | PDF-Watcher / S3-Trigger | <100 ms | Raw-PDF |
| 2. Layout-Detection | DocLayout-YOLO / Surya | 200–500 ms/Seite | Block-JSON |
| 3. OCR | Surya / Tesseract pro Block | 300–800 ms/Seite | Text-pro-Block |
| 4. Markdown-Assembly | Marker / Custom-Script | 50–150 ms/Seite | Markdown |
| 5. RAG-Indexing | pgvector + tsvector | 30–80 ms/Doc | Embeddings + Keywords |
End-to-End ~1,5–2 Sekunden pro Seite auf einer RTX 4090 — eine 80-Seiten-Bedienungsanleitung ist in unter 3 Minuten in der Wissensbasis. Vision-Language-Models (Claude Vision, GPT-4o) sind die fünfte Option: Sie ersetzen Stage 2+3 mit einem API-Call und liefern direkt Markdown — teurer, dafür ohne OCR-Tuning, mit Sweet-Spot bei komplexen handschriftlichen Dokumenten.
Was bei deutschen Dokumenten gut funktioniert
- Umlaute und ß: >99 % Character-Accuracy auf sauberen Scans (300 DPI+). Die Schwäche sitzt im Layout, nicht im Zeichensatz.
- Tabellen: DocLayout-YOLO und Surya erkennen tabellarische Strukturen mit F1 > 0,9; Marker konvertiert direkt in Markdown-Tabellen, Spalten-Zuordnung trägt in 92 % der Fälle ohne Nacharbeit.
- Stempel: Runde Firmen- und Eingangs-Stempel werden als «Figure» markiert und separat verarbeitet — Lesbarkeit ~85 %, ausreichend für Audit-Trail-Indexierung.
- Unterschriften: Layout-Detection identifiziert Unterschriften-Felder und überspringt sie für OCR — das verhindert die Halluzinationen, die in Tesseract-only-Pipelines regelmäßig auftauchen.
Was nicht: Handschrift, Skizzen, alte Scans
Drei Klassen sind 2026 nicht zuverlässig automatisierbar — und der ehrliche Berater sagt das, statt eine 60-%-Pipeline als «produktiv» zu verkaufen.
- Handschrift: Deutsche Schreib-Schrift liegt bei Surya und Marker bei 40–65 % Accuracy. Vision-Models schaffen 70–80 %, sind für strukturierte Verarbeitung aber zu unzuverlässig. Manuelle Erfassung bleibt Default.
- Technische Skizzen und CAD-Drucke: Linienzeichnungen und Bemaßungen sind weder OCR- noch Layout-Aufgaben; spezialisierte Modelle sind noch im Forschungsstadium.
- Scans unter 200 DPI oder schief: Surya bricht auf 65–75 % ein, Tesseract auf 50–60 %. Vorgeschaltete Bild-Vorbearbeitung (Deskew, Sharpening, Upscaling) holt 10–15 Pp zurück, ist aber ein eigenes Engineering-Projekt.
In allen drei Fällen ist die ehrliche Architektur ein Hybrid-Workflow mit Review-Queue: OCR-Confidence < 0,8 geht in den manuellen Review. Das skaliert linear mit Qualität statt mit Halluzinationen.
Praxis-Schritt: Ein 30-Min-Eignungsgespräch klärt, welcher Stack zu Ihrer Dokumenten-Mischung passt — und ob SaaS, on-prem oder Hybrid die ehrlichere Antwort ist. Erstgespräch anfragen → /anfrage
Stand Mai 2026. OCR-Engine-Versionen, Layout-Modelle und SaaS-Pricing ändern sich quartalsweise — diese Übersicht wird entsprechend aktualisiert.
Nächster Schritt
Passt das auf Ihren Fall?
30-Min-Erstgespräch, kostenfrei und unverbindlich. Wir gehen Ihren konkreten Fall durch — und sagen ehrlich, wenn nichts passt.


