OCR und Layout-Detection: Tesseract vs DocLayout-YOLO

TL;DR

Accuracy-Diff: Pure-Tesseract auf deutschen Mittelstand-Dokumenten ~75–85 %, kombiniert mit Layout-Detection (DocLayout-YOLO + Surya) 88–95 % — der Sprung sitzt im Layout-Layer, nicht im OCR-Engine.
Hardware: Selfhosting realistisch ab GPU 8 GB VRAM (Surya-Base), für Marker + DocLayout-YOLO 16–24 GB komfortabel — ohne GPU bleibt Tesseract die einzige Option.
Sweet-Spot: Pipelines mit 1.000–50.000 Seiten/Monat fahren mit Surya + Marker on-prem oder einem gehosteten SaaS; Eigen-Build lohnt erst ab konstanter Volumen-Last über ~80.000 Seiten/Monat.

Warum klassisches OCR 2026 nicht mehr reicht

Tesseract liefert auf reinem Fließtext solide 90 %+. Auf einem deutschen Lieferanten-Datenblatt mit mehrspaltigem Layout, eingebetteten Tabellen, Logos und Stempeln bricht die Accuracy oft unter 80 % ein.

Der Bruch sitzt nicht im Zeichen-Erkenner, sondern in der Reading-Order. Tesseract liest links-oben-nach-rechts-unten — ein zweispaltiges Datenblatt wird so zu Text-Salat, Tabellen verlieren ihre Spalten-Struktur, Footnotes landen mitten im Absatz.

Layout-Detection ist 2026 der entscheidende Layer. Ein vorgeschaltetes Modell identifiziert Blöcke (Heading, Paragraph, Table, Figure, List), bestimmt die Reading-Order und übergibt strukturierte Regionen an den OCR-Engine.

In DACH-Pipelines zeigt sich: Tesseract-Output von einem mehrspaltigen Datenblatt ist für Downstream-RAG kaum indizierbar. Die Layout-Detection ist nicht Nice-to-have, sie ist der eigentliche Hebel.

Stack-Vergleich Open-Source

Stack	Engine-Typ	Accuracy DE	Hardware-Minimum	Output
Tesseract 5	Klassisch (LSTM)	75–85 %	CPU-only	Plain-Text
Surya (Datalab)	ML (Detection + Recognition + Layout)	88–93 %	GPU 8 GB	Strukturiertes JSON
Marker (Datalab)	Surya + Layout-Pipeline	90–95 %	GPU 12–16 GB	Markdown
DocLayout-YOLO	Layout-only (kombinierbar)	Detection-Score 0.85+	GPU 6 GB	Block-Koordinaten

Der Sprung von 75 % auf 90 % kostet ungefähr 8–16 GB GPU-VRAM — die billigste Accuracy-Investition im gesamten Dokumenten-Stack.

Tesseract bleibt der ehrliche Default für reine Fließtext-Dokumente ohne Spalten — Briefe, einfache Rechnungen, Behördenformulare. Sobald die Layout-Komplexität steigt, ist Surya der neue Default. Marker (PDF→Markdown) ist die produktive Vollendung: Layout-Detection plus OCR plus Markdown in einer Pipeline, Output direkt RAG-tauglich. DocLayout-YOLO ist kein eigenständiges OCR, sondern das Layout-Modell, das man vor jedes OCR schaltet.

Cloud vs. Selfhosting

Drei Pfade decken die Mittelstands-Realität ab; die Wahl hängt an Volumen, Datenschutz-Position und GPU-Infrastruktur. Ein gehosteter SaaS (Surya/Marker, Frankfurt-Hosting, AVV standardisiert) ist für unter 10.000 Seiten/Monat der ehrliche Default — kein Engineering-Aufwand, keine GPU-Beschaffung. Azure Document Intelligence lohnt bei bestehender Azure-Subscription (~90 % Accuracy, vergleichbar mit Marker, aber teurer pro Seite). On-Prem-GPU (RTX 4090 24 GB oder A6000 48 GB, 2–4 Seiten/Sekunde) rechnet sich erst ab ~80.000 Seiten/Monat konstanter Last oder wenn Compliance externe Hosting-Pfade ausschließt.

Mittelstand-Pipeline: PDF → Markdown

Stage	Komponente	Throughput (P50)	Output
1. Ingestion	PDF-Watcher / S3-Trigger	<100 ms	Raw-PDF
2. Layout-Detection	DocLayout-YOLO / Surya	200–500 ms/Seite	Block-JSON
3. OCR	Surya / Tesseract pro Block	300–800 ms/Seite	Text-pro-Block
4. Markdown-Assembly	Marker / Custom-Script	50–150 ms/Seite	Markdown
5. RAG-Indexing	pgvector + tsvector	30–80 ms/Doc	Embeddings + Keywords

End-to-End ~1,5–2 Sekunden pro Seite auf einer RTX 4090 — eine 80-Seiten-Bedienungsanleitung ist in unter 3 Minuten in der Wissensbasis. Vision-Language-Models (Claude Vision, GPT-4o) sind die fünfte Option: Sie ersetzen Stage 2+3 mit einem API-Call und liefern direkt Markdown — teurer, dafür ohne OCR-Tuning, mit Sweet-Spot bei komplexen handschriftlichen Dokumenten.

Was bei deutschen Dokumenten gut funktioniert

Umlaute und ß: >99 % Character-Accuracy auf sauberen Scans (300 DPI+). Die Schwäche sitzt im Layout, nicht im Zeichensatz.
Tabellen: DocLayout-YOLO und Surya erkennen tabellarische Strukturen mit F1 > 0,9; Marker konvertiert direkt in Markdown-Tabellen, Spalten-Zuordnung trägt in 92 % der Fälle ohne Nacharbeit.
Stempel: Runde Firmen- und Eingangs-Stempel werden als «Figure» markiert und separat verarbeitet — Lesbarkeit ~85 %, ausreichend für Audit-Trail-Indexierung.
Unterschriften: Layout-Detection identifiziert Unterschriften-Felder und überspringt sie für OCR — das verhindert die Halluzinationen, die in Tesseract-only-Pipelines regelmäßig auftauchen.

Was nicht: Handschrift, Skizzen, alte Scans

Drei Klassen sind 2026 nicht zuverlässig automatisierbar — und der ehrliche Berater sagt das, statt eine 60-%-Pipeline als «produktiv» zu verkaufen.

Handschrift: Deutsche Schreib-Schrift liegt bei Surya und Marker bei 40–65 % Accuracy. Vision-Models schaffen 70–80 %, sind für strukturierte Verarbeitung aber zu unzuverlässig. Manuelle Erfassung bleibt Default.
Technische Skizzen und CAD-Drucke: Linienzeichnungen und Bemaßungen sind weder OCR- noch Layout-Aufgaben; spezialisierte Modelle sind noch im Forschungsstadium.
Scans unter 200 DPI oder schief: Surya bricht auf 65–75 % ein, Tesseract auf 50–60 %. Vorgeschaltete Bild-Vorbearbeitung (Deskew, Sharpening, Upscaling) holt 10–15 Pp zurück, ist aber ein eigenes Engineering-Projekt.

In allen drei Fällen ist die ehrliche Architektur ein Hybrid-Workflow mit Review-Queue: OCR-Confidence < 0,8 geht in den manuellen Review. Das skaliert linear mit Qualität statt mit Halluzinationen.

Praxis-Schritt: Ein 30-Min-Eignungsgespräch klärt, welcher Stack zu Ihrer Dokumenten-Mischung passt — und ob SaaS, on-prem oder Hybrid die ehrlichere Antwort ist. Erstgespräch anfragen → /anfrage

Stand Mai 2026. OCR-Engine-Versionen, Layout-Modelle und SaaS-Pricing ändern sich quartalsweise — diese Übersicht wird entsprechend aktualisiert.

Baybora Gülec· Gründer, Azena

Nächster Schritt

Passt das auf Ihren Fall?

30-Min-Erstgespräch, kostenfrei und unverbindlich. Wir gehen Ihren konkreten Fall durch — und sagen ehrlich, wenn nichts passt.

Erstgespräch buchen

Teilen LinkedIn Per E-Mail