Alle Beiträge

Modelle, Voice & Vision

OCR und Layout-Detection: Tesseract vs DocLayout-YOLO

Tesseract scheitert an mehrspaltigen Datenblättern — moderne Layout-Detection hebt die Erkennungsgenauigkeit deutscher Mittelstand-Dokumente spürbar an.

Baybora Gülec17. Mai 20268 Min.

TL;DR

  • Accuracy-Diff: Pure-Tesseract auf deutschen Mittelstand-Dokumenten ~75–85 %, kombiniert mit Layout-Detection (DocLayout-YOLO + Surya) 88–95 % — der Sprung sitzt im Layout-Layer, nicht im OCR-Engine.
  • Hardware: Selfhosting realistisch ab GPU 8 GB VRAM (Surya-Base), für Marker + DocLayout-YOLO 16–24 GB komfortabel — ohne GPU bleibt Tesseract die einzige Option.
  • Sweet-Spot: Pipelines mit 1.000–50.000 Seiten/Monat fahren mit Surya + Marker on-prem oder einem gehosteten SaaS; Eigen-Build lohnt erst ab konstanter Volumen-Last über ~80.000 Seiten/Monat.

Warum klassisches OCR 2026 nicht mehr reicht

Tesseract liefert auf reinem Fließtext solide 90 %+. Auf einem deutschen Lieferanten-Datenblatt mit mehrspaltigem Layout, eingebetteten Tabellen, Logos und Stempeln bricht die Accuracy oft unter 80 % ein.

Der Bruch sitzt nicht im Zeichen-Erkenner, sondern in der Reading-Order. Tesseract liest links-oben-nach-rechts-unten — ein zweispaltiges Datenblatt wird so zu Text-Salat, Tabellen verlieren ihre Spalten-Struktur, Footnotes landen mitten im Absatz.

Layout-Detection ist 2026 der entscheidende Layer. Ein vorgeschaltetes Modell identifiziert Blöcke (Heading, Paragraph, Table, Figure, List), bestimmt die Reading-Order und übergibt strukturierte Regionen an den OCR-Engine.

In DACH-Pipelines zeigt sich: Tesseract-Output von einem mehrspaltigen Datenblatt ist für Downstream-RAG kaum indizierbar. Die Layout-Detection ist nicht Nice-to-have, sie ist der eigentliche Hebel.

Stack-Vergleich Open-Source

StackEngine-TypAccuracy DEHardware-MinimumOutput
Tesseract 5Klassisch (LSTM)75–85 %CPU-onlyPlain-Text
Surya (Datalab)ML (Detection + Recognition + Layout)88–93 %GPU 8 GBStrukturiertes JSON
Marker (Datalab)Surya + Layout-Pipeline90–95 %GPU 12–16 GBMarkdown
DocLayout-YOLOLayout-only (kombinierbar)Detection-Score 0.85+GPU 6 GBBlock-Koordinaten

Der Sprung von 75 % auf 90 % kostet ungefähr 8–16 GB GPU-VRAM — die billigste Accuracy-Investition im gesamten Dokumenten-Stack.

Tesseract bleibt der ehrliche Default für reine Fließtext-Dokumente ohne Spalten — Briefe, einfache Rechnungen, Behördenformulare. Sobald die Layout-Komplexität steigt, ist Surya der neue Default. Marker (PDF→Markdown) ist die produktive Vollendung: Layout-Detection plus OCR plus Markdown in einer Pipeline, Output direkt RAG-tauglich. DocLayout-YOLO ist kein eigenständiges OCR, sondern das Layout-Modell, das man vor jedes OCR schaltet.

Cloud vs. Selfhosting

Drei Pfade decken die Mittelstands-Realität ab; die Wahl hängt an Volumen, Datenschutz-Position und GPU-Infrastruktur. Ein gehosteter SaaS (Surya/Marker, Frankfurt-Hosting, AVV standardisiert) ist für unter 10.000 Seiten/Monat der ehrliche Default — kein Engineering-Aufwand, keine GPU-Beschaffung. Azure Document Intelligence lohnt bei bestehender Azure-Subscription (~90 % Accuracy, vergleichbar mit Marker, aber teurer pro Seite). On-Prem-GPU (RTX 4090 24 GB oder A6000 48 GB, 2–4 Seiten/Sekunde) rechnet sich erst ab ~80.000 Seiten/Monat konstanter Last oder wenn Compliance externe Hosting-Pfade ausschließt.

Mittelstand-Pipeline: PDF → Markdown

StageKomponenteThroughput (P50)Output
1. IngestionPDF-Watcher / S3-Trigger<100 msRaw-PDF
2. Layout-DetectionDocLayout-YOLO / Surya200–500 ms/SeiteBlock-JSON
3. OCRSurya / Tesseract pro Block300–800 ms/SeiteText-pro-Block
4. Markdown-AssemblyMarker / Custom-Script50–150 ms/SeiteMarkdown
5. RAG-Indexingpgvector + tsvector30–80 ms/DocEmbeddings + Keywords

End-to-End ~1,5–2 Sekunden pro Seite auf einer RTX 4090 — eine 80-Seiten-Bedienungsanleitung ist in unter 3 Minuten in der Wissensbasis. Vision-Language-Models (Claude Vision, GPT-4o) sind die fünfte Option: Sie ersetzen Stage 2+3 mit einem API-Call und liefern direkt Markdown — teurer, dafür ohne OCR-Tuning, mit Sweet-Spot bei komplexen handschriftlichen Dokumenten.

Was bei deutschen Dokumenten gut funktioniert

  • Umlaute und ß: >99 % Character-Accuracy auf sauberen Scans (300 DPI+). Die Schwäche sitzt im Layout, nicht im Zeichensatz.
  • Tabellen: DocLayout-YOLO und Surya erkennen tabellarische Strukturen mit F1 > 0,9; Marker konvertiert direkt in Markdown-Tabellen, Spalten-Zuordnung trägt in 92 % der Fälle ohne Nacharbeit.
  • Stempel: Runde Firmen- und Eingangs-Stempel werden als «Figure» markiert und separat verarbeitet — Lesbarkeit ~85 %, ausreichend für Audit-Trail-Indexierung.
  • Unterschriften: Layout-Detection identifiziert Unterschriften-Felder und überspringt sie für OCR — das verhindert die Halluzinationen, die in Tesseract-only-Pipelines regelmäßig auftauchen.

Was nicht: Handschrift, Skizzen, alte Scans

Drei Klassen sind 2026 nicht zuverlässig automatisierbar — und der ehrliche Berater sagt das, statt eine 60-%-Pipeline als «produktiv» zu verkaufen.

  • Handschrift: Deutsche Schreib-Schrift liegt bei Surya und Marker bei 40–65 % Accuracy. Vision-Models schaffen 70–80 %, sind für strukturierte Verarbeitung aber zu unzuverlässig. Manuelle Erfassung bleibt Default.
  • Technische Skizzen und CAD-Drucke: Linienzeichnungen und Bemaßungen sind weder OCR- noch Layout-Aufgaben; spezialisierte Modelle sind noch im Forschungsstadium.
  • Scans unter 200 DPI oder schief: Surya bricht auf 65–75 % ein, Tesseract auf 50–60 %. Vorgeschaltete Bild-Vorbearbeitung (Deskew, Sharpening, Upscaling) holt 10–15 Pp zurück, ist aber ein eigenes Engineering-Projekt.

In allen drei Fällen ist die ehrliche Architektur ein Hybrid-Workflow mit Review-Queue: OCR-Confidence < 0,8 geht in den manuellen Review. Das skaliert linear mit Qualität statt mit Halluzinationen.

Praxis-Schritt: Ein 30-Min-Eignungsgespräch klärt, welcher Stack zu Ihrer Dokumenten-Mischung passt — und ob SaaS, on-prem oder Hybrid die ehrlichere Antwort ist. Erstgespräch anfragen → /anfrage

Stand Mai 2026. OCR-Engine-Versionen, Layout-Modelle und SaaS-Pricing ändern sich quartalsweise — diese Übersicht wird entsprechend aktualisiert.

Baybora Gülec· Gründer, Azena

Nächster Schritt

Passt das auf Ihren Fall?

30-Min-Erstgespräch, kostenfrei und unverbindlich. Wir gehen Ihren konkreten Fall durch — und sagen ehrlich, wenn nichts passt.

Teilen LinkedIn Per E-Mail