Alle Beiträge

Daten & RAG-Architektur

RAG-Architektur: Chunking, Reranking, Multi-Hop

Naive-RAG produziert zu viele Halluzinationen — welche Architektur-Schichten Production-Qualität liefern und Citation belastbar machen.

Baybora Gülec17. Mai 20269 Min.

TL;DR

  • Sechs Architektur-Schichten statt naivem chunk+embed+cosine: Chunking-Strategie, Embedding-Modell, Vector-DB, Re-ranking, Query-Rewriting, Multi-Hop-Reasoning. Wer eine Schicht auslässt, baut Production-Quality nicht.
  • Re-ranking + Hybrid-Retrieval sind 2026 Pflicht — BM25 plus Vector plus Cross-Encoder-Reranker liefert 20–40 % Quality-Lift gegenüber Single-Stage-Cosine-Retrieval. Ohne Reranker ist Production-RAG strukturell unzuverlässig.
  • Halluzinations-Quote 3–8 % statt 15–25 % bei voller Pipeline. Pure-Cosine-Similarity ohne Re-ranking produziert Quality-Regressions, die im LLM-Layer nicht mehr behebbar sind.

Sechs Architektur-Schichten 2026

Naive-RAG (chunk + embed + cosine) ist 2026 nicht mehr ausreichend. Sobald die Wissensbasis 50.000 Dokumente überschreitet, kollabiert die Antwort-Qualität strukturell.

Exhibit Chunking-Strategien im Vergleich 2026 Fixed-Size 512 Tokens kurze homogene Texte Chat-Logs Tickets Baseline niedrigste Compute Semantic-Chunking strukturierte Dokumente H1 H2 Absaetze plus 6 bis 10 Punkte F1 15 Prozent Compute-Aufschlag Late-Chunking lange Dokumente Vertraege Manuals ueber 20 Seiten plus 8 bis 14 Punkte F1 30 bis 50 Prozent Compute-Aufschlag
Exhibit 2: Chunking-Strategien im Vergleich — Late-Chunking gewinnt 2026 für lange Dokumente mit +8–14 Punkten F1 gegenüber Fixed-Size, bei 30–50 % Compute-Aufschlag.

Chunking-Strategie. Fixed-Size-Chunking (512 Tokens, kein Kontext) ist der häufigste Mittelstands-Fehler. Semantic-Chunking schneidet nach Absätzen und Überschriften, Late-Chunking embedded das Dokument zuerst und chunked die Embeddings nachgelagert. Late-Chunking gewinnt für lange Dokumente — +8–14 Punkte F1 gegenüber Fixed-Size.

Embedding-Modell. Text-Embedding-3-Large (OpenAI) ist der Englisch-Default. BGE-M3 ist der Multi-Sprache-Default — Open-Source, Apache 2.0, self-hosted für DSGVO-kritische Workloads. Mistral-Embed-Multilingual liefert die beste Performance für deutschen Spezial-Wortschatz (Manuals, Verträge, medizinische Reports).

Vector-DB. pgvector deckt <10M Vektoren ab — Default für POCs und kleinere Production-Setups. Qdrant und Weaviate sind der 2026-Default für 10M–1B Vektoren — Open-Source, self-hosted, harte Filter-Logik. Pinecone liefert Cloud-Convenience, kostet aber ein Mehrfaches und bindet an einen einzelnen US-Provider.

Re-ranking-Layer. Cohere-Reranker (API) oder Cross-Encoder MS-MARCO (self-hosted) liefern 20–40 % Quality-Lift. Pattern: erst 50–100 Kandidaten retrieven, dann auf Top-5–10 re-ranken. Ohne Reranker ist Production-RAG unzuverlässig — Top-3-Cosine-Treffer enthalten typisch nur 60–70 % der besten Dokumente.

Query-Rewriting. Ein LLM rewrited die Frage in 2–3 Retrieval-Queries für Coverage — Synonyme, Fachterminologie, Norm-Verweise. Recall-Lift typisch 10–18 Punkte.

Multi-Hop-Reasoning. Komplexe Fragen brauchen mehrstufiges Retrieval: erstes Retrieval → Zwischen-Antwort → zweites Retrieval auf Folge-Frage. Pflicht für Klinik-, Compliance- und Engineering-RAGs.

Chunking & Embedding im Detail

Drei Chunking-Strategien dominieren. Fixed-Size (512 Tokens) ist Baseline für kurze homogene Texte, Chat-Logs und Tickets. Semantic-Chunking (Schnitt nach H1/H2/Absätzen) bringt +6–10 Punkte F1 bei +15 % Compute auf strukturierten Dokumenten. Late-Chunking liefert für lange Verträge und Manuals >20 Seiten +8–14 Punkte F1 bei +30–50 % Compute — der Aufschlag ist gegenüber dem Quality-Lift trivial.

Embedding-Modell-Wahl pro Sprache

Default-Pattern: ein Modell pro Sprache, keine Mischung — gemischte Korpora brauchen explizit Multi-Sprache-Modelle. Text-Embedding-3-Large (OpenAI) ist EN-stark, mehrsprachig begrenzt. BGE-M3 (Open-Source, 100+ Sprachen) und Mistral-Embed-Multilingual (beste DE-Quality, EU-fokussiert) sind die DACH-Defaults; jina-embeddings-v3 als API/Self-Hosted-Alternative. BGE-M3 self-hosted senkt die laufenden Embedding-Kosten um eine Größenordnung gegenüber einer API — bei oft besserer Quality für deutsche Manuals. Self-Hosted ist die Default-Wahl, sobald die Korpus-Größe steht.

Pilot: MedTech-Mittelständler, klinische RAG-Pipeline über 6 Monate

Ein süddeutsches MedTech-Unternehmen mit IEC-62304-zertifizierten Produkten baute eine klinische RAG-Pipeline für Regulatory-Affairs auf 48.000 Dokumenten (Studien, Audit-Reports, FDA/EMA-Korrespondenz, MDR-Anhänge). Die naive-RAG-POC (Fixed-512 + ada-002 + pgvector, Top-3-Cosine) lag bei 38 % Citation-Coverage und 23 % Halluzinationen. Schichtweiser Ausbau hob die Werte: Late-Chunking + BGE-M3 → 61 % / 14 %, Hybrid-Retrieval (BM25 + Qdrant, RRF) → 74 % / 9 %, Cohere-Reranker auf Top-8 → 86 % / 5 %, Query-Rewriting → 92 % / 4 %, und Multi-Hop plus Citation-Gate schließlich auf 96 % Citation-Coverage und 3 % Halluzinationen.

Pilot-Cockpit 100 Millionen Euro suedlicher DACH-MedTech 320 Mitarbeitende IEC-62304-zertifizierte Produkte klinische RAG-Pipeline ueber 6 Monate 48000 Dokumente Studien Audit-Reports FDA EMA Korrespondenz MDR-Anhaenge Monat 1 Naive-Baseline Fixed-512 plus text-embedding-ada-002 plus pgvector Top-3-Cosine Citation-Coverage 38 Prozent Halluzinationen 23 Prozent Monat 2 Late-Chunking plus BGE-M3 self-hosted 61 Prozent 14 Prozent Monat 3 Hybrid BM25 plus Qdrant Reciprocal Rank Fusion 74 Prozent 9 Prozent Monat 4 Cohere-Reranker Top-50 zu Top-8 Cross-Encoder-Fallback 86 Prozent 5 Prozent Monat 5 Query-Rewriting LLM rewrited Frage in 3 Retrieval-Queries Union 92 Prozent 4 Prozent Monat 6 Multi-Hop plus Citation-Gate 96 Prozent Citation-Coverage 3 Prozent Halluzinationen 180 Tausend Euro Setup 4800 Euro pro Monat Run-Rate 420 Tausend Euro Personal-Effekt pro Jahr
Exhibit 3: 6-Monats-Pilot MedTech — klinische RAG-Pipeline von 23 % Halluzinationen und 38 % Citation-Coverage auf 3 % Halluzinationen und 96 % Citation-Coverage. Setup amortisiert in 6 Monaten über /Jahr Personal-Effekt.

Die naive-RAG hätte im FDA-Audit nicht standgehalten. Erst Hybrid-Retrieval plus Reranker plus Citation-Gate brachten ein Quality-Level, das Regulatory-Affairs unterschreiben konnte. Zeit-Wirkung: 4–8 Std/Woche pro Regulatory-Manager eingespart; das Setup amortisiert sich im ersten Jahr.

Anti-Patterns

Drei Anti-Patterns treffen 2026 rund 70 % der DACH-Mittelständler im ersten RAG-POC. Jedes produziert Halluzinations-Quoten >15 %, die im LLM-Layer nicht behebbar sind — und jedes ist mit einem 6-Wochen-Refactor adressierbar.

Pure-Cosine ohne Reranker. Top-K-Cosine-Treffer enthalten typisch nur 60–70 % der besten Dokumente. Ohne Reranker landen Mittelmaß-Treffer im LLM-Kontext, das LLM halluziniert plausible Antworten aus halb-relevanten Quellen. Default-Antwort: Cohere-Reranker oder Cross-Encoder MS-MARCO als Pflicht-Layer.

Fixed-Chunking für lange Dokumente. 512-Token-Fenster über 40-Seiten-Manuals zerlegen Kontext-Beziehungen. Kapitel-Übergänge, Cross-References und Definitionen verlieren ihre Verankerung. Default-Antwort: Late- oder Semantic-Chunking für alle Dokumente >5 Seiten.

Kein Query-Rewriting. Customer-Frage wird 1:1 als Retrieval-Query verwendet. Synonym-Coverage, Fachterminologie-Varianten und Multi-Aspekt-Fragen werden strukturell verfehlt. Default-Antwort: LLM-Query-Rewriter erzeugt 2–3 Queries pro Frage, Union der Treffer.

Default-Architektur 2026

Sechs feste Bausteine, keiner optional: Late-Chunking für Dokumente >5 Seiten (Semantic für strukturierte Quellen), BGE-M3 self-hosted als Multi-Sprache-Embedding (Mistral-Embed als DE-API-Alternative), Qdrant als self-hosted Vector-DB (pgvector nur bei <10M Vektoren), Cohere-Reranker auf Top-50 (MS-MARCO-Cross-Encoder als Privacy-Fallback), Query-Rewriting in 2–3 Queries pro Frage, und Citation-Coverage als Quality-Gate — Coverage <80 % triggert Re-Retrieval oder Eskalation an Mensch. Wer alle sechs diszipliniert über zwei Quartale aufbaut, erreicht Halluzinations-Quoten unter 5 % und Citation-Coverage über 90 %.

Praxis-Schritt: Ein AI Readiness Audit misst Ihre aktuelle RAG-Architektur gegen die sechs Schichten, identifiziert die kritischen Quality-Lücken und liefert eine phasierte Refactor-Roadmap mit Citation-Coverage-Zielen. Audit anfragen → /anfrage

Stand Mai 2026. RAG-Architektur- und AI-Strategie-Beratung für DACH-Mittelstand mit Schwerpunkt MedTech, Maschinenbau, Großhandel — eigene BAFA-/go-digital-Akkreditierung in Vorbereitung Q3 2026, Förder-Pfade aktuell in Kooperation mit akkreditierten Partner-Beratungen.

Baybora Gülec· Gründer, Azena

Nächster Schritt

Passt das auf Ihren Fall?

30-Min-Erstgespräch, kostenfrei und unverbindlich. Wir gehen Ihren konkreten Fall durch — und sagen ehrlich, wenn nichts passt.

Teilen LinkedIn Per E-Mail