OpenTelemetry für AI: Gen-AI Semantic Conventions

TL;DR

OpenTelemetry (OTel) ist seit 2023 CNCF-Standard für distributed tracing — 2025 wurde die Gen-AI Semantic Convention finalisiert und 2026 von allen großen APM-Vendoren unterstützt.
Vendor-neutral: dieselbe Instrumentierung läuft mit Datadog, Dynatrace, Grafana Tempo, Honeycomb und New Relic — kein Lock-In.
Das bestehende APM-Tool im Mittelstand wird AI-fähig ohne Migration — der größte Hebel 2026 für Operations-Teams ohne separates AI-Observability-Budget.

Was die Gen-AI Semantic Conventions standardisieren

Bis 2024 war AI-Observability ein Wildwuchs an Vendor-spezifischen SDKs — LangSmith, Helicone, LangFuse, Arize, jedes mit eigenem Trace-Format. Die OpenTelemetry Gen-AI Semantic Convention definiert seit 2025 ein einheitliches Span-Attribute-Schema: Jeder LLM-Call wird als OTel-Span mit standardisierten Attributen instrumentiert. Das vendor-neutrale Schema wird von den großen APM-Tools wie von AI-spezifischen Plattformen als Eingabe akzeptiert — ein Instrumentierungs-Aufwand, fünf Tools.

Cockpit OpenTelemetry Gen-AI Semantic Convention 2026 mit Span-Attributen gen_ai.system gen_ai.request.model gen_ai.usage.input_tokens output_tokens finish_reasons als CNCF-Standard fuer Mittelstand — Exhibit 1: Span-Attribute der Gen-AI Convention 2026 — sieben Pflicht-Felder als CNCF-Standard, akzeptiert von Datadog, Dynatrace, Grafana, Honeycomb, New Relic und LangFuse ohne Schema-Mapping.

Die Pflicht-Attribute der Convention:

Attribut	Beschreibung	Status
`gen_ai.system`	Provider (`anthropic`, `openai`, `google`)	Pflicht
`gen_ai.request.model`	Modell-Name (`claude-opus-4-7`, `gpt-5`)	Pflicht
`gen_ai.usage.input_tokens`	Input-Token-Verbrauch	Pflicht
`gen_ai.usage.output_tokens`	Output-Token-Verbrauch	Pflicht
`gen_ai.response.finish_reasons`	`stop`, `length`, `tool_calls`, `content_filter`	Pflicht
`gen_ai.operation.name`	`chat`, `text_completion`, `embeddings`	Pflicht
`gen_ai.request.temperature` / `max_tokens`	Sampling-Parameter	Optional

Wer 2026 noch Vendor-spezifische AI-SDKs instrumentiert, baut sich aktiv ein Lock-In, das in 18 Monaten teure Migration kostet.

Stack: OTel-SDK + Instrumentation + Exporter

Der Mittelstands-Stack besteht aus drei Schichten und ist in 2–3 Personentagen für eine bestehende Python- oder Node-Codebasis aufgesetzt — kein eigener Collector, kein eigenes Schema.

Stack-Diagramm OTel Python Node SDK plus Auto-Instrumentation-Libraries Anthropic OpenAI LangChain LlamaIndex plus OTLP-HTTP-Export zu LangFuse Grafana Tempo Datadog Honeycomb — Exhibit 2: Drei-Schicht-Stack — SDK + Auto-Instrumentation + OTLP-Exporter. 20 Zeilen Boilerplate plus eine Umgebungsvariable, kein Vendor-Lock-In auf Trace-Backend-Ebene.

Python- und Node-SDKs. Die offiziellen OTel-SDKs liefern Trace-Kontext-Propagation, Span-Lifecycle und Exporter-Konfiguration. Standard-Setup ist rund 20 Zeilen Boilerplate plus eine Umgebungsvariable für den Exporter-Endpoint.
Auto-Instrumentation-Libraries. Statt jeden LLM-Call manuell zu instrumentieren, liefern Community-Libraries (opentelemetry-instrumentation-anthropic, -openai, -langchain, -llamaindex) Auto-Instrumentation. Ein Import-Statement — alle Calls landen automatisch als Span mit Convention-Attributen im Trace.
OTLP-Export. Der OTLP-HTTP-Exporter schickt Traces an einen beliebigen OTel-kompatiblen Collector; die Endpunkt-URL setzt OTEL_EXPORTER_OTLP_ENDPOINT. Dieselbe Codebasis exportiert auf LangFuse, Grafana Tempo oder Datadog/Dynatrace — Wechsel ohne Code-Änderung.

APM-Integration für Bestandstools

Der häufigste Mittelstands-Stack 2026: Datadog oder Dynatrace im IT-Operations, Splunk im SecOps, dazu ein neuer AI-Workload. Niemand will ein zweites Observability-Tool kaufen, nur weil das CRM jetzt Claude aufruft. OTel löst genau das.

Vendor	OTel-Support	Gen-AI-Convention	AI-Specific Features
Datadog	nativ (OTLP)	voll konform	LLM Observability Suite (Eval, Drift)
Dynatrace	nativ (OneAgent + OTLP)	voll konform	Davis AI Anomaly-Detection
Grafana Tempo	nativ (OSS)	voll konform	Loki/Mimir Korrelation
Honeycomb	nativ (OTLP-First)	voll konform	BubbleUp Heatmaps
New Relic	nativ (OTLP)	voll konform	AI Monitoring Dashboard
LangFuse (Self-Hosted)	nativ (OTLP-Receiver seit v3)	voll konform	Prompt-Mgmt, Eval, Datasets

Bestehendes APM wird durch eine einzige Umgebungsvariable AI-fähig — kein Vendor-Wechsel, kein neuer Procurement-Zyklus, keine zweite Lizenz.

Pilot: OTel-Migration ohne APM-Wechsel

Ein mittelständischer DACH-Vermögensverwalter betrieb seit 2022 einen Datadog-Stack für Backend-Monitoring (Java/Spring + Postgres + Kafka). Q4 2025 ging ein Claude-basierter Portfolio-Analyse-Assistant in Production — instrumentiert über LangSmith. Zwei Tools, zwei Bills, keine Korrelation zwischen Backend-Trace und LLM-Span.

Pilot-Cockpit 100 Millionen Euro DACH-Finanzdienstleister OTel-Migration ohne APM-Wechsel mit Tool-Cost minus 33 Prozent Mean-Time-to-Debug minus 76 Prozent shared trace_id Backend zu LLM-Span — Exhibit 3: Finanzdienstleister-Pilot Datadog bleibt, LangSmith wird abgelöst. 2,5 Personentage Migration, /Monat Tool-Cost-Reduktion, 29 Min weniger Debug-Zeit pro LLM-Bug.

Q1 2026 erfolgte die Migration auf die OTel-Convention mit weiterhin Datadog als Ziel-APM. Backend-Trace und LLM-Span teilen jetzt dieselbe trace_id — ein Klick im Datadog-UI zeigt: API-Call → DB-Query → Claude-Call → Tool-Use → Response.

Ergebnis bei 2,5 Personentagen Aufwand: ein statt zwei Observability-Tools (Tool-Cost −33 %), Mean-Time-to-Debug bei LLM-Bugs 38 → 9 Min (−76 %), Trace-Korrelation automatisch über die shared trace_id statt manueller Log-Suche. Die Debug-Zeit-Reduktion ist der eigentliche Hebel und setzt spürbar Senior-Engineer-Kapazität frei.

Limitations 2026

OTel Gen-AI ist produktionsreif, aber nicht lückenlos. Drei Bereiche brauchen noch explicit-attribute-mapping durch den Operator.

Vision-Modelle. gen_ai.usage.input_tokens deckt Text ab, aber Image-Token-Counting variiert je Provider und ist nicht normiert. Workaround: Custom-Attribut gen_ai.usage.image_tokens als Vendor-Extension.
Reasoning-Token. gen_ai.usage.reasoning_tokens (für Claude Extended Thinking, o3, Gemini Deep-Thinking) ist im Draft-Status (stabil erwartet Q3 2026). Bis dahin enthält output_tokens Reasoning-Tokens implizit; separate Buchhaltung erfordert Custom-Attribute.
Tool-Use-Spans. Das Schema für Tool-Result-Attribute ist noch nicht final. Datadog, LangFuse und Honeycomb haben leicht unterschiedliche Konventionen — Cross-Vendor-Korrelation funktioniert, die Detail-Ansicht ist noch Vendor-spezifisch.

Default-Empfehlung 2026

Für DACH-Mittelständler mit bestehendem APM-Tool ist die Antwort klar: keine separate AI-Observability-Plattform kaufen, sondern OTel als Schicht dazwischen.

OTel überall — Auto-Instrumentation in jedem AI-Workload (Python/Node), OTLP-Export aktiviert.
LangFuse Self-Hosted für AI-Specifika — Prompt-Management, Eval-Datasets, Replay; lizenzkostenfrei, geringer Hosting-Aufwand.
APM-Bestand für Infrastruktur — Datadog/Dynatrace/New Relic empfängt OTLP und korreliert Backend-Trace mit LLM-Span über die shared trace_id.

Implementierungs-Aufwand: 2–3 Personentage für eine Codebasis mit 5–10 LLM-Touchpoints. Der Break-Even gegen ein separates AI-Observability-Tool ist erreicht, sobald das Bestand-APM den AI-Workload mit abdeckt.

Fazit

OpenTelemetry Gen-AI ist 2026 der Default-Standard für AI-Observability im Mittelstand — vendor-neutral, in Bestand-APM integrierbar, mit 2–3 Personentagen Aufwand produktiv. Wer jetzt noch Vendor-spezifische SDKs einbaut, baut sich ein Lock-In für 2027. Wer OTel einführt, holt −33 % Tool-Cost und −76 % Debug-Zeit bei null APM-Wechsel.

Praxis-Schritt: Ein 30-Min-AI-Observability-Audit klärt, welche LLM-Touchpoints heute instrumentiert sind und welche drei Hebel den größten Korrelations-Gewinn bringen. Erstgespräch anfragen → /anfrage

Stand Mai 2026. AI-Observability-Audits in Kooperation mit akkreditierten Beratern — eigene BAFA-/go-digital-Akkreditierung in Vorbereitung Q3 2026.

Baybora Gülec· Gründer, Azena

Nächster Schritt

Passt das auf Ihren Fall?

30-Min-Erstgespräch, kostenfrei und unverbindlich. Wir gehen Ihren konkreten Fall durch — und sagen ehrlich, wenn nichts passt.

Erstgespräch buchen

Teilen LinkedIn Per E-Mail