OpenTelemetry for GenAI Observability Trial

llmops observability opentelemetry agents genai-telemetry tracing metrics semantic-conventions

Mai 2026

Überblick

OpenTelemetry for GenAI Observability wendet vendor-neutrale Telemetrie auf Model Calls, Agent Steps, Tool Invocations, Token Usage, Exceptions, Latenz und Systemverhalten an. Die OpenTelemetry GenAI Semantic Conventions definieren Signale für GenAI Inputs und Outputs als Events, Exceptions, Operation Metrics, Model-Operation Spans und Agent-Operation Spans (OpenTelemetry).

Das zählt, weil AI-Incidents selten nur in der LLM-Schicht leben. Teams müssen Prompts, Retrieval, Tool Calls, nachgelagerte Services, Infrastruktur-Metriken und Application Errors im selben Observability-Workflow korrelieren.

In Adopt für Produktions-AI-Services halten. Spezialisierte LLMOps-Tools bleiben nützlich für Evaluation und Debugging; OpenTelemetry sollte die Portability-Schicht sein, die AI Traces mit bestehenden Observability Pipelines verbindet.

Adoptionssignale

OpenTelemetry hat dedizierte GenAI Semantic Conventions für Events, Exceptions, Metrics, Model Spans und Agent Spans (OpenTelemetry).
Die Conventions enthalten technology-spezifische Guidance für Anthropic, Azure AI Inference, AWS Bedrock, OpenAI und Model Context Protocol, was breite Provider Coverage zeigt (OpenTelemetry).
LangSmith unterstützt natives Tracing für gängige Agent Frameworks und OpenTelemetry und kann LangSmith Trace Data an bestehende Tools senden oder OTel Data in LangSmith ingestieren (LangSmith).
Langfuse sagt, sein Tracing basiere auf OpenTelemetry für mehr Kompatibilität und weniger Vendor Lock-in, mit Traces über LLM Calls, Retrieval, Embedding, API Calls, Sessions und Agent Graphs (Langfuse).
Produktions-Dashboards tracken zunehmend Token Usage, Latenz, Error Rates, Kostenaufschlüsselung, Feedback Scores und Online Evals als zentrale AI-Operations-Metriken (LangSmith, Langfuse).

Risiken

Die GenAI Conventions sind noch als Development markiert; Teams sollten Naming-, Attribut- und Stabilitätsänderungen erwarten, während der Standard reift (OpenTelemetry).

Prompt- und Response-Telemetrie kann sensible Daten enthalten. Instrumentation braucht Redaktion, Sampling, Retention Policies, Access Controls und klare Regeln, ob voller Content, Hashes, Metadaten oder externalisierte Payload References gespeichert werden.

Telemetrie-Kosten können schnell wachsen. Agent Traces können tief verschachtelte Runs, große Payloads, viele Tool Calls und wiederholte Model Invocations enthalten; Sampling und Retention früh setzen (LangSmith).

Observability ersetzt keine Evaluation. Traces zeigen, was passiert ist; Teams brauchen weiter Quality Checks, Safety Checks und Regression Suites, um zu entscheiden, ob Verhalten akzeptabel ist.

Vorteile & Nachteile

Vorteile

Erweitert vertraute Telemetrie-Praktiken auf Prompts, Model Calls, Tokens, Latenz und Tool Usage.
Hilft, AI-Verhalten mit Application Traces und Incidents zu korrelieren.
Vermeidet isolierte Vendor Dashboards durch einen offenen Observability-Standard.

Nachteile

Sensible Prompt- und Response-Daten brauchen sorgfältige Redaktion und Retention Policies.
GenAI Semantic Conventions reifen noch.
Telemetrie-Volumen und Kosten können bei High-Traffic-AI-Systemen schnell wachsen.

Empfehlung

OTel-kompatible Instrumentation für Produktions-AI-Services und Agents adoptieren. Model Spans, Tool Spans, Retrieval Spans, Token Metrics, Latenz, Errors, Cache Events und strukturierte Correlation IDs erfassen, sensible Inhalte standardmäßig redigieren.

LLMOps-Tools für Prompt/Version Debugging, Online Evals und Trace Review nutzen, aber die Telemetrie-Grundlage portabel halten. Plattformen bevorzugen, die nach OpenTelemetry exportieren oder ingestieren können, damit AI Operations kein abgekoppeltes Dashboard werden.