LLM Evaluation Using Semantic Entropy Évaluer
Überblick
LLM Evaluation mit Semantic Entropy schätzt Unsicherheit, indem geprüft wird, ob mehrere Modellantworten in der Bedeutung differieren, nicht nur in der Formulierung. Das zentrale Nature-Paper definiert Semantic Entropy als entropiebasierten Unsicherheitsschätzer über Bedeutungen generierter Antworten statt exakter Token-Sequenzen und wendet ihn an, um eine Teilmenge von Halluzinationen namens Confabulations zu erkennen (Nature: semantic entropy).
Die Methode sampelt mehrere Kandidatenantworten, clustert sie nach semantischer Äquivalenz und berechnet Entropy über diese Bedeungscluster. Semantische Äquivalenz wird über bidirektionales Entailment operationalisiert: Zwei Antworten gehören in denselben Cluster, wenn jede die andere im Kontext der ursprünglichen Frage impliziert (Nature: semantic entropy). Deshalb kann die Technik harmlose Paraphrasen-Diversität von inhaltlicher Uneinigkeit unterscheiden.
Semantic Entropy Evaluation steht auf Assess, weil es ein wertvolles Unsicherheitssignal ist, aber kein vollständiger Halluzinationsdetektor. Am nützlichsten, wenn falsche Antworten über Samples willkürlich variieren; weniger nützlich bei konsistent falschen Modellen, schlechtem Retrieval-Kontext oder wenn die Anwendung quellengebundene Faktenchecks braucht.
Adoptionssignale
- Das Nature-Paper 2024 berichtet, dass Semantic Entropy naive Entropy und überwachte Baselines in Question Answering und Mathe-Datasets übertrifft, mit durchschnittlich 0,790 AUROC über 30 Task-Modell-Kombinationen gegenüber 0,691 für naive Entropy, 0,698 für P(True) und 0,687 für eine Embedding-Regression-Baseline (Nature: semantic entropy).
- Die Originalmethode wurde auf Datasets wie TriviaQA, SQuAD, BioASQ, NQ-Open, SVAMP und FactualBio mit LLaMA 2 Chat, Falcon Instruct, Mistral Instruct und GPT-4 in verschiedenen Settings getestet (Nature: semantic entropy).
- Eine diskrete Semantic-Entropy-Variante ist nutzbar, wenn Token-Wahrscheinlichkeiten fehlen, durch Schätzung der Cluster-Wahrscheinlichkeiten aus Generierungszahlen, also in Black-Box-Settings (Nature: semantic entropy).
- Follow-up Semantic Entropy Probes zielen auf geringere Laufzeitkosten durch Approximation aus Hidden States einer einzelnen Generierung, motiviert durch 5- bis 10-fache Rechenkosten kanonischer Semantic Entropy (Semantic Entropy Probes).
- Efficient Bayesian Estimation behauptet bessere Schätzer bei festem Sample-Budget und adaptivem Sampling, mit nur 53 % der Samples von Farquhar et al. für gleiche Halluzinationserkennungs-AUROC (Efficient Bayesian Semantic Entropy).
- Neuere Arbeit argumentiert, Semantic Entropy könne wichtige Struktur übersehen, weil Intra-Cluster-Spread und Inter-Cluster-Distanz fehlen, und schlägt Pairwise Semantic Similarity für QA, Summarization und Machine Translation vor (Pairwise Semantic Similarity).
Risiken
- Erkennt Confabulation, nicht jede Halluzination. Das Nature-Paper fokussiert Confabulations: fließende, falsche, willkürliche Behauptungen, deren Antworten mit irrelevanten Sampling-Details variieren; es löst keine systematischen Fehler, bei denen das Modell konsistent falsch liegt (Nature: semantic entropy).
- Semantische Clustering-Qualität zählt. Die Methode hängt von Entailment- oder Äquivalenzurteilen ab; Clustering-Fehler verzerren Schätzer, besonders bei domänenspezifischer Sprache, numerischer Präzision, rechtlichen Unterscheidungen oder langen Antworten.
- Sampling-Kosten können hoch sein. Die Originalimplementierung nutzte zehn Generierungen; Follow-up nennt 5- bis 10-fache Rechenkosten, was praktische Adoption erschwert (Nature: semantic entropy, Semantic Entropy Probes).
- Langform-Outputs sind schwerer. Das Nature-Paper notiert, Biografie-Evaluation in Absatzlänge brauchte komplexere Zerlegung in Faktenbehauptungen und rekonstruierte Fragen; generierte Fragen waren eine Hauptfehlerquelle (Nature: semantic entropy).
- Moderne Outputs können Schätzergrenzen zeigen. Pairwise-Similarity-Arbeit argumentiert, bei längeren Ein-Satz-Antworten moderner LLMs werde Semantic Entropy weniger effektiv, weil Spread innerhalb und zwischen Clustern ignoriert wird (Pairwise Semantic Similarity).
- Kein Grounding. Semantic Entropy kann Unsicherheit ohne externe Evidenz flaggen, beweist aber nicht, dass eine niedrige Entropy-Antwort wahr, zitiert, permissions-sicher oder durch Retrieval-Kontext gestützt ist.
- Schwellenwert-Kalibrierung nötig. Produktion braucht task-spezifische Schwellen, Kostenbudgets, Sampling-Settings, Clustering-Modelle und Trade-offs bei False Positives/Negatives.
Vorteile & Nachteile
Vorteile
- Misst Unsicherheit über Bedeutungen statt exakter Formulierung und ist damit relevanter als Token-Entropy für willkürliche, inkonsistente Antworten.
- Als Black-Box-Signal anwendbar durch Sampling mehrerer Modellantworten, Clustering nach semantischer Äquivalenz und Entropy über Bedeutungscluster.
- Nützliches Risikosignal für High-Stakes-Workflows, in denen selbstbewusst falsche Antworten teuer sind, u. a. Compliance, Datenanalyse, RAG und operative Assistenten.
Nachteile
- Erkennt keine systematischen Halluzinationen, wenn das Modell konsistent gleich falsch liegt, weil der Fokus auf Instabilität über semantisch verschiedene Generierungen liegt.
- In Produktion teuer, weil kanonische Semantic Entropy mehrere Generierungen und semantisches Clustering oder Entailment-Checks braucht.
- Nur ein Signal in einem Eval-Ensemble, kein Ersatz für Grounding Checks, Retrieval Evaluation, Faktenchecks, Human Review oder domänenspezifische Tests.
Empfehlung
Semantic Entropy für LLM-Anwendungen assessen, wo willkürliche aber selbstbewusste Fehlantworten teuer sind: Compliance-Workflows, Finanzanalyse, medizinische oder wissenschaftliche Assistenten, Datenanalyse-Agenten und RAG mit faktischen Fragen. Als Unsicherheits- oder Eskalationssignal nutzen, nicht als finales Korrektheitsurteil.
Mit repräsentativen Prompts und bekannten Labels pilotieren. AUROC, Precision/Recall an Eskalationsschwellen, Kosten pro evaluierter Antwort, Latenz, Clustering-Fehler und Trefferquote gegenüber Retrieval-Grounding oder LLM-as-Judge messen. Kanonische Semantic Entropy mit günstigeren Varianten wie diskreten Schätzern, Bayesian Estimators, Semantic Entropy Probes und Pairwise Semantic Similarity vergleichen.
In einen breiteren Eval-Stack integrieren. Semantic Entropy mit Source-Grounding, Citation Validation, Retrieval-Metriken, Schema Validation, Confidence Calibration, Human Review und Post-Deployment-Monitoring kombinieren. Von Assess zu Trial nur wechseln, wenn das Signal Triage oder Risikoreduktion die Sampling- und Clustering-Kosten rechtfertigt.