Warum halluzinieren KI-Modelle?

Die Ursachen liegen in der mathematischen Natur von LLMs: Sie optimieren auf wahrscheinliche Token-Folgen, nicht auf Wahrheit. Weitere Treiber sind unvollständige Trainingsdaten (GIGO), Distribution Shift zwischen Training und Einsatz, sowie fehlende Mechanismen zur Unsicherheitskommunikation.

Wie kann man KI-Halluzinationen reduzieren?

Effektive Massnahmen sind: RAG (Retrieval Augmented Generation) für faktisch kritische Anwendungen, Behavioral Calibration zur Unsicherheitskommunikation, kontinuierliches Monitoring der Modellausgaben und menschliche Überprüfung bei hochriskanten Entscheidungen. Keine Methode eliminiert Halluzinationen vollständig.

Welches Risiko stellen KI-Halluzinationen für Unternehmen dar?

Das Risiko ist erheblich: falsche Rechtsauskünfte, fehlerhafte medizinische Informationen, erfundene Quellenangaben oder inkorrekte Finanzdaten können zu Haftungsrisiken führen. Besonders im DACH-Raum mit strengen DSGVO- und Compliance-Anforderungen ist menschliche Aufsicht Pflicht.

KI-Halluzinationen: Ursachen, Risiken und wie man sie wirklich reduziert

Q: Was sind KI-Halluzinationen?

KI-Halluzinationen sind Ausgaben von Sprachmodellen, die faktisch falsch, inkonsistent oder erfunden sind, aber plausibel klingen. Das Modell 'halluziniert' Fakten, Quellen oder Zusammenhänge, die nicht existieren — ein strukturelles Problem aller aktuellen LLMs.

KI-Halluzinationen erklärt: Warum Sprachmodelle Fakten erfinden, welche Grenzen RAG und Kalibrierung haben und was Nutzer, Entwickler und Regulatoren tun sollten.

Victor Klaue IT-Projektleiter & KI-Analyst · Veröffentlicht 22. März 2026 · 8 min Lesezeit

KI-Halluzinationen: Ursachen, Risiken und wie man sie wirklich reduziert

Wer einem Sprachmodell vertraut hat und danach herausfand, dass der zitierte Wissenschaftler nie existiert, der Gesetzesartikel falsch datiert oder der Dissertationstitel schlicht erfunden war, der kennt das Problem aus erster Hand. KI-Halluzinationen sind längst kein akademisches Randthema mehr. Sie treten täglich in Millionen von Produktivumgebungen auf, von Rechtsrecherchen über medizinische Auskunftssysteme bis hin zu automatisierten Nachrichtenformaten. Was diese Fehlerklasse so tückisch macht: Sie laesst sich durch bessere Datenpflege oder schaerfere Prompts nur begrenzt reduzieren. Die Ursachen reichen tief in die mathematische Architektur der Modelle und in die Anreizsysteme, die ihre Entwicklung steuern. Genau dort anzusetzen lohnt sich.

Was sind KI-Halluzinationen?

Der Begriff KI-Halluzinationen bezeichnet Ausgaben von Sprachmodellen, die faktisch falsch, unbelegt oder schlicht erfunden sind und dabei mit derselben stilistischen Selbstsicherheit präsentiert werden wie korrekte Antworten. Die Forschung unterscheidet traditionell zwischen zwei Typen: intrinsischen und extrinsischen Halluzinationen.

Intrinsische Halluzinationen entstehen, wenn das Modell Informationen produziert, die dem eigenen Trainingskorpus direkt widersprechen. Das Modell "weiss" es besser, generiert aber dennoch Falsches. Extrinsische Halluzinationen hingegen sind Aussagen, die sich weder verifizieren noch widerlegen lassen: das Modell fabriziert Fakten jenseits seines Wissensstands, ohne erkennbaren Rückbezug auf tatsächliche Quellen.

Praxisbeispiele für KI-Halluzinationen sind zahlreich: Ein Modell nennt korrekt den Namen eines Professors, erfindet aber Titel und Erscheinungsjahr seiner Dissertation. Es gibt das Geburtsdatum einer historischen Persönlichkeit mit der falschen Jahreszahl an. Es zitiert einen Gerichtsentscheid mit korrektem Aktenzeichen, aber falschem Tenor. In all diesen Fällen klingt die Ausgabe plausibel. Genau das macht sie im Produktionseinsatz besonders gefährlich.

KI-Halluzinationen sind damit nicht bloss Fehler wie Tipp- oder Rechenfehler. Sie sind strukturell anders: Der Fehler ist statistisch bedingt, nicht zufaellig und systematisch reproduzierbar. Wer verstehen will, was hier wirklich passiert, muss in die Trainingsdynamik einsteigen.

Die mathematischen Wurzeln

Das Herzstück des Problems liegt im Optimierungsziel, das dem Pretraining von Sprachmodellen zugrunde liegt: die Minimierung der Cross-Entropy-Verlustfunktion über einen möglichst grossen Textkorpus. Das Modell lernt, den nächsten Token so zu wählen, dass er im statistischen Kontext des Trainingskorpus wahrscheinlich ist. Es lernt damit Verteilungen, keine Wahrheiten.

Aktuelle Forschungsarbeiten formalisieren diesen Zusammenhang präzise. Das sogenannte Is-It-Valid (IIV)-Problem beschreibt die fundamentale Einschränkung: Ein Modell kann nicht zuverlässiger sein als sein Verifikationsmechanismus. Formal laesst sich zeigen, dass die Generierungsfehler-Rate mindestens dem Doppelten der IIV-Fehlklassifikationsrate entspricht: das Modell kann also nicht besser generieren, als es intern validieren kann. Diese untere Schranke ist keine technische Unzulänglichkeit heutiger Implementierungen. Sie ist ein theoretisches Ergebnis.

Ein zweites zentrales Konzept ist die Singleton Rate (sr): der Anteil von Fakten im Trainingskorpus, die nur ein einziges Mal vorkommen. Für seltene Fakten: Biographien wenig bekannter Personen, Nischenwissen aus spezialisierten Domänen, historische Randnotizen: ist diese Rate hoch. Theorem 2 aus der neueren Literatur gibt eine formale untere Schranke für die Halluzinationsrate an:

err ≥ sr − O(1/min|Ec|) − O(1/√N) − δ

Die Terme rechts beschreiben, wie viel Spielraum das Modell durch Kontextgrösse und Trainingsdatenmenge zurückgewinnen kann. Entscheidend: Für Domänen mit hoher Singleton Rate bleibt die Fehlerrate strukturell erhöht: unabhängig davon, wie gross das Modell ist oder wie sorgfältig die Daten bereinigt wurden. Selbst ein fehlerfreier Trainingskorpus garantiert keine Fehlerfreiheit im Betrieb.

Das erklärt, warum Modelle bei der Abfrage bekannter Fakten (Hauptstädte, populäre Persönlichkeiten, vielzitierte Publikationen) deutlich zuverlässiger sind als bei Randwissen. Die statistische Dichte im Trainingskorpus ist der entscheidende Prädiktor, nicht die Schwierigkeit der Frage.

Hinzu kommt ein Argument aus der algorithmischen Komplexitätstheorie: Für bestimmte Klassen von Problemen: kryptographische Verifikation, NP-vollständige Entscheidungsprobleme: ist die Korrektheit der generierten Ausgabe prinzipiell nicht verlaesslich garantierbar. Halluzinationen in diesen Domänen sind nicht vermeidbar; sie sind eine direkte Konsequenz algorithmischer Intractability.

Das Benchmark-Dilemma

Wer glaubt, die Industrie würde diese Probleme durch geeignete Messverfahren systematisch angehen, wird beim näheren Hinsehen enttäuscht. Das gängige Bewertungsparadigma für Sprachmodelle belohnt Halluzinationen: strukturell und messbar.

Standard-Benchmarks verwenden überwiegend 0-1-Scoring: Eine Antwort ist entweder korrekt (1 Punkt) oder falsch (0 Punkte). Eine dritte Option, "Ich weiss es nicht" (IDK), wird typischerweise wie eine falsche Antwort gewertet oder gar nicht erst vorgesehen. Das hat eine unmittelbare Konsequenz auf das Verhalten der Modelle: Raten ist rational. Ein Modell, das bei Unsicherheit eine Antwort generiert, die zufällig korrekt ist, erzielt denselben Punktwert wie eines, das die Antwort tatsächlich weiss. Damit schlägt es systematisch Modelle, die bei geringer Konfidenz Abstinenz üben.

Das Konzept der Behavioral Calibration beschreibt das Gegenbild: Ein gut kalibriertes Modell würde mit IDK antworten, sobald seine interne Konfidenz unter einen definierten Schwellenwert t fällt. Es würde die Grenze seines Wissens kommunizieren statt raten. Dieses Verhalten ist wünschenswert, wird durch das herrschende Bewertungssystem aber systematisch bestraft. Auf etablierten Leaderboards verliert ein solches Modell gegenüber einem, das bereitwillig konfabuliert.

Das schafft einen gefährlichen Rückkopplungskreislauf. Modelle werden auf Benchmark-Performance optimiert. Benchmark-Performance wird durch Scoring-Systeme definiert, die IDK bestrafen. Also werden Modelle trainiert, überkonfident zu antworten. Post-Training durch Reinforcement Learning aus menschlichem Feedback (RLHF) verstärkt diesen Effekt tendenziell: Nutzerinnen und Nutzer bevorzugen in Bewertungsprotokollen häufig Antworten, die vollständig und selbstsicher klingen: auch wenn die Selbstsicherheit nicht gerechtfertigt ist.

Der Wettbewerbsdruck in der KI-Industrie verschärft das Problem zusätzlich. Anbieter, die ihre Modelle konservativer kalibrieren, schneiden auf gängigen Leaderboards schlechter ab: selbst wenn ihre Modelle zuverlässiger sind. Vertrauenswürdigkeit und gemessene Leistung divergieren systematisch. Die Anreize zeigen in die falsche Richtung.

Weitere Treiber: GIGO, Distribution Shift und strukturelle Grenzen

Neben den theoretischen Grundproblemen existieren praktische Treiber, die Halluzinationen ki zusätzlich begünstigen.

GIGO: Garbage In, Garbage Out ist das Älteste unter ihnen. Trainingsdaten sind nie perfekt. Das Web enthält Falschinformationen, veraltete Einträge, fehlerhafte Wikis, propagandistisch verzerrte Quellen. Modelle lernen aus diesen Daten und reproduzieren entsprechende Fehler. Anders als bei klassischen Datenbanken, die fehlerhafte Einträge isolieren lassen, verteilt sich fehlerhaftes Wissen bei neuronalen Netzen diffus über die gesamten Gewichte. Es laesst sich nicht chirurgisch entfernen.

Distribution Shift beschreibt die Diskrepanz zwischen der Verteilung der Trainingsdaten und der Verteilung der Anfragen im produktiven Einsatz. Ein Modell, trainiert auf einem Datenschnitt bis Mitte 2024, wird mit Fragen zu Ereignissen, Unternehmen und Personen konfrontiert, die danach entstanden oder sich verändert haben. Es kann dies nicht wissen. Oft weiss es auch nicht, dass es es nicht weiss. Statt einer Abstinenz-Antwort generiert es eine plausibel klingende Extrapolation.

Besonders tückisch ist die Kombination aus Distribution Shift und hoher Singleton Rate. Neue Fakten zu einer Person, einem Unternehmen oder einer Rechtslage sind im Trainingskorpus selten mehrfach vorhanden, wenn sie überhaupt enthalten sind. Die theoretische untere Schranke für Halluzinationen trifft hier mit voller Wucht.

Signal der Woche abonnieren

Eine Nachricht. Eine Analyse. Jeden Freitag im Newsletter.

Kostenlos als Member. Gratis abonnieren

Was hilft? RAG, Behavioral Calibration, Monitoring und ihre Grenzen

Die Werkzeugkiste gegen Halluzinationen in der Produktion ist nicht leer. Retrieval-Augmented Generation (RAG) ist derzeit der am weitesten verbreitete Ansatz. Dabei wird der Kontext durch externe, verifizierbare Dokumente angereichert, damit sich das Modell nicht ausschliesslich auf sein implizites Wissen stützt. Das Modell generiert mit Bezug auf eine aktuelle Quelle.

RAG reduziert Halluzinationen nachweisbar, insbesondere bei faktentreuen, quellengebundenen Anfragen. Aktuelle Forschung zu RAG, Reasoning und agentischen Systemen bestätigt diese Richtung, warnt aber zugleich vor einem Missverständnis. Retrieval verschiebt das Problem von der reinen Generierung in die Qualität der Quellen, des Rankings und der Kontextauswahl. RAG ist deshalb eine Architekturkomponente, kein Wahrheitsmodul mit eigenen Fehlermodi. Die Grenzen sind real. Wenn das abgerufene Dokument selbst fehlerhaft ist, propagiert RAG den Fehler. Wenn kein passendes Dokument gefunden wird, kann das Modell auf sein Basiswissen zurückfallen, ohne dies transparent zu kommunizieren. Und die Qualität der Retrieval-Komponente variiert erheblich, je nach Einbettungsmodell, Chunking-Strategie und Indexgrösse.

Reasoning-Module und Chain-of-Thought-Ansätze verbessern die Fehlerquote bei strukturierten Problemen, bei denen sich Zwischenschritte überprüfen lassen. Sie helfen weniger bei rein faktuellen Abfragen, bei denen kein strukturierter Inferenzpfad existiert.

Behavioral Calibration, also die systematische Einführung von IDK-Antworten bei geringer Konfidenz, ist theoretisch der sauberste Ansatz. Praktisch steht ihm eine UX-Hürde entgegen. Nutzer, die "Ich weiss es nicht" als Antwort erhalten, reagieren oft mit Frustration oder wechseln zum Konkurrenzprodukt. Das Kalibrierungs-Paradox: Was zuverlässiger macht, kann als weniger nützlich wahrgenommen werden.

Monitoring und Human-in-the-Loop-Prozesse können Halluzinationen in Hochrisikoanwendungen abfangen: verlangen aber Infrastruktur, Ressourcen und Prozessdisziplin, die viele Implementierungen nicht mitbringen. Und: Monitoring erkennt Halluzinationen nur, wenn Mensch oder System erkennen, dass etwas falsch ist. Bei subtilen Fehlern: plausiblen Unwahrheiten in Spezialdomänen: versagt auch Monitoring.

Das zentrale Ergebnis: Alle genannten Massnahmen reduzieren Halluzinationen. Keine von ihnen beseitigt sie. Und keine adressiert das systemische Incentive-Problem, das sie strukturell begünstigt. In sicherheitsrelevanten KI-Systemen ist das mehr als ein Qualitätsproblem: Halluzinationen sind eine eigene Risikokategorie innerhalb der breiteren KI-Sicherheitslandschaft, weil sie Fehlentscheidungen plausibel aussehen lassen.

Systemperspektive: warum technische Fixes allein nicht reichen

Die eigentliche Herausforderung ist keine technische. Sie ist institutionell.

Solange die dominanten Bewertungsmechanismen der KI-Branche: Leaderboards, öffentliche Benchmarks, akademische Arbeiten: überkonfidentes Raten gegenüber kalibrierten Abstinenz-Antworten bevorzugen, werden Modelle in diese Richtung optimiert. Die Forschungsgemeinschaft erkennt dieses Problem, hat aber noch keinen verbindlichen Standard etabliert, der IDK-Antworten angemessen honoriert.

Eine strukturelle Gegenmassnahme wäre die Anpassung von Benchmarks: Explizite Konfidenz-Targets einführen, Credit für Abstinenz in Scoring-Systemen verankern, Kalibrierungsmetriken (etwa Expected Calibration Error, ECE) neben reinen Genauigkeitswerten ausweisen. Das würde den Anreiz verschieben: weg von "raten wenn unsicher" hin zu "kommunizieren wenn unsicher".

Für Produktentwickler bedeutet das: Kalibrierungsqualität aktiv messen und Benchmark-Scores nicht isoliert betrachten und in Einkaufsentscheidungen einbeziehen. Für Regulatoren bedeutet es, besonders mit Blick auf den EU AI Act, Transparenzanforderungen auf Ausgaben und deren Konfidenz auszudehnen. Ein Modell, das nicht weiss, dass es nicht weiss, ist in Hochrisikoanwendungen ein rechtliches und ethisches Problem.

Der Wettbewerbsdruck bleibt das schwierigste Element. Anbieter, die ihre Modelle konservativer kalibrieren und öfter "Ich weiss es nicht" antworten lassen, riskieren kurzfristige Marktanteile. Hier sind koordinierte Industriestandards oder regulatorische Mindestanforderungen die einzige realistische Gegenkraft: freiwillige Selbstbeschränkung einzelner Anbieter wird durch den Wettbewerb untergraben, solange die Bewertungsmechanismen nicht folgen.

Schliesslich braucht es ein ehrlicheres öffentliches Narrativ. Die Kommunikation rund um Sprachmodelle: von Anbietern, aber auch von vielen Medien: suggeriert häufig, Halluzinationen seien ein lösbares Ingenieursproblem, das mit dem nächsten Release Geschichte sein wird. Die mathematischen Grundlagen zeigen: Das ist falsch. Bestimmte Halluzinationen sind prinzipiell unvermeidlich. Diesen Umstand anzuerkennen ist keine Niederlage: es ist die Voraussetzung für einen verantwortungsvollen Umgang.

Fazit: Was Nutzer, Entwickler und Regulatoren tun sollten

Was sind KI-Halluzinationen, wenn man alle Schichten abträgt? Sie sind das Resultat eines statistischen Optimierungsprozesses, der auf Wahrscheinlichkeit trainiert, auf Wahrscheinlichkeit statt Wahrheit. Sie sind theoretisch nachweisbar unvermeidlich für seltene Fakten und algorithmisch unlösbare Problemklassen. Und sie werden durch das herrschende Bewertungssystem aktiv begünstigt.

Für Nutzerinnen und Nutzer folgt daraus: Misstrauen proportional zur Seltenheit des abgefragten Faktenwissens. Bei Nischenthemen, unbekannten Personen, juristischen Details oder medizinischen Randphänomenen ist Quellen-Verifikation zwingend. Das Modell klingt gleich sicher, ob es korrekt ist oder nicht: das Aussenzeichen "Selbstsicherheit" ist kein Qualitätssignal.

Für Entwicklerinnen und Entwickler bedeutet es: RAG einsetzen wo möglich, aber nicht als Sicherheitsnetz missbrauchen. Kalibrierungsmetriken messen und kommunizieren. IDK-Antworten in der UX so gestalten, dass sie als Qualitätsmerkmal, nicht als Versagen wahrgenommen werden: das ist ein Design-Problem, kein Modell-Problem.

Für Regulatoren ist der Handlungsbedarf konkret: Transparenz über Konfidenzwerte in Hochrisikoanwendungen einfordern, Halluzinationsraten in regulierten Domänen (Recht, Medizin, Behördenkommunikation) als Pflichtmetrik verankern und die Überarbeitung von Benchmark-Standards als Teil der KI-Governance-Agenda platzieren: als systemisches Steuerungsproblem, nicht als technische Detailfrage.

KI-Halluzinationen verschwinden nicht mit dem nächsten Modell-Update. Sie sind struktureller Natur. Wer das versteht, kann angemessen mit ihnen umgehen: wer es ignoriert, baut auf einem fragilen Fundament.

Meine Meinung

Halluzinationen sind kein Randfehler, den das nächste Modell einfach wegtrainiert. Sie sind eine Folge davon, dass Sprachmodelle Wahrscheinlichkeit optimieren und Verifikation erst nachträglich eingebaut wird. Für produktive Systeme heisst das: Wer KI ohne Quellenprüfung, Kalibrierung und menschliche Verantwortung einsetzt, baut nicht Intelligenz ein, sondern plausible Unsicherheit.

? Häufige Fragen

Was ist eine KI-Halluzination?

Eine KI-Halluzination ist eine Ausgabe, die plausibel klingt, aber faktisch falsch, unbelegt oder erfunden ist. Besonders riskant ist, dass falsche Antworten oft genauso sicher formuliert werden wie richtige.

Warum halluzinieren Sprachmodelle?

Sprachmodelle lernen statistische Muster und Wahrscheinlichkeiten, keine Wahrheit. Seltene Fakten, unklare Trainingsdaten, Bewertungsanreize und fehlende Verifikation erhöhen das Risiko.

Hilft RAG gegen Halluzinationen?

Ja, aber nicht vollständig. RAG kann Antworten an aktuelle Dokumente binden, übernimmt aber Fehler aus schlechten Quellen, falschem Retrieval oder unpassendem Kontext.

Was ist die wichtigste Gegenmassnahme?

Für produktive Systeme braucht es mehrere Schichten: verifizierte Quellen, Kalibrierung, Monitoring, Human-in-the-Loop und klare Regeln, wann ein Modell nicht antworten soll.

🔗 Quellen