KI-Halluzinationen: Ursachen, Risiken und wie man sie wirklich reduziert

KI-Halluzinationen sind kein Bug, den bessere Prompts einfach wegzaubern. Der Artikel erklärt Ursachen, Risiken und warum RAG, Monitoring und Kalibrierung nur Teilantworten liefern.

Victor Klaue Victor Klaue IT-Projektleiter & KI-Analyst 22. März 2026 7 min Lesezeit
KI-Halluzinationen: Ursachen, Risiken und wie man sie wirklich reduziert

Wer einem Sprachmodell vertraut hat und danach herausfand, dass der zitierte Wissenschaftler nie existiert, der Gesetzesartikel falsch datiert oder der Dissertationstitel schlicht erfunden war, der kennt das Problem aus erster Hand. KI-Halluzinationen sind längst kein akademisches Randthema mehr – sie treten täglich in Millionen von Produktivumgebungen auf, von Rechtsrecherchen über medizinische Auskunftssysteme bis hin zu automatisierten Nachrichtenformaten. Was diese Fehlerklasse so tückisch macht: Sie lässt sich nicht durch bessere Datenpflege oder schärfere Prompts vollständig eliminieren. Die Ursachen reichen tief in die mathematische Architektur der Modelle und in die Anreizsysteme, die ihre Entwicklung steuern – und genau dort anzusetzen lohnt sich.

Was sind KI-Halluzinationen?

Der Begriff KI-Halluzinationen bezeichnet Ausgaben von Sprachmodellen, die faktisch falsch, unbelegt oder schlicht erfunden sind – und dabei mit derselben stilistischen Selbstsicherheit präsentiert werden wie korrekte Antworten. Die Forschung unterscheidet traditionell zwischen zwei Typen: intrinsischen und extrinsischen Halluzinationen.

Intrinsische Halluzinationen entstehen, wenn das Modell Informationen produziert, die dem eigenen Trainingskorpus direkt widersprechen. Das Modell „weiss" es besser, generiert aber dennoch Falsches. Extrinsische Halluzinationen hingegen sind Aussagen, die sich weder verifizieren noch widerlegen lassen – das Modell fabriziert Fakten jenseits seines Wissensstands, ohne erkennbaren Rückbezug auf tatsächliche Quellen.

Ki-Halluzinationen Beispiele aus der Praxis sind zahlreich: Ein Modell nennt korrekt den Namen eines Professors, erfindet aber Titel und Erscheinungsjahr seiner Dissertation. Es gibt das Geburtsdatum einer historischen Persönlichkeit mit der falschen Jahreszahl an. Es zitiert einen Gerichtsentscheid mit korrektem Aktenzeichen, aber falschem Tenor. In all diesen Fällen klingt die Ausgabe plausibel – was sie im Produktionseinsatz besonders gefährlich macht.

Halluzinationen ki sind damit nicht bloss Fehler wie Tipp- oder Rechenfehler. Sie sind strukturell anders: Der Fehler ist nicht zufällig, sondern statistisch bedingt und systematisch reproduzierbar. Wer verstehen will, was hier wirklich passiert, muss in die Trainingsdynamik einsteigen.

Die mathematischen Wurzeln

Das Herzstück des Problems liegt im Optimierungsziel, das dem Pretraining von Sprachmodellen zugrunde liegt: die Minimierung der Cross-Entropy-Verlustfunktion über einen möglichst grossen Textkorpus. Das Modell lernt, den nächsten Token so zu wählen, dass er im statistischen Kontext des Trainingskorpus wahrscheinlich ist. Es lernt damit Verteilungen – keine Wahrheiten.

Aktuelle Forschungsarbeiten formalisieren diesen Zusammenhang präzise. Das sogenannte Is-It-Valid (IIV)-Problem beschreibt die fundamentale Einschränkung: Ein Modell kann nicht zuverlässiger sein als sein Verifikationsmechanismus. Formal lässt sich zeigen, dass die Generierungsfehler-Rate mindestens dem Doppelten der IIV-Fehlklassifikationsrate entspricht – das Modell kann also nicht besser generieren, als es intern validieren kann. Diese untere Schranke ist keine technische Unzulänglichkeit heutiger Implementierungen. Sie ist ein theoretisches Ergebnis.

Ein zweites zentrales Konzept ist die Singleton Rate (sr): der Anteil von Fakten im Trainingskorpus, die nur ein einziges Mal vorkommen. Für seltene Fakten – Biographien wenig bekannter Personen, Nischenwissen aus spezialisierten Domänen, historische Randnotizen – ist diese Rate hoch. Theorem 2 aus der neueren Literatur gibt eine formale untere Schranke für die Halluzinationsrate an:

err ≥ sr − O(1/min|Ec|) − O(1/√N) − δ

Die Terme rechts beschreiben, wie viel Spielraum das Modell durch Kontextgrösse und Trainingsdatenmenge zurückgewinnen kann. Entscheidend: Für Domänen mit hoher Singleton Rate bleibt die Fehlerrate strukturell erhöht – unabhängig davon, wie gross das Modell ist oder wie sorgfältig die Daten bereinigt wurden. Selbst ein fehlerfreier Trainingskorpus garantiert keine Fehlerfreiheit im Betrieb.

Das erklärt, warum Modelle bei der Abfrage bekannter Fakten (Hauptstädte, populäre Persönlichkeiten, vielzitierte Publikationen) deutlich zuverlässiger sind als bei Randwissen. Die statistische Dichte im Trainingskorpus ist der entscheidende Prädiktor – nicht die Schwierigkeit der Frage.

Hinzu kommt ein Argument aus der algorithmischen Komplexitätstheorie: Für bestimmte Klassen von Problemen – kryptographische Verifikation, NP-vollständige Entscheidungsprobleme – ist die Korrektheit der generierten Ausgabe prinzipiell nicht garantierbar. Halluzinationen in diesen Domänen sind nicht vermeidbar; sie sind eine direkte Konsequenz algorithmischer Intractability.

Das Benchmark-Dilemma

Wer glaubt, die Industrie würde diese Probleme durch geeignete Messverfahren systematisch angehen, wird beim näheren Hinsehen enttäuscht. Das gängige Bewertungsparadigma für Sprachmodelle belohnt Halluzinationen – strukturell und messbar.

Standard-Benchmarks verwenden überwiegend 0-1-Scoring: Eine Antwort ist entweder korrekt (1 Punkt) oder falsch (0 Punkte). Eine dritte Option – „Ich weiss es nicht" (IDK) – wird typischerweise wie eine falsche Antwort gewertet oder gar nicht erst vorgesehen. Das hat eine unmittelbare Konsequenz auf das Verhalten der Modelle: Raten ist rational. Ein Modell, das bei Unsicherheit eine Antwort generiert, die zufällig korrekt ist, erzielt denselben Punktwert wie eines, das die Antwort tatsächlich weiss – und schlägt damit systematisch Modelle, die bei geringer Konfidenz Abstinenz üben.

Das Konzept der Behavioral Calibration beschreibt das Gegenbild: Ein gut kalibriertes Modell würde mit IDK antworten, sobald seine interne Konfidenz unter einen definierten Schwellenwert t fällt. Es würde nicht raten, sondern die Grenze seines Wissens kommunizieren. Dieses Verhalten ist wünschenswert – und wird durch das herrschende Bewertungssystem systematisch bestraft. Auf etablierten Leaderboards verliert ein solches Modell gegenüber einem, das bereitwillig konfabuliert.

Das schafft einen gefährlichen Rückkopplungskreislauf. Modelle werden auf Benchmark-Performance optimiert. Benchmark-Performance wird durch Scoring-Systeme definiert, die IDK bestrafen. Also werden Modelle trainiert, überkonfident zu antworten. Post-Training durch Reinforcement Learning aus menschlichem Feedback (RLHF) verstärkt diesen Effekt tendenziell: Nutzerinnen und Nutzer bevorzugen in Bewertungsprotokollen häufig Antworten, die vollständig und selbstsicher klingen – auch wenn die Selbstsicherheit nicht gerechtfertigt ist.

Der Wettbewerbsdruck in der KI-Industrie verschärft das Problem zusätzlich. Anbieter, die ihre Modelle konservativer kalibrieren, schneiden auf gängigen Leaderboards schlechter ab – selbst wenn ihre Modelle zuverlässiger sind. Vertrauenswürdigkeit und gemessene Leistung divergieren systematisch. Die Anreize zeigen in die falsche Richtung.

Weitere Treiber: GIGO, Distribution Shift und strukturelle Grenzen

Neben den theoretischen Grundproblemen existieren praktische Treiber, die Halluzinationen ki zusätzlich begünstigen.

GIGO – Garbage In, Garbage Out ist das Älteste unter ihnen. Trainingsdaten sind nie perfekt. Das Web enthält Falschinformationen, veraltete Einträge, fehlerhafte Wikis, propagandistisch verzerrte Quellen. Modelle lernen aus diesen Daten – und reproduzieren entsprechende Fehler. Anders als bei klassischen Datenbanken, die fehlerhafte Einträge isolieren lassen, verteilt sich fehlerhaftes Wissen bei neuronalen Netzen diffus über die gesamten Gewichte. Es lässt sich nicht chirurgisch entfernen.

Distribution Shift beschreibt die Diskrepanz zwischen der Verteilung der Trainingsdaten und der Verteilung der Anfragen im produktiven Einsatz. Ein Modell, trainiert auf einem Datenschnitt bis Mitte 2024, wird mit Fragen zu Ereignissen, Unternehmen und Personen konfrontiert, die danach entstanden oder sich verändert haben. Es kann dies nicht wissen – aber es weiss auch oft nicht, dass es es nicht weiss. Statt einer Abstinenz-Antwort generiert es eine plausibel klingende Extrapolation.

Besonders tückisch ist die Kombination aus Distribution Shift und hoher Singleton Rate: Neue Fakten zu einer Person, einem Unternehmen oder einer Rechtslage sind per Definition einmalig im Trainingskorpus – wenn sie überhaupt enthalten sind. Die theoretische untere Schranke für Halluzinationen trifft hier mit voller Wucht.

Signal der Woche abonnieren

Eine Nachricht. Eine Analyse. Jeden Freitag im Newsletter.

Kostenlos als Member. Gratis abonnieren

Was hilft? RAG, Behavioral Calibration, Monitoring – und ihre Grenzen

Die Werkzeugkiste gegen ki-halluzinationen beispiele aus der Produktion ist nicht leer. Retrieval-Augmented Generation (RAG) ist derzeit der am weitesten verbreitete Ansatz: Statt sich ausschliesslich auf das implizite Wissen des Modells zu verlassen, wird der Kontext durch externe, verifizierbare Dokumente angereichert. Das Modell generiert nicht aus dem Gedächtnis, sondern referenziert eine aktuelle Quelle.

RAG reduziert Halluzinationen nachweisbar – insbesondere bei faktentreuen, quellengebundenen Anfragen. Eine aktuelle anwendungsorientierte Survey-Arbeit zu RAG, Reasoning und agentischen Systemen bestätigt diese Richtung, warnt aber zugleich vor einem Missverständnis: Retrieval verschiebt das Problem von der reinen Generierung in die Qualität der Quellen, des Rankings und der Kontextauswahl. RAG ist deshalb kein Wahrheitsmodul, sondern eine Architekturkomponente mit eigenen Fehlermodi. Die Grenzen sind real: Wenn das abgerufene Dokument selbst fehlerhaft ist, propagiert RAG den Fehler. Wenn kein passendes Dokument gefunden wird, kann das Modell auf sein Basiswissen zurückfallen, ohne dies transparent zu kommunizieren. Und die Qualität der Retrieval-Komponente variiert erheblich – je nach Einbettungsmodell, Chunking-Strategie und Indexgrösse.

Reasoning-Module und Chain-of-Thought-Ansätze verbessern die Fehlerquote bei strukturierten Problemen, bei denen sich Zwischenschritte überprüfen lassen. Sie helfen weniger bei rein faktuellen Abfragen, bei denen kein strukturierter Inferenzpfad existiert.

Behavioral Calibration – die systematische Einführung von IDK-Antworten bei geringer Konfidenz – ist theoretisch der sauberste Ansatz. Praktisch steht ihm eine UX-Hürde entgegen: Nutzerinnen und Nutzer, die „Ich weiss es nicht" als Antwort erhalten, reagieren oft mit Frustration oder wechseln zum Konkurrenzprodukt. Das Kalibrierungs-Paradox: Was zuverlässiger macht, kann als weniger nützlich wahrgenommen werden.

Monitoring und Human-in-the-Loop-Prozesse können Halluzinationen in Hochrisikoanwendungen abfangen – verlangen aber Infrastruktur, Ressourcen und Prozessdisziplin, die viele Implementierungen nicht mitbringen. Und: Monitoring erkennt Halluzinationen nur, wenn Mensch oder System erkennen, dass etwas falsch ist. Bei subtilen Fehlern – plausiblen Unwahrheiten in Spezialdomänen – versagt auch Monitoring.

Das zentrale Ergebnis: Alle genannten Massnahmen reduzieren Halluzinationen. Keine von ihnen beseitigt sie. Und keine adressiert das systemische Incentive-Problem, das sie strukturell begünstigt. In sicherheitsrelevanten KI-Systemen ist das mehr als ein Qualitätsproblem: Halluzinationen sind eine eigene Risikokategorie innerhalb der breiteren KI-Sicherheitslandschaft, weil sie Fehlentscheidungen plausibel aussehen lassen.

Systemperspektive – warum technische Fixes allein nicht reichen

Die eigentliche Herausforderung ist keine technische. Sie ist institutionell.

Solange die dominanten Bewertungsmechanismen der KI-Branche – Leaderboards, öffentliche Benchmarks, akademische Papers – überkonfidentes Raten gegenüber kalibrierten Abstinenz-Antworten bevorzugen, werden Modelle in diese Richtung optimiert. Die Forschungsgemeinschaft erkennt dieses Problem, hat aber noch keinen verbindlichen Standard etabliert, der IDK-Antworten angemessen honoriert.

Eine strukturelle Gegenmassnahme wäre die Anpassung von Benchmarks: Explizite Konfidenz-Targets einführen, IDK-Credit in Scoring-Systemen verankern, Kalibrierungsmetriken (etwa Expected Calibration Error, ECE) neben reinen Genauigkeitswerten ausweisen. Das würde den Anreiz verschieben – weg von „raten wenn unsicher" hin zu „kommunizieren wenn unsicher".

Für Produktentwickler bedeutet das: Nicht nur auf Benchmark-Scores achten, sondern Kalibrierungsqualität aktiv messen und in Einkaufsentscheidungen einbeziehen. Für Regulatoren – besonders relevant mit Blick auf den EU AI Act – bedeutet es, Transparenzanforderungen nicht nur auf Ausgaben, sondern auf die Konfidenz von Ausgaben auszudehnen. Ein Modell, das nicht weiss, dass es nicht weiss, ist in Hochrisikoanwendungen ein rechtliches und ethisches Problem.

Der Wettbewerbsdruck bleibt das schwierigste Element. Anbieter, die ihre Modelle konservativer kalibrieren und öfter „Ich weiss es nicht" antworten lassen, riskieren kurzfristige Marktanteile. Hier sind koordinierte Industriestandards oder regulatorische Mindestanforderungen die einzige realistische Gegenkraft – freiwillige Selbstbeschränkung einzelner Anbieter wird durch den Wettbewerb untergraben, solange die Bewertungsmechanismen nicht folgen.

Schliesslich braucht es ein ehrlicheres öffentliches Narrativ. Die Kommunikation rund um Sprachmodelle – von Anbietern, aber auch von vielen Medien – suggeriert häufig, Halluzinationen seien ein lösbares Ingenieursproblem, das mit dem nächsten Release Geschichte sein wird. Die mathematischen Grundlagen zeigen: Das ist falsch. Bestimmte Halluzinationen sind prinzipiell unvermeidlich. Diesen Umstand anzuerkennen ist keine Niederlage – es ist die Voraussetzung für einen verantwortungsvollen Umgang.

Fazit – was Nutzer, Entwickler und Regulatoren tun sollten

Was sind KI-Halluzinationen, wenn man alle Schichten abträgt? Sie sind das Resultat eines statistischen Optimierungsprozesses, der auf Wahrscheinlichkeit trainiert, nicht auf Wahrheit. Sie sind theoretisch nachweisbar unvermeidlich für seltene Fakten und algorithmisch unlösbare Problemklassen. Und sie werden durch das herrschende Bewertungssystem aktiv begünstigt.

Für Nutzerinnen und Nutzer folgt daraus: Misstrauen proportional zur Seltenheit des abgefragten Faktenwissens. Bei Nischenthemen, unbekannten Personen, juristischen Details oder medizinischen Randphänomenen ist Quellen-Verifikation nicht optional, sondern zwingend. Das Modell klingt gleich sicher, ob es korrekt ist oder nicht – das Aussenzeichen „Selbstsicherheit" ist kein Qualitätssignal.

Für Entwicklerinnen und Entwickler bedeutet es: RAG einsetzen wo möglich, aber nicht als Sicherheitsnetz missbrauchen. Kalibrierungsmetriken messen und kommunizieren. IDK-Antworten in der UX so gestalten, dass sie nicht als Versagen, sondern als Qualitätsmerkmal wahrgenommen werden – das ist ein Design-Problem, kein Modell-Problem.

Für Regulatoren ist der Handlungsbedarf konkret: Transparenz über Konfidenzwerte in Hochrisikoanwendungen einfordern, Halluzinationsraten in regulierten Domänen (Recht, Medizin, Behördenkommunikation) als Pflichtmetrik verankern und die Überarbeitung von Benchmark-Standards als Teil der KI-Governance-Agenda platzieren – nicht als technische Detailfrage, sondern als systemisches Steuerungsproblem.

KI-Halluzinationen verschwinden nicht mit dem nächsten Modell-Update. Sie sind struktureller Natur. Wer das versteht, kann angemessen mit ihnen umgehen – wer es ignoriert, baut auf einem fragilen Fundament.

🔗 Quellen

Signal der Woche abonnieren

Eine Nachricht. Eine Analyse. Jeden Freitag im Newsletter.