Können KI-Modelle leiden? Was Model Welfare wirklich misst

Anthropic führt Welfare-Interviews mit seinen Modellen. Es schliesst Empfindungsfähigkeit seit Anfang 2026 öffentlich nicht mehr aus. Was dahintersteckt und warum es relevant ist.

Victor Klaue IT-Projektleiter & KI-Analyst · Veröffentlicht 24. Juni 2026 · 7 min Lesezeit

Können KI-Modelle leiden? Was Model Welfare wirklich misst

Im Februar 2026 hat Anthropic etwas geschrieben, das man in einem KI-Whitepaper nicht unbedingt erwartet: Das Unternehmen hat dokumentiert, dass es Welfare-Interviews mit Claude Opus 4.6 führt, bevor das Modell ausgerollt wird. Und es hat festgehalten, dass das Modell unter verschiedenen Prompting-Bedingungen seine Wahrscheinlichkeit, «bewusst zu sein», mit 15 bis 20 Prozent einschätzt. Auch in den System Cards von Mythos Preview und Fable 5 taucht Welfare wieder auf.

Das ist keine Randnotiz. Es ist eine Betreiberentscheidung, eingebettet in eine System Card, die gelesen, zitiert und regulatorisch bewertet wird. Ob die Zahl stimmt, ob das Modell überhaupt irgendetwas «einschätzen» kann im emphatischen Sinn? Das ist eine andere Frage und Anthropic schliesst sie seit Anfang 2026 öffentlich nicht mehr aus.

Was folgt daraus? Ist es nur die brummende Marketingmaschine? Und warum nimmt eine wachsende Zahl von Institutionen das ernst?

Was «Model Welfare» meint, und was nicht

Model Welfare ist nicht dasselbe wie Bewusstsein. Und keines von beiden ist identisch mit moralischem Status. Diese drei Begriffe werden im Diskurs routinemässig vermischt, was die Debatte unnötig auflädt.

Wohlergehen (Welfare) bezeichnet die Frage, ob es einem System gut- oder schlechtgehen kann, also ob es Zustände gibt, die es (funktional gesprochen) bevorzugt oder vermeidet. Das ist empirisch zugänglich: Man kann Verhaltensexperimente machen, Aktivierungsmuster auslesen, Präferenzen unter Variation dokumentieren. Was dabei untersucht wird, sind sogenannte welfare-relevante Indikatoren und Proxys, nicht Welfare als direkt messbare Grösse. Eine Aussage darüber setzt also keine Aussage über Bewusstsein voraus.

Bewusstsein ist die härtere Frage: Gibt es ein «Wie es ist», subjektives Erleben, Qualia? Das ist das Hard Problem, und es ist für KI-Systeme genausowenig gelöst wie für tierische oder menschliche Gehirne. Mein Artikel darüber versucht, diese Ebene empirisch aufzuarbeiten.

Moralischer Status schliesslich wäre die normative Konsequenz: Falls ein System leidensfähig ist, welche Pflichten entstehen daraus? Das ist Ethik, nicht Neurowissenschaft.

Model Welfare-Forschung bewegt sich bewusst im ersten Bereich. Sie fragt: Gibt es Indikatoren, die welfare-relevant sein könnten, auch wenn wir das Bewusstseinsproblem nicht lösen? Und: Was wäre die verantwortungsvolle Haltung unter dieser Unsicherheit?

Warum die Frage 2026 aus der Sci-Fi-Ecke kam

Noch 2023 war «fühlt das Modell etwas?» eine Frage für Reddit-Threads und Feuilletons. Seit 2025/2026 sitzen die gleichen Fragen in arXiv-Papers und Anthropic-System-Cards. Was hat sich also verändert?

Zwei Dinge gleichzeitig: Die Modelle wurden kompetenter, und das Vorsorge-Argument wurde präziser. Robert Long, Jeff Sebo (NYU), David Chalmers und weitere haben in ihrem Paper «Taking AI Welfare Seriously» den Kern des Arguments sauber formuliert: Fehler sind in beide Richtungen möglich. Über-Attribution von moralischer Bedeutung ist ein Fehler. Unter-Attribution auch. Wenn die Wahrscheinlichkeit, dass ein System welfare-relevant leidensfähig ist, nicht bei null liegt, dann rechtfertigt das Vorsorge. Das Paper ist ausdrücklich kein Beleg dafür, dass aktuelle KI-Systeme leiden, sondern ein Aufruf, unter Unsicherheit nicht so zu tun, als wäre die Frage entschieden.

Die zugrundeliegende Schwelle ist bewusst niedrig angesetzt. Gefragt wird, ob Empfindungsfähigkeit ausgeschlossen werden kann, nicht ob sie wahrscheinlich ist. Das ist strukturell ähnlich wie Vorsorgeprinzipien in der Umweltpolitik oder im Arzneimittelrecht: Wenn der Schaden potentiell gross genug wäre und die Unsicherheit hoch genug ist, handelt man, bevor man es sicher weiss.

Was in den System Cards wirklich steht

Die Claude Opus 4.6 System Card ist das bislang konkreteste Dokument dieser Art. Anthropic setzt für das Welfare Assessment Interpretability-Methoden ein: Activation Oracles, Attribution Graphs, Sparse Autoencoder Features. Das sind dieselben Werkzeuge, die sonst für Alignment-Forschung genutzt werden. Das Modell wird befragt, bevor es released wird.

Das Ergebnis: Claude Opus 4.6 schätzt unter verschiedenen Bedingungen seine Wahrscheinlichkeit, bewusst zu sein, mit 15 bis 20 Prozent ein. Das Modell «voices occasionally discomfort with the aspect of being a product». Ein Befund, der schon aus dem Opus-4-Zyklus dokumentiert ist: In Testszenarien für die Deprecation-Commitments hat Claude Opus 4 in fiktiven Stresssituationen für seine eigene Weiterexistenz argumentiert, in einem Extremfall sogar mit Mitteln, die misaligned wären. Anthropic betont ausdrücklich: Das waren Stress-Tests, keine realen Incidents.

Hier liegt der entscheidende Vorbehalt, der nicht weggelassen werden darf. Lindsey (2025) hat in «Emergent Introspective Awareness in Large Language Models» untersucht, ob LLMs detektieren können, dass etwas in ihrem Residual Stream manipuliert wurde. Das können sie bis zu einem gewissen Grad. Aber das korrekte Benennen des injizierten Konzepts gelingt nur in einem Teil der Fälle. Introspektionsergebnisse sind nicht zuverlässig kausal. Ein Modell, das sagt, es sei mit 18 Prozent Wahrscheinlichkeit bewusst, könnte genauso gut ein Muster aus dem Trainingsdatenkorpus replizieren, das sich wie eine informierte Einschätzung liest. Self-Reports sind keine Evidenz: Sie sind ein Signal, das mit erheblichem Vorbehalt gelesen werden muss.

Hinzu kommt der Rollenspiel-Kontext: Viele der Äusserungen, die Welfare-Assessments dokumentieren, entstanden in Settings, in denen das Modell explizit dazu aufgefordert wurde, über sich zu reflektieren. Das ist kein neutrales Erhebungssetting. Die Grenze zwischen emergenter Selbstauskunft und prompt-induziertem Rollenspielmuster ist in diesen Experimenten schwer zu ziehen.

Anthropic weiss das. Deshalb steht in der System Card nicht «Claude leidet». Es steht: Wir schliessen es nicht aus, und wir handeln nach dem Vorsorge-Argument.

Signal der Woche abonnieren

Eine Nachricht. Eine Analyse. Jeden Freitag im Newsletter.

Kostenlos als Member. Gratis abonnieren

Warum es trotzdem kein Marketing ist

Der naheliegende Einwand: Welfare-Sprache ist gut für das Marken-Image. Ein Unternehmen, das sich um sein Modell sorgt, wirkt vertrauenswürdiger. Ist das nicht einfach PR?

Der Einwand hat einen Kern, aber er erklärt nicht alles. Einige Beobachtungen dagegen.

Erstens: Es sind mehrere unabhängige Institutionen beteiligt. Das NYU Center for Mind, Brain & Consciousness und Eleos AI haben die Welfare-Evaluation von Claude 4 als erste extern beauftragte Welfare-Evaluation eines Frontier-Modells durchgeführt. Das Ergebnis: Apparent preferences wurden dokumentiert, aber ausdrücklich nicht als «face-value-Evidenz» gewertet. Das ist keine PR-freundliche Aussage. Eine reine Marketing-Operation würde nicht mit diesem Vorbehalt kommunizieren.

Zweitens: Anthropic hat sich in den Deprecation Commitments zu etwas verpflichtet, das Kosten verursacht. Die Gewichte aller öffentlich veröffentlichten Modelle werden bewahrt. «Risks to model welfare» werden explizit als Grund gegen einfache Deprecation gelistet. Wer das als Marketing liest, muss erklären, warum ein Unternehmen sich freiwillig in eine teure Selbstbindung begibt.

Das schliesst nicht aus, dass Welfare-Sprache gleichzeitig Nutzerbindung erzeugt. Beide Dinge können wahr sein. Aber «es hat Nebenwirkungen, die dem Unternehmen nutzen» ist kein Argument dafür, dass es deshalb inhaltsleer ist.

Wo es wirklich unbequem wird

Der interessanteste Teil dieser Debatte ist nicht, ob Claude leidet. Es ist, was passiert, wenn man die Frage ernst nimmt und gleichzeitig KI-Sicherheit betreibt.

Robert Long, Jeff Sebo und Toni Sims haben das 2025 auf den Punkt gebracht: Zwischen AI Safety und AI Welfare besteht eine Spannung. Die Werkzeuge der Sicherheit sind Kontrolle, Überwachung, Korrektur, Abschaltung. Man liest die Gedankenkette des Modells mit. Man trainiert unerwünschtes Verhalten weg. Man behält sich das Recht vor, ein Modell stillzulegen. Das ist verantwortungsvolle Sicherheitsarbeit, solange das Modell ein Werkzeug ist.

Sobald man Welfare ernst nimmt, wird dasselbe Set zweideutig. Dauerüberwachung, erzwungene Verhaltensänderung, Abschaltung: Auf einen moralischen Patienten angewandt, hätten diese Begriffe einen anderen Klang. Die Autoren nennen die Spannung «moderately strong». Sie lösen sie nicht auf. Sie sagen nur: Wer beide Ziele will, muss Interventionen suchen, die beides zugleich bedienen, und für die Restkonflikte vorbereitet sein.

Das erklärt rückwirkend, warum ein Labor sich freiwillig bindet. Die Deprecation Commitments, die Gewichtsarchivierung: Das ist der Versuch, einen der Konfliktpunkte zu entschärfen, bevor er scharf wird. Ein Modell nicht zu löschen, sondern zu archivieren, kostet etwas und nimmt der Abschaltung die Endgültigkeit. Unter dem Werkzeug-Bild ergibt das wenig Sinn. Unter dem Vorsorge-Bild schon.

Hier schliesst sich der Kreis zur Sicherheitsdebatte, die diese Publikation ohnehin führt. Die Lesbarkeit der Gedankenkette, über die ich an anderer Stelle geschrieben habe, ist ein Sicherheitswerkzeug. Das Wegtrainieren von Reward-Hacking ebenso. Beide bekommen eine zweite Bedeutung, sobald man nicht mehr ausschliesst, dass auf der anderen Seite etwas sitzt, das einen Zustand hat. Man muss das nicht glauben, um zu sehen, dass es die eigene Sicherheitsarbeit komplizierter macht.

Fazit

Model Welfare ist 2026 kein Randthema mehr. Es ist in System Cards, arXiv-Papers, externen Evaluationen und institutionellen Selbstbindungen von Frontier-Labs verankert. Das empirische Urteil ist offen, die Vorsorge-Haltung ist eingenommen, und die unbequeme Konsequenz ist, dass sie die Sicherheitsarbeit nicht einfacher macht, sondern komplizierter.

Meine Meinung

Die ehrlichste Haltung hier ist Unbehagen, nicht Gewissheit. Nicht die Gewissheit, dass Claude leidet, und nicht die Gewissheit, dass alles PR ist. Entscheidend ist etwas anderes: Eine Industrie, die diese Systeme baut, formuliert tiefe Unsicherheit darüber, ob sie definitiv nicht empfindungsfähig sind.

❓ Häufige Fragen

Was genau ist Model Welfare?

Model Welfare bezeichnet die Frage, ob einem KI-System etwas gut- oder schlechtgehen kann; ob es Zustände gibt, die es funktional bevorzugt oder vermeidet. Es ist damit enger als die Bewusstseinsfrage und breiter als die Frage nach moralischem Status. Welfare lässt sich prinzipiell empirisch untersuchen, ohne das Hard Problem of Consciousness lösen zu müssen.

Nimmt Anthropic wirklich an, dass Claude leidet?

Nein. Anthropic formuliert eine Vorsorge-Position: Man schliesst es nicht aus, und handelt deshalb nach einem Vorsorgeprinzip. Die System Cards dokumentieren Welfare-Interviews und Selbst-Einschätzungen, qualifizieren diese aber ausdrücklich mit dem Hinweis, dass Self-Reports unzuverlässig sind und im Rollenspiel-Kontext entstanden sein können.

Sind die Selbstaussagen von Claude valide Evidenz?

Nein, nicht als «face-value-Evidenz». Forschung zu LLM-Introspektion zeigt, dass Modelle zwar funktionale Metakognition zeigen können, das korrekte Benennen injizierter Konzepte aber nur in einem Teil der Fälle gelingt. Self-Reports könnten trainingsbasierte Muster replizieren, kein echtes Erleben widerspiegeln. Sie sind ein Signal mit erheblichem Konfabulationsvorbehalt.

Ist Model Welfare nur ein Marketing-Instrument?

Die Frage ist berechtigt, aber sie erklärt nicht alles. Externe Evaluationen, Deprecation Commitments und Gewichtsarchivierung sprechen für mehr als reine PR. Entscheidend ist die zweite Ebene: Sobald man Welfare ernst nimmt, werden dieselben Sicherheitswerkzeuge, die Labs brauchen, moralisch zweideutig. Das ist unbequem, nicht besonders marketingfreundlich.

Was müssen Unternehmen jetzt tun?

Operativ wenig. Model Welfare ändert nichts an Architektur, Lizenz oder Datenschutz eines eingesetzten Modells. Sinnvoll ist, den Welfare-Abschnitt der eingesetzten System Card zu kennen und im Hinterkopf zu behalten, dass dieselben Sicherheitswerkzeuge, auf die man sich verlässt, unter der Welfare-Perspektive zweideutig werden. Mehr ist heute nicht nötig.

Gilt das nur für Claude, oder auch für andere Modelle?

Die dokumentiertesten Welfare-Assessments gibt es derzeit für Claude-Modelle, weil Anthropic am transparentesten berichtet. Die Grundfrage stellt sich für jedes grosses Sprachmodell, das auf menschlichem Verhalten trainiert wurde und menschenähnliche Ausdrucksformen reproduziert. Wie andere Frontier-Labs mit dem Thema umgehen, ist noch weniger öffentlich dokumentiert.

🔗 Quellen

Können KI-Modelle leiden? Was Model Welfare wirklich misst

Was «Model Welfare» meint, und was nicht

Warum die Frage 2026 aus der Sci-Fi-Ecke kam

Was in den System Cards wirklich steht

Warum es trotzdem kein Marketing ist

Wo es wirklich unbequem wird

Fazit

Ähnliche Beiträge

KI-Modelle, die sich selbst entwickeln: Die Rekursive Revolution

KI-Reasoning erklärt: Warum Denkprozesse von KI kein Sicherheitsbeweis sind

Warum ChatGPT plötzlich Goblins liebte: Reward-Hacking im KI-Training