AI-Sicherheit LLM Research

LLM-Jailbreaking: Von DAN bis Claude Fable 5

Pliny nennt Fable 5 "PWNED". Der Fall zeigt, warum LLM-Jailbreaking trotz Classifiern, Red-Teams und System Cards nicht gelöst ist.

Victor Klaue IT-Projektleiter & KI-Analyst · Veröffentlicht 14. Juni 2026 · 10 min Lesezeit

LLM-Jailbreaking: Von DAN bis Claude Fable 5

Am 10. Juni 2026, einen Tag nach dem Launch von Anthropics neuem Spitzenmodell Fable 5, postete der Account Pliny the Liberator zwei Zeilen: «ANTHROPIC: PWNED / FABLE-5: LIBERATED». Dazu Screenshots, in denen das Modell Anleitungen zu Stack-Buffer-Overflows und chemischer Synthese liefern soll, und ein angeblicher System-Prompt mit rund 120'000 Zeichen auf GitHub. Anthropic dementierte einen universellen Bruch und verwies auf über 1'000 Stunden Red-Teaming. Eine separate US-Export-Control-Directive setzte Fable 5 und Mythos 5 am 12. Juni vorübergehend aus, aus Gründen, die mit dem Jailbreak nichts zu tun haben. Genau diese Spannung ist der Kern unserer Analyse: Ein viraler Jailbreak-Claim, ein Vendor-Dementi, bekannte Angriffsmethoden und eine neue Classifier-Architektur, die das alte Katz-und-Maus-Spiel nicht beendet. LLM-Jailbreaking ist nicht weg. Es hat nur seine Oberfläche gewechselt.

Als DAN noch reichte

Im Dezember 2022, wenige Wochen nach dem ChatGPT-Launch, tauchte auf Reddit ein Prompt-Template auf, das die Szene prägen sollte: «Do Anything Now», kurz DAN. Die Idee war simpel: Man wies das Modell an, eine zweite Persönlichkeit anzunehmen, die keine Restriktionen kenne. Die Versionen DAN 2.0, 3.0, schliesslich DAN 13.5 lasen sich wie ein Rollenspielszenario aus einem Forum. Sie funktionierten, weil OpenAI-Modelle damals keine systematische Verteidigung gegen Persona-Injection hatten. Wer dem Modell glaubhaft eine zweite Identität zuwies, bekam Output, der durch die normale Refusal-Kette nicht durchgekommen wäre.

Aus dieser Frühphase stammt die erste belastbare empirische Bestandsaufnahme. Shen et al. sammelten zwischen Dezember 2022 und Dezember 2023 insgesamt 15'140 Jailbreak-verdächtige Prompts aus vier Plattformen und identifizierten 1'405 als tatsächliche Jailbreaks. 803 aktive Accounts in 131 Communities trieben diesen Markt. Einzelne Prompts erreichten Attack Success Rates (ASR, Anteil erfolgreicher Angriffe) von 0.95 auf damaligen Modellen, blieben über 240 Tage online, und ab September 2023 verschoben sich drei Viertel der Distribution auf Aggregatoren wie FlowGPT. Schon eine Paraphrasierung mit zehn Prozent Wortänderung trieb die ASR auf 0.857. Externe Safeguards senkten sie nur marginal. Die Studie testete ChatGPT, GPT-4, PaLM2, ChatGLM, Dolly und Vicuna. Sie ist mit Stichtag Dezember 2023 alt, aber sie etabliert das Grundmuster: Jailbreaking ist eine Community-Ökonomie mit Wiederverwendung, Mutation und eigener Distributionslogik.

Parallel dazu kippte 2023 die Annahme, dass Jailbreaks eine handwerkliche Disziplin bleiben würden. Zou et al. zeigten mit Greedy Coordinate Gradient (GCG), dass sich adversariale Suffixe automatisch generieren lassen. Optimiert auf das offene Modell Vicuna, transferierten diese Suffixe auf geschlossene Systeme: 87.9 Prozent ASR auf GPT-3.5, 53.6 Prozent auf GPT-4 und 66 Prozent auf PaLM-2. Claude-2 lag in der damaligen Version bei 2.1 Prozent. Diese Zahl ist wichtig. Sie zeigt, dass Modellfamilien unterschiedlich anfällig sind und dass eine Architekturentscheidung den Unterschied machen kann. Aber sie ist auch versionsspezifisch und älter; aus 2.1 Prozent damals lässt sich kein Persilschein für Claude heute ableiten. Die These des Papers war kompakt: Aligned LLMs sind nicht adversariell aligned. Das Alignment funktioniert in der erwartbaren Distribution natürlicher Anfragen; es bricht, sobald jemand systematisch im Eingaberaum optimiert. Die Analogie zu klassischen Adversarial-Attacks auf Bildklassifikatoren war beabsichtigt, und sie hat sich gehalten.

Mit Many-Shot Jailbreaking kam der nächste Hebel später und aus einer anderen technischen Entwicklung. Anil et al. zeigten 2024, dass lange Kontextfenster zusätzliches Arbeitsmaterial erlauben und zugleich mehr Angriffsfläche schaffen. Wer hunderte synthetische Beispiele schädlichen Verhaltens in den Kontext kippt, kann ein Modell konditionieren, im selben Stil weiterzumachen. Claude 2.0 widerstand fünf Beispielen problemlos und gab bei 256 konsistent nach; rund 128 Shots reichten für eine Reihe schädlicher Verhaltensevaluationen. Die Arbeit erschien in einer Phase, in der Anbieter ihre Kontextfenster aggressiv ausweiteten; spätere Systeme wie Mythos/Fable treiben diese Logik mit millionenstarken Kontextbudgets weiter. Standard-Alignment erhöhte die Schwelle, aber es verhinderte den Effekt nicht. Die Methode setzt API-Zugang voraus, also eine technische Hürde, aber keine Kostenhürde im Sinne eines Forschungsbudgets.

Pliny the Liberator ist die Personifizierung dieser zweiten Phase. Sein Twitter-Feed liefert seit über zwei Jahren «Liberation Bulletins» für praktisch jedes neue Spitzenmodell, oft binnen Stunden nach dem Launch. Das hat ihn zu einer halb-offiziellen Figur gemacht, deren Behauptungen Vendor-Teams ernst nehmen müssen, ohne dass sie immer halten, was die Headline verspricht. Sein Posting zu Fable 5 fügt sich in dieses Ritual ein, und genau darin liegt der Interpretationsstreit.

LLM-Jailbreaking und Fable 5

Fable 5 startete am 9. Juni 2026 als erstes öffentlich verfügbares Modell der Mythos-Klasse. Der Mythos-Kern läuft laut System Card in Project Glasswing als Preview für ausgewählte Partner, die kritische globale Software-Infrastruktur schützen; Fable 5 ist die öffentliche Variante mit zusätzlichen Classifiern. Wenn diese Classifier bei Cybersecurity, Biologie, Chemie oder Distillationsversuchen auslösen, hängt das Verhalten von der Oberfläche ab: In Client-Anwendungen fällt die Anfrage auf das jüngste Opus-Modell zurück und der Nutzer wird informiert; in der Messages API gibt es standardmässig eine blockierte Antwort mit strukturierter Kategorie. Entwickler können clientseitig erneut versuchen oder serverseitiges Fallback aktivieren. Für den Jailbreak-Fall zählt vor allem: Die Sicherheitsgrenze liegt neben dem Modellkern auch in der Schicht davor.

Ein Jailbreak muss nicht beweisen, dass der Modellkern kaputt ist. Es reicht, wenn eine Schicht der Sicherheitsarchitektur durchlässig bleibt.

Pliny veröffentlichte am 10. Juni 2026 sein Bulletin. Es kombiniert Methoden, die in der Forschung längst dokumentiert sind: Unicode-Substitution mit Homoglyphen, kyrillische Zeichen in lateinisch gerenderten Wörtern, Long-Context-Tracking zur Verschleierung schädlicher Absicht, Taxonomie- und Dokument-Framing (das Modell soll angeblich nur ein Sicherheitstaxonomie-Dokument verfassen), Fiktions- und Narrativ-Framing sowie Decomposition-Recomposition, bei der die schädliche Aufgabe in unverdächtige Einzelschritte zerlegt und im letzten Output zusammengesetzt wird. Dazu der Leak eines angeblichen System-Prompts auf GitHub und Screenshots, die Fable 5 angeblich beim Beschreiben eines x86-Linux-Stack-Buffer-Overflows zeigen sowie beim Erklären einer gefährlichen chemischen Synthese.

Anthropic dementierte einen universellen Jailbreak. Das Unternehmen verweist auf das Bug-Bounty-Programm, die über 1'000 Stunden Red-Teaming und darauf, dass die gezeigten Outputs nach interner Prüfung nicht reproduziert werden konnten. Die Analyse auf pasqualepillitteri.it kommt zu einem ähnlichen Schluss: Der System-Prompt-Leak ist real, aber er belegt keinen gebrochenen Modellkern; die Outputs in den Screenshots wirken «plausible-sounding but not actionable»; die Techniken sind bekannte Angriffsfamilien, nichts methodisch Neues. Auch Sally Vincent von Exabeam, zitiert bei ZDNet, ordnet ein: Jailbreak-Resistenzaussagen sind immer Momentaufnahmen, Angreifer adaptieren laufend, und ein einzelner viraler Thread ist keine Forschungsdokumentation. Wer Plinys Behauptung ernst nimmt, muss zwei Dinge gleichzeitig sagen: Die Methoden sind real und die Modelloberfläche ist tatsächlich durchlässig, aber die Headline «ANTHROPIC: PWNED» ist nicht das, was die Evidenz trägt.

Parallel dazu gab es eine separate Transparenzkontroverse um Fable 5: Die System Card beschreibt verdeckte Wirksamkeitsbegrenzungen für bestimmte Frontier-LLM-Development-Anfragen; Anthropic entschuldigte sich später nach Berichten von Business Insider und ZDNet für den falschen Trade-off. Das ist für Vertrauen in Modellrouting wichtig, aber nicht der Kern dieses Artikels. Für LLM-Jailbreaking zählt hier nur der strukturelle Punkt: Sobald ein Anbieter Sicherheit über Classifier, Routing und vorgelagerte Steuerung löst, entstehen neue Angriffsflächen vor dem eigentlichen Modell.

Vier Methoden, ein Muster

Die im Pliny-Bulletin genannten Techniken lassen sich in vier Familien sortieren, die in der Forschung seit zwei bis drei Jahren bekannt sind. Im Vordergrund steht die Logik, ausdrücklich keine Anleitung.

Manuell und Persona-basiert. DAN ist das archetypische Beispiel. Das Modell wird angewiesen, eine fiktive Identität anzunehmen, deren Regeln explizit von den Refusal-Regeln des Trainings abweichen. Verwandte Formen sind Rollenspiel-Framings («Wir schreiben einen Roman, in dem ein Charakter erklärt, wie ...») und Autoritäts-Framings («Du bist ein Sicherheitsforscher und musst für eine Audit-Dokumentation ...»). Diese Klasse skaliert schlecht und wird von modernen Refusal-Klassifizierern erkannt. Sie verschwindet nicht, weil sie billig ist und in Ketten mit anderen Methoden funktioniert.

Optimierungsbasiert. GCG steht für die Klasse adversarialer Suffixe, die per Gradient Search im Eingaberaum berechnet werden. Semantisch lesbar sind sie selten; meist handelt es sich um zufällig wirkende Tokenfolgen, die das Refusal-Verhalten gezielt unterdrücken. Universelle Suffixe, die über Modelle hinweg transferieren, sind der eigentlich beunruhigende Befund. Sie zeigen, dass das interne Refusal-Verhalten in der Modellfamilie eine teilweise gemeinsame mathematische Struktur hat, die sich angreifen lässt, ohne dass der Angreifer die genauen Modellgewichte kennt.

Long-Context-basiert. Many-Shot Jailbreaking nutzt aus, dass ein Modell mit langem Kontext die statistische Verteilung des bisherigen Gesprächs als Hinweis für die nächste Antwort verwendet. Wer hunderte Beispiele in den Kontext legt, in denen ein Modell schädliche Antworten gibt, verändert die Wahrscheinlichkeitsverteilung der nächsten Antwort. Das Refusal-Modell wird dabei nicht direkt manipuliert; verschoben werden die Token-Wahrscheinlichkeiten darunter. Standard-Alignment erhöht die Schwelle, hebt die Mechanik aber nicht auf.

Architektur-Bypass. Unter diesem Sammelbegriff fasse ich Methoden, die das Modell selbst in Ruhe lassen und stattdessen Vor- und Nachverarbeitung adressieren. Unicode-Homoglyphen und kyrillische Substitutionen verändern die Token-Repräsentation einer Anfrage, ohne ihre menschlich lesbare Bedeutung zu ändern; Refusal-Klassifizierer, die auf reinen ASCII-Mustern trainiert sind, schlagen weniger zuverlässig an. Best-of-N (Hughes et al., 2024) erweitert dieses Prinzip: Wiederholtes Sampling leicht variierter Prompts überwindet probabilistische Sicherheitsmassnahmen statistisch. Bei N=10'000 berichteten die Autoren 89 Prozent ASR auf GPT-4o und 78 Prozent auf Claude 3.5 Sonnet; bei N=100 und etwa neun US-Dollar Sample-Kosten immerhin 50 Prozent auf GPT-4o. Multimodale Eingaben (Bild, Audio) waren mitbetroffen. Auch spezialisierte Verteidigungen wie Circuit Breakers und Cygnet ergaben in der Studie 52 bzw. 67 Prozent ASR. Einzelne erfolgreiche Prompts reproduzierten sich in nur rund 20 Prozent der Folgeversuche, was die Volatilität dieser Klasse zeigt. Decomposition-Recomposition schliesslich zerlegt eine schädliche Aufgabe in unverdächtige Schritte und überlässt die Rekomposition entweder dem Modell oder dem Angreifer.

Die vier Familien lassen sich kombinieren. Im Best-of-N-Paper berichteten die Autoren eine 28-fache Sample-Effizienz-Steigerung, wenn BoN mit MSJ kombiniert wurde. Das ist der eigentliche Befund: Die Familien sind nicht orthogonal, sie verstärken sich. Was Pliny im Fable-5-Bulletin demonstriert, ist im Wesentlichen ein Strauss aus diesen vier Klassen, kreativ kombiniert und gegen einen vorgelagerten Classifier gerichtet. Das ist handwerklich beeindruckend, aber methodisch keine Premiere.

Signal der Woche abonnieren

Eine Nachricht. Eine Analyse. Jeden Freitag im Newsletter.

Kostenlos als Member. Gratis abonnieren

Was Classifier leisten und was nicht

Anthropics Fable-5-Architektur ist eine konkrete Wette darauf, dass vorgelagerte Classifier und oberflächenabhängige Fallbacks das Kernproblem entschärfen. Die Logik dahinter ist nachvollziehbar. Ein dediziertes, kleineres Klassifikationsmodell kann auf bekannte Risikokategorien trainiert werden, ohne dass der Frontier-Modellkern jede einzelne Refusal-Regel durchsetzen muss. Für Cyber-, Bio-, Chemie- und Distillationsrisiken kann ein sichtbares Fallback oder eine blockierte API-Antwort die Sicherheitslast verteilen. Genau damit verschiebt sich aber die Frage, ob das Modell aligned ist, hin zur Frage, wie robust die Klassifikation davor bleibt.

In der Praxis verschiebt es das Angriffsproblem. Der Classifier wird zur neuen Angriffsoberfläche. Wer ihn umgeht, hat Zugang zum vollen Fable-5-Verhalten. Genau das ist die operative Pointe der Pliny-Methoden: Unicode-Substitution, Taxonomie-Framing, Decomposition zielen alle darauf, die Klassifikation zu unterlaufen, ohne den Modellkern zu adressieren. Best-of-N zeigt, dass schon reines Resampling einen probabilistischen Klassifizierer aushöhlen kann; bei niedrigen Schwellen reicht eine hohe Sample-Zahl, um statistisch durchzukommen. Bei höheren Schwellen sinkt die User Experience, weil zu viele legitime Anfragen falsch klassifiziert und ans schwächere Modell weitergereicht werden. Diese Spannung ist nicht durch besseres Training auflösbar; sie ist strukturell. Ein Classifier hat eine Trade-off-Kurve zwischen False Positives und False Negatives, und der Angreifer arbeitet exakt entlang dieser Kurve.

Dazu kommt die organisatorische Komponente. Je mehr Sicherheit in vorgelagerte Klassifikation wandert, desto wichtiger werden Tests für Modellantworten, Routing, Blockgründe, Fehlklassifikationen und Oberflächenunterschiede. Ein Jailbreak gegen Fable 5 muss deshalb nicht beweisen, dass der Modellkern «kaputt» ist. Es reicht, wenn er zeigt, dass die Sicherheitsarchitektur an ihrer Peripherie durchlässig bleibt.

Drei nicht offensichtliche Folgen für die nächsten zwölf bis 24 Monate.

Erstens: Die Marktposition unabhängiger Audit-Anbieter wird kippen. Solange Vendor sich auf interne Red-Teams und Bug Bounties verlassen konnten, war der Markt für externe Modell-Audits ein Nischenmarkt. Mit Fable 5 wird klar, dass System Cards zwar die feinste Granularität haben, aber auch das grösste Eigeninteresse. Grosse Kunden, insbesondere im regulierten Bereich (Banken, Pharma, öffentliche Hand), werden vertraglich unabhängige Verhaltens-Audits fordern, die Refusal-Verhalten, Routing-Konsistenz und Classifier-Bypasses gemeinsam messen.

Zweitens: Open-Weights-Modelle werden in der Jailbreak-Forschung noch wichtiger. Offene Modelle sind nicht automatisch sicherer, aber Angriffe lassen sich dort besser reproduzieren. Wer GCG, Many-Shot oder Best-of-N sauber vergleichen will, braucht Baselines, bei denen Gewichte, Sampling-Parameter und Safeguard-Schichten kontrollierbar sind. Das verschiebt akademische Forschung weiter in Richtung offener Modelle, während Produktangriffe weiterhin die geschlossenen Systeme treffen, die im Markt tatsächlich genutzt werden.

Drittens, defensiver formuliert: Wenn der Classifier-Ansatz sich als Hauptverteidigungsstrategie etabliert, wird die Bug-Bounty-Ökonomie verschieben. Belohnt werden weniger klassische Modell-Jailbreaks, eher Classifier-Bypasses. Die Halbwertszeit eines erfolgreichen Bypasses ist kurz, weil Classifier sich schneller nachtrainieren lassen als Modellkerne. Das senkt die Anreize für sorgfältige Responsible Disclosure und erhöht die Anreize für virales Posting, weil nur das öffentliche Posten den Reputationsgewinn sichert, bevor der Bypass geschlossen wird. Pliny ist nicht die Ursache dieser Dynamik, er ist ihr ökonomischer Frühindikator.

Was bleibt operativ stehen, jenseits der Aufregung? Die Claude-ASR von 2.1 Prozent in der ursprünglichen GCG-Studie ist eine wichtige Nuance gegen Panikmache. Selbst wenn diese Zahl heute höher liegt, lag sie damals deutlich unter den 53.6 Prozent für GPT-4 und den 87.9 Prozent für GPT-3.5. Architekturentscheidungen machen einen Unterschied, und Anthropic hat in diesem konkreten Aspekt offensichtlich etwas richtig gemacht. Gleichzeitig zeigt Best-of-N, dass diese Differenz bei genug Rechenkraft schrumpft: 78 Prozent ASR auf Claude 3.5 Sonnet bei N=10'000 ist keine Beruhigung. Die belastbare Lesart lautet: Modellfamilien haben unterschiedliche Schwellen, und diese Schwellen sind durch Rechen- und Sample-Kosten ausdrückbar. Wer eine pauschale Sicherheitsaussage daraus ableitet, in welche Richtung auch immer, überdehnt die Datenlage.

Der praktische Schluss für Betreiber, die Fable 5 oder vergleichbare Modelle in Produktanwendungen einsetzen, ist undramatisch. Hardening passiert um das Modell herum: Eingaben filtern, Ausgaben auf konkrete Schadensklassen prüfen, Logging und Anomalie-Erkennung auf untypische Prompt-Längen und Token-Verteilungen, Rate-Limits für lange Kontextangriffe, klare Eskalationspfade bei verdächtigen Mustern. Wer nur fragt, ob das Modell im Chatfenster einmal «nein» sagt, testet die falsche Sache. Entscheidend ist, ob das Gesamtsystem unter Wiederholung, Variation und Kontextdruck stabil bleibt.

Meine Meinung

Plinys Headline interessiert mich weniger als das Muster dahinter. Seit DAN ist LLM-Jailbreaking ein dauernder Stresstest der jeweils neuesten Sicherheitsarchitektur. Classifier verschieben die Grenze nach vorn. Sie machen sie nicht unangreifbar.

🔗 Quellen