KI-News Sprachmodelle

GPT-5.4 Leak: Extremes Reasoning, stundenlange Aufgaben und doppelter Kontext

GPT-5.4 soll laut Leak ein 1-Millionen-Token-Kontextfenster, einen extremen Reasoning-Modus und zuverlässige Leistung bei mehrstündigen Aufgaben mitbringen. Was bisher bekannt ist.

Victor Klaue IT-Projektleiter & KI-Analyst · Veröffentlicht 05. März 2026 · 4 min Lesezeit

GPT-5.4 Leak: Extremes Reasoning, stundenlange Aufgaben und doppelter Kontext

OpenAI hat gerade erst GPT-5.3 Instant veröffentlicht – da tauchen bereits die ersten Leaks zum nächsten Modell auf. GPT-5.4 soll laut Berichten ein signifikanter Sprung nach vorne werden: ein massiv erweitertes Kontextfenster, ein neuer «extremer» Reasoning-Modus und deutlich stabilere Leistung bei komplexen, mehrstündigen Aufgaben. Offizielle Details gibt es noch keine – aber was durchgesickert ist, klingt nach mehr als einer inkrementellen Verbesserung.

Was das Leak über GPT-5.4 verrät

Die Informationen stammen aus zwei Quellen: Erstens aus einem Bericht von The Information, der interne Details zum Modell enthüllt. Zweitens aus versehentlich öffentlich sichtbaren Code-Commits im OpenAI-Codex-Repository sowie einem Model-Selector-UI, in dem GPT-5.4 bereits auftauchte – bevor die Einträge wieder entfernt wurden.

OpenAI selbst hat auf X lediglich angedeutet, das Modell werde «früher kommen, als man denkt». Offizielle Spezifikationen wurden nicht kommuniziert. Was die Leaks und Code-Hinweise nahelegen, ist dennoch bemerkenswert.

1 Million Token Kontextfenster – mindestens

GPT-5.4 soll über ein Kontextfenster von einer Million Token verfügen. Das wäre mehr als doppelt so viel wie das, was GPT-5.2 bietet. Einige Quellen sprechen sogar von zwei Millionen Token – was in der Praxis bedeuten würde, dass das Modell ganze Bücher, umfangreiche Codebasen oder ausgedehnte Gesprächsverläufe in einer einzigen Sitzung verarbeiten kann.

Zum Vergleich: Ein durchschnittliches Sachbuch hat rund 80.000 bis 100.000 Wörter – das entspricht grob 130.000 bis 150.000 Token. Mit einem Kontextfenster von einer Million Token könnten Nutzer also mehrere solcher Bücher gleichzeitig einlesen, analysieren und damit arbeiten. Bei zwei Millionen Token wird das noch einmal drastisch ausgeweitet.

Ob die Abrufgenauigkeit (recall accuracy) bei diesen Längen mithalten kann, ist allerdings eine andere Frage – und eine, die bei aktuellen Modellen bereits ab 200.000 Token zum Problem werden kann. Hier wird GPT-5.4 zeigen müssen, ob das Fenster auch wirklich nutzbar ist oder nur auf dem Papier existiert.

Extremer Reasoning-Modus

Laut The Information wird GPT-5.4 über einen neuen «Extreme Reasoning»-Modus verfügen. Details dazu sind rar, aber der Name ist Programm: Es geht um tieferes, intensiveres Denken bei komplexen Aufgaben – vermutlich auf Kosten der Geschwindigkeit, dafür mit deutlich höherer Genauigkeit.

Das ist kein völlig neues Konzept. OpenAI hat mit der o1- und o3-Serie bereits gezeigt, dass verlangsamtes, iteratives Denken die Ergebnisqualität bei mathematischen, logischen und wissenschaftlichen Problemen massiv verbessert. GPT-5.4 scheint diesen Ansatz tiefer in das Hauptmodell zu integrieren – statt als separates «Reasoning Model» anzubieten.

Was das konkret bedeutet: Nutzern könnte die Möglichkeit gegeben werden, bei besonders schwierigen Anfragen in den Extreme-Modus zu wechseln – ähnlich wie bei den aktuellen «Think»-Schaltern in ChatGPT. Für Entwickler und Unternehmen, die komplexe Analysepipelines aufbauen, wäre das ein erheblicher Vorteil.

Stabilität bei stundenlangen Aufgaben

Das vielleicht relevanteste Feature für den professionellen Einsatz: GPT-5.4 soll erheblich zuverlässiger bei Aufgaben sein, die über Stunden laufen – sogenannte long-running tasks. Gemeint sind agentenbasierte Workflows, in denen das Modell eigenständig über längere Zeit Schritte plant, ausführt und überprüft.

Aktuelle Modelle – auch die besten – neigen bei langen Agentenläufen zu Fehler-Akkumulation, Kontext-Drift und gelegentlichem Abweichen vom ursprünglichen Ziel. Je länger eine Aufgabe läuft, desto wahrscheinlicher wird ein Fehler, der den gesamten Fortschritt gefährdet. GPT-5.4 soll hier deutlich robuster sein: weniger Fehler, bessere Selbstkorrektur, stabilere Zielverfolgung.

Das ist kein Luxus-Feature – es ist die Grundvoraussetzung dafür, dass KI-Agenten in produktiven Umgebungen wirklich einsetzbar werden. Wer schon einmal erlebt hat, wie ein autonomer Agent nach 45 Minuten komplett vom Kurs abweicht, weiss, wovon die Rede ist.

Vollauflösende Bildverarbeitung und Stateful AI

Neben den drei Hauptfeatures tauchen in den Code-Commits noch weitere Hinweise auf. So soll GPT-5.4 Bilder in voller Auflösung verarbeiten können – ein Upgrade gegenüber dem aktuellen Verhalten, bei dem Bilder vor der Verarbeitung herunterskaliert werden. Für visuelle Analyseaufgaben, OCR-intensive Dokumente oder hochdetaillierte Diagramme könnte das einen spürbaren Qualitätssprung bedeuten.

Darüber hinaus werden «Stateful AI»-Funktionen erwähnt – also die Fähigkeit, sich zwischen Sitzungen an vorherige Interaktionen zu erinnern und darauf aufzubauen. Das wäre eine direkte Antwort auf einen der grössten Kritikpunkte an aktuellen ChatGPT-Versionen: jede neue Session beginnt praktisch bei null.

Einordnung: Mehr als eine Versionsnummer

Man könnte versucht sein, «GPT-5.4» als ein weiteres inkrementelles Update abzutun – ein weiteres Glied in der immer dichter werdenden Modellkette von OpenAI. Das wäre ein Fehler.

Wenn die Leak-Informationen auch nur annähernd stimmen, positioniert sich GPT-5.4 als ein Modell, das die Grenzen zwischen «Chat-KI» und «autonomem Agenten» weiter verwischt. Ein Kontextfenster im Millionen-Token-Bereich, extremes Reasoning on demand und stabile Stunden-Läufe – das ist nicht mehr ChatGPT für Alltagsgespräche. Das ist ein Werkzeug für echte, komplexe Arbeitsabläufe.

Gleichzeitig gilt: Leaks sind Leaks. Zwischen geleakten Spezifikationen und tatsächlicher Produktreife liegt oft eine beachtliche Lücke. OpenAI hat in der Vergangenheit sowohl überliefert als auch – in einigen Fällen – enttäuscht. Die Extreme-Reasoning- und Langzeitstabilitäts-Claims werden sich erst im realen Einsatz beweisen müssen.

Was bleibt

GPT-5.4 ist noch nicht da. Aber die Signale deuten darauf hin, dass OpenAI mit diesem Modell einen ernsthaften Schritt in Richtung produktionstauglicher Agentenarchitektur unternimmt. Für Entwickler, Unternehmen und alle, die KI-Agenten in reale Prozesse integrieren wollen, lohnt es sich, diesen Release genau zu beobachten.

OpenAI selbst hat versprochen, das Modell komme «früher als erwartet». In der Welt der KI-Releases ist das manchmal Warnung, manchmal Versprechen. In diesem Fall könnte es beides sein.

Quellen: - GPT-5.4 soll bei stundenlangen Aufgaben zuverlässiger arbeiten und weniger Fehler machen – The Decoder (DE) - GPT-5.4 reportedly brings a million-token context window and an extreme reasoning mode – The Decoder (EN) - GPT-5.4 Leaked: 2M Context Window, Full-Resolution Vision, and What the Codex Code Commits Reveal – NxCode

GPT-5.4 Leak: Extremes Reasoning, stundenlange Aufgaben und doppelter Kontext

Was das Leak über GPT-5.4 verrät

1 Million Token Kontextfenster – mindestens

Extremer Reasoning-Modus

Stabilität bei stundenlangen Aufgaben

Vollauflösende Bildverarbeitung und Stateful AI

Einordnung: Mehr als eine Versionsnummer

Was bleibt

Ähnliche Beiträge

KI-Briefing: Agenten, Zugang und Sicherheit

KI-Briefing: Haftung, Agenten und Unternehmensdruck

KI-Lagebriefing: EU lockert Fristen, Apple öffnet KI-Stack, Anthropic wächst in Billionen-Dimension

Was das Leak über GPT-5.4 verrät

1 Million Token Kontextfenster – mindestens

Extremer Reasoning-Modus

Stabilität bei stundenlangen Aufgaben

Vollauflösende Bildverarbeitung und Stateful AI

Einordnung: Mehr als eine Versionsnummer

Was bleibt

Ähnliche Beiträge

KI-Briefing: Agenten, Zugang und Sicherheit

KI-Briefing: Haftung, Agenten und Unternehmensdruck

KI-Lagebriefing: EU lockert Fristen, Apple öffnet KI-Stack, Anthropic wächst in Billionen-Dimension

Signal der Woche abonnieren