OpenAI eigene Chips: Codex-Spark läuft ohne Nvidia

OpenAI nutzt eigene Chips von Cerebras für Codex-Spark – 1.000 Tokens pro Sekunde, kein Nvidia nötig. Was das für die KI-Industrie bedeutet.

Victor Klaue Victor Klaue IT-Projektleiter & KI-Analyst 05. März 2026 3 min Lesezeit
OpenAI eigene Chips: Codex-Spark läuft ohne Nvidia

OpenAI macht ernst mit der Hardware-Unabhängigkeit: Der neue Coding-Assistent Codex-Spark läuft nicht auf Nvidias begehrten GPUs, sondern auf tellergroßen Spezialchips des Unternehmens Cerebras. Das ist kein technisches Detail am Rande – es ist ein strategisches Signal, das die gesamte KI-Industrie aufhorchen lassen sollte.

Was passiert ist: Codex-Spark auf Cerebras-Chips

OpenAI hat mit Codex-Spark ein neues KI-Modell speziell für Programmieraufgaben vorgestellt – und dabei eine ungewöhnliche Hardware-Entscheidung getroffen. Statt auf die allgegenwärtigen Nvidia-GPUs zu setzen, betreibt OpenAI das Modell auf den sogenannten Wafer-Scale-Engines von Cerebras. Diese Chips sind buchstäblich so groß wie ein Teller und funktionieren nach einem grundlegend anderen Prinzip als klassische GPUs.

Das Ergebnis lässt sich in einer Zahl zusammenfassen: rund 1.000 Tokens pro Sekunde. Zum Vergleich: Gängige Nvidia-basierte Systeme liefern für ähnlich große Modelle oft nur einen Bruchteil davon. Cerebras selbst hat bei anderen Modellen – darunter Metas Llama 3.1 70B und OpenAIs eigenem Open-Weight-Modell gpt-oss-120B – sogar bis zu 3.000 Tokens pro Sekunde gemessen.

Der Einsatz von Cerebras-Hardware für Codex-Spark ist kein Zufall. AI-Coding-Assistenten haben in den letzten zwölf Monaten einen regelrechten Durchbruch erlebt. Tools wie Cursor, GitHub Copilot oder eben OpenAIs eigener Codex-Dienst sind für viele Entwicklerinnen und Entwickler bereits Teil des täglichen Workflows. In diesem Bereich zählt Geschwindigkeit enorm: Wer auf eine Code-Ergänzung wartet, verliert den Flow. 1.000 Tokens pro Sekunde bedeuten in der Praxis, dass Antworten nahezu sofort erscheinen – schneller, als man tippen kann.

Technische Einordnung: Was OpenAI Custom Chips leisten

Um zu verstehen, warum das relevant ist, braucht es etwas Kontext zur Hardware. Nvidia-GPUs sind Allrounder: Sie eignen sich sowohl für das Training riesiger Modelle als auch für den sogenannten Inference-Betrieb, also das eigentliche Beantworten von Anfragen. Ihre Stärke liegt in der Flexibilität – und genau das macht sie zur dominierenden Kraft im KI-Rechenzentrum.

Cerebras geht einen anderen Weg. Die Wafer-Scale Engine ist ein einziger, monolithischer Chip, der so groß ist wie ein kompletter Siliziumwafer – die Rohmaterial-Scheibe, aus der normalerweise Dutzende kleine Chips gestanzt werden. Dieser Ansatz eliminiert die Kommunikationsengpässe, die entstehen, wenn viele kleine Chips miteinander reden müssen. Das Ergebnis ist eine extreme Inferenz-Geschwindigkeit bei bestimmten Modelltypen.

Der Haken: Diese Chips eignen sich primär für Inference, nicht für Training. OpenAI wird Nvidia also nicht vollständig ersetzen – das Training von GPT-5 und ähnlichen Grundmodellen erfordert weiterhin Tausende von Nvidia-GPUs. Aber für den Betrieb fertiger Modelle – und genau das kostet bei Millionen von täglichen Anfragen richtig Geld – eröffnen sich mit Alternativen wie Cerebras echte Optionen.

Es geht dabei nicht nur um Kosten. Es geht um Kontrolle. Nvidia sitzt derzeit an einem strategisch entscheidenden Engpass: Wer KI betreiben will, ist auf deren Hardware angewiesen – und die Lieferzeiten und Preise für H100- und H200-GPUs spiegeln diese Machtstellung deutlich wider. Jedes Mal, wenn ein großes KI-Unternehmen eine Alternative findet, die funktioniert, schwächt das Nvidias strukturelle Verhandlungsposition ein Stück weit.

Was das für dich bedeutet

Wenn du Entwicklerin oder Entwickler bist und KI-Coding-Tools nutzt, ist die Botschaft klar: Schnellere Chips bedeuten schnellere Tools. Codex-Spark auf Cerebras-Hardware könnte ein Vorgeschmack darauf sein, wie sich Code-Assistenten in naher Zukunft anfühlen – weniger wie ein Werkzeug, auf das man wartet, mehr wie ein Kollege, der sofort antwortet.

Für Unternehmen, die eigene KI-Dienste betreiben oder aufbauen wollen, ist die Diversifizierung der Hardware-Lieferanten ein ernstzunehmender strategischer Punkt. Die Abhängigkeit von einem einzigen Anbieter – in diesem Fall Nvidia – ist ein Risiko. OpenAIs Schritt zeigt, dass es Alternativen gibt, die technisch ausgereift genug sind, um in Produktion zu gehen.

Wer den KI-Markt als Investor oder Analyst verfolgt, sollte diesen Move ebenfalls auf dem Radar haben. Cerebras ist nicht das einzige Unternehmen, das Nvidia im Inference-Segment herausfordert. Groq, Etched und weitere Startups arbeiten an ähnlichen Ansätzen. Wenn OpenAI – eines der renommiertesten KI-Unternehmen der Welt – öffentlich auf deren Chips setzt, ist das eine Art Vertrauensbeweis, der Signalwirkung für die gesamte Branche hat.

Und schließlich: Die Dynamik hat geopolitische Relevanz. Nvidia-GPUs sind exportbeschränkt – bestimmte Länder dürfen sie schlicht nicht kaufen. Alternativen wie Cerebras unterliegen anderen Regelungen. Für KI-Infrastruktur außerhalb der USA könnte das langfristig eine wichtige Rolle spielen.

Fazit: Ein kleiner Schritt mit großer Symbolkraft

OpenAI Custom Chips als Betriebsgrundlage für Codex-Spark sind kein revolutionärer Systemwechsel – aber ein klares Zeichen, wohin die Reise geht. Die Ära der totalen Nvidia-Dominanz im KI-Bereich hat einen Riss bekommen. Nicht weil Nvidia schlechte Hardware baut – im Gegenteil. Sondern weil die Nachfrage nach KI-Inference so massiv gewachsen ist, dass spezialisierte Alternativen plötzlich wettbewerbsfähig sind.

Für Endnutzer bedeutet das kurzfristig schnellere Tools. Langfristig bedeutet es Wettbewerb – und Wettbewerb bedeutet günstigere Preise, bessere Verfügbarkeit und mehr Innovation. Das ist gut für alle, die KI nutzen oder damit bauen wollen.


Weiterführende Quellen


Signal der Woche. Eine Nachricht. Eine Analyse. Jeden Freitag im Newsletter. 👉 aisyndicate.ch/#/portal

Ähnliche Beiträge

FP4 auf Blackwell: Was NVFP4 für lokale KI wirklich ändert

FP4 auf Blackwell: Was NVFP4 für lokale KI wirklich ändert

NVFP4 macht FP4 auf Blackwell erstmals praktisch relevant. Aber der Unterschied liegt nicht in 4 Bit, sondern in Scaling, Layer-Profil und Deployment-Disziplin.

03. Juni 2026 9 min
Ollama auf dem Mac Mini: Welche Modelle auf welcher Ausstattung sinnvoll laufen

Ollama auf dem Mac Mini: Welche Modelle auf welcher Ausstattung sinnvoll laufen

Ollama läuft auf dem Mac Mini erstaunlich gut, aber nicht jedes Modell passt. Welche RAM-Ausstattung 2026 wirklich sinnvoll ist.

06. Apr. 2026 7 min
KI-Urteil der Woche: Vera Rubin setzt den Takt

KI-Urteil der Woche: Vera Rubin setzt den Takt

KI-Urteil der Woche zu Nvidias Vera-Rubin-Wette: Warum die Plattform Cloud-Kosten senken und DACH-Rechenzentren neu takten könnte.

20. März 2026 3 min

Signal der Woche abonnieren

Eine Nachricht. Eine Analyse. Jeden Freitag im Newsletter.