DeepSeek AI Modelle: V4, R1, API und Hardware im Vergleich

DeepSeek AI erklärt: Welche V4-, R1- und Distill-Modelle sich für API, Self-Hosting, RTX, Mac Studio oder DGX Spark eignen.

Victor Klaue Victor Klaue IT-Projektleiter & KI-Analyst 26. Mai 2026 8 min Lesezeit
DeepSeek AI Modelle: V4, R1, API und Hardware im Vergleich

DeepSeek AI ist 2026 keine Einzelmarke mehr, sondern eine Modellfamilie mit zwei Parallelwelten: proprietäre API-Modelle auf der einen Seite, Open-Weight-Modelle auf Hugging Face und GitHub auf der anderen. Wer DeepSeek bewertet, muss deshalb drei Dinge sauber trennen: V4 als API-Linie, V3/R1 als große Open-Weight-MoE-Modelle und R1-Distills als praktisch hostbare Ableger.

DeepSeek-Modellfamilie
Drei Linien, drei Betriebsmodelle
API-Linie
V4-Pro und V4-Flash
1M Kontext, Thinking/Non-Thinking, OpenAI-kompatible API. Pro ist der Qualitäts-, Flash der Effizienzpfad.
Open Weight Vollmodelle
V3 und R1
671B MoE, 37B aktiv, 128K Kontext. Technisch offen, praktisch aber Datacenter- oder Experimentierklasse.
Lokales Self-Hosting
R1-Distill-Modelle
Qwen- und Llama-Backbones von 1,5B bis 70B. Die relevante Linie für Mac, RTX, DGX Spark und Workstation-Setups.
Einordnung nach Bereitstellung, nicht nach Benchmark-Rang. API-Modelle, Vollmodelle und Distills sind technisch und operativ unterschiedliche Kategorien.

Kurzfazit

Für API-Nutzung sind deepseek-v4-pro und deepseek-v4-flash die relevante Linie. Beide bieten 1M Kontext, Thinking/Non-Thinking und OpenAI-kompatible Chat-Completions; zusätzlich unterstützt DeepSeek ein Anthropic-Interface. Für Self-Hosting sind dagegen vor allem die R1-Distill-Modelle interessant. DeepSeek-V3 und DeepSeek-R1 sind zwar Open Weight, aber mit 671 Milliarden Gesamtparametern Rechenzentrumsklasse. Open Source heißt hier nicht automatisch: läuft sinnvoll auf der Workstation.

DeepSeek AI als Modellfamilie verstehen

Auf API-Seite unterstützt DeepSeek offiziell deepseek-v4-pro und deepseek-v4-flash. V4-Pro hat 1,6 Billionen Gesamtparameter, 49 Milliarden aktive Parameter pro Token und Reasoning-Effort-Stufen bis max. V4-Flash ist kleiner und schneller: 284 Milliarden Gesamtparameter, 13 Milliarden aktiv. Beide Modelle unterstützen ein Kontextfenster von einer Million Tokens und lassen sich im Thinking- oder Non-Thinking-Modus betreiben.

Die Legacy-Namen deepseek-chat und deepseek-reasoner wurden zunächst auf DeepSeek-V3.2 aktualisiert und verweisen in der aktuellen Übergangsphase auf V4-Flash Non-Thinking beziehungsweise V4-Flash Thinking. Nach dem 2026-07-24 werden sie abgeschaltet. Wer noch alte Modellnamen im Code hat, sollte nicht bis zur Deadline warten.

Auf Open-Weight-Seite stehen DeepSeek-V3 und DeepSeek-R1 im Mittelpunkt. Beide haben 671 Milliarden Parameter insgesamt, 37 Milliarden aktive Parameter pro Token und 128K Kontext. R1 ergänzt die V3-Basis um Reasoning-spezifisches Posttraining; R1-Zero zeigt die reine RL-Variante ohne überwachte Cold-Start-Daten, mit besseren Reasoning-Spuren, aber sichtbaren Problemen bei Lesbarkeit und Wiederholungen.

Die praktisch relevante Self-Hosting-Linie sind die R1-Distills. Sie übertragen Reasoning-Verhalten von R1 in kleinere Qwen- und Llama-Backbones: 1,5B, 7B, 14B, 32B sowie 8B und 70B. Sie sind nicht dieselbe Architektur wie R1, aber sie sind die Modelle, die auf Consumer- und Workstation-Hardware realistisch laufen.

Modellübersicht

Modell Parameter Typ Besonderheit
DeepSeek V4-Pro 1,6T gesamt / 49B aktiv API Top-Tier-API-Modell, 1M Kontext, Thinking/Non-Thinking, OpenAI- und Anthropic-kompatibles Interface
DeepSeek V4-Flash 284B gesamt / 13B aktiv API Schneller API-Track, 1M Kontext, Thinking/Non-Thinking in einem Modell
DeepSeek-V3 671B gesamt / 37B aktiv MoE 128K Kontext, MLA, DeepSeekMoE, MTP, Open-Weight-Basismodell
DeepSeek-R1 671B gesamt / 37B aktiv MoE Reasoning-Modell auf V3-Basis, cold-start-data plus Reinforcement Learning
DeepSeek-R1-Zero 671B gesamt / 37B aktiv MoE RL ohne überwachtes Feintuning, Forschungsmodell mit Lesbarkeitsschwächen
R1-Distill-Qwen-1.5B 1,5B Dense Kleinstes Distill, läuft auf Notebook-Hardware
R1-Distill-Qwen-7B 7B Dense Solider Allrounder für lokales Reasoning auf Consumer-Hardware
R1-Distill-Llama-8B 8B Dense Llama-Backbone, gute Ökosystem-Tool-Unterstützung
R1-Distill-Qwen-14B 14B Dense Mittelklasse für anspruchsvollere lokale Aufgaben
R1-Distill-Qwen-32B 32B Dense Stärkstes lokal realistisches Reasoning-Distill
R1-Distill-Llama-70B 70B Dense Größtes Distill, lokal nur mit Workstation-Hardware

Die V4-Zahlen stammen aus der DeepSeek-V4-Modellkarte und dem technischen Report: V4-Pro hat 1,6 Billionen Parameter insgesamt und 49 Milliarden aktive Parameter pro Token, V4-Flash 284 Milliarden insgesamt und 13 Milliarden aktiv. Beide unterstützen ein Kontextfenster von einer Million Tokens. Für die Praxis sind diese Zahlen trotzdem nur der Einstieg: Latenz, Preis, Thinking-Effort und Kontextlänge entscheiden stärker über die API-Kosten als die reine Parameterzahl.

Architektur und Hardware: was wirklich zählt

Bei DeepSeek muss man V3/R1 von V4 trennen. V3 und R1 setzen auf Multi-Head Latent Attention, DeepSeekMoE mit auxiliary-loss-free Load Balancing und Multi-Token Prediction. V4 führt dagegen eine Hybrid Attention Architecture ein, die Compressed Sparse Attention und Heavily Compressed Attention kombiniert. Laut DeepSeek-V4-Report benötigt V4-Pro bei 1M Kontext nur 27 Prozent der Single-Token-Inference-FLOPs und 10 Prozent des KV-Caches im Vergleich zu DeepSeek-V3.2. Genau deshalb ist V4 als Million-Token-API-Linie interessant.

Für Self-Hosting bleibt der harte Punkt Speicher. MoE reduziert die aktive Rechenlast pro Token, aber nicht den Bedarf, die Gewichte erreichbar zu halten. Ein 671B-MoE ist kein Modell für eine einzelne Consumer-GPU. Zusätzlich zum Modellgewicht kommt der KV-Cache, der mit Kontextlänge wächst. DeepSeek reduziert diesen Cache über MLA beziehungsweise V4s neue Attention-Architektur, aber kostenlos wird langer Kontext nicht.

Hardware-Kompatibilitätsmatrix

Die folgende Matrix bewertet, welche Modellklassen auf welchen Hardwareprofilen realistisch laufen. Bewertung nur in Klassen, ohne Tokens-pro-Sekunde-Werte.

Für Apple-Silicon-Systeme gilt: Unified Memory ist ein gemeinsames RAM- und VRAM-Budget. Die Zahl beschreibt nicht 1:1 diskreten GPU-VRAM, sondern den gesamten verfügbaren Speicher, von dem Betriebssystem, Anwendungen und Modell ihre Anteile abziehen. Die Klassen staffeln sich grob in M-Pro (typisch MacBook Pro und Mac mini mit 18 bis 36 GB Unified Memory), M-Max (MacBook Pro und Mac Studio mit 36 bis 128 GB, deutlich höhere Speicherbandbreite) und M-Ultra (Mac Studio mit 64, 128 oder 192 GB, zwei zusammengeschaltete Max-Dies). Höhere Klasse heißt nicht nur mehr Speicher, sondern auch deutlich mehr Memory-Bandbreite, was bei großen Modellen mit langen Kontexten den realen Unterschied macht.

Für Multi-GPU-Setups im Consumer-Bereich gilt eine wichtige Einschränkung: 2x RTX 4090 oder 2x RTX 5090 addieren ihren VRAM nicht automatisch zu einem großen Pool. Sie laufen über PCIe ohne NVLink, das heißt Modelle müssen explizit per Tensor-Parallelism oder Pipeline-Parallelism über mehrere GPUs verteilt werden, und die Verbindung zwischen den Karten wird zum Flaschenhals. Für ein 70B-Modell in Q4 ist das machbar, für einen Vollmodell-Versuch oder lange Kontexte ist die kombinierte VRAM-Summe eine optimistische Obergrenze, nicht eine planbare Ressource. Wer für 70B-Inferenz baut, kommt mit einer einzelnen Workstation-GPU mit 48 GB oder mehr (etwa RTX 6000 Ada), einer Apple-Silicon-Ultra-Maschine oder einer NVIDIA-DGX-Spark-/GB10-Klasse in der Regel sauberer durch als mit gespiegelten Consumer-Karten. DGX Spark liegt dabei zwischen Workstation und Datacenter: stark für 32B, 70B und kleinere MoE-Experimente, aber kein realistischer Ersatz für 8x-H100-Klasse bei V3/R1-Vollmodellen.

Modell VRAM/RAM voll VRAM/RAM Q4 Typische Hardware
DeepSeek-V3 / R1 (671B MoE) lokal kaum sinnvoll nur stark quantisiert, viele hundert GB Datacenter-Klasse: 8x H100/H200/B200 oder vergleichbare Multi-Node-Setups; Mac Studio M-Ultra 192 GB oder DGX Spark/GB10 mit rund 128 GB Unified Memory nur als stark quantisierte Experimente, nicht als komfortables Ziel
R1-Distill-Llama-70B circa 140 GB BF16 circa 40 bis 48 GB 2x RTX 4090 oder 2x RTX 5090 nur mit Tensor-/Pipeline-Parallelism und PCIe-Caveat (VRAM nicht additiv), Mac Studio M-Ultra 128/192 GB oder DGX Spark/GB10 sinnvoll, einzelne RTX 4090 oder RTX 5090 nur stark quantisiert
R1-Distill-Qwen-32B circa 64 GB BF16 circa 20 bis 22 GB RTX 4090 24 GB knapp (Q4), RTX 5090 32 GB gut, MacBook Pro M-Max oder Mac Studio M-Max ab 64 GB sinnvoll, Mac Studio M-Ultra und DGX Spark/GB10 komfortabel, Mac mini M-Pro 32 GB nur Q4 mit Kompromissen
R1-Distill-Qwen-14B circa 28 GB BF16 circa 9 bis 11 GB RTX 3060 12 GB nur Q4, RTX 4070/4080 12-16 GB sinnvoll, RTX 4090/5090 gut, Mac mini M-Pro 24 GB sinnvoll, Mac mini M-Pro 32 GB gut
R1-Distill-Llama-8B circa 16 GB BF16 circa 5 bis 6 GB RTX 3060 12 GB sinnvoll, RTX 4080/4090/5090 Overkill für reines Inferenz-Setup, Mac mini M2/M4 16 GB Q4 sinnvoll, Mac mini M-Pro 24/32 GB gut
R1-Distill-Qwen-7B circa 14 GB BF16 circa 4 bis 5 GB RTX 3060 12 GB gut, RTX 4090/5090 Overkill, Mac mini M2/M4 16 GB gut, jedes Apple-Silicon-System ab 16 GB nutzbar
R1-Distill-Qwen-1.5B circa 3 GB BF16 circa 1 bis 2 GB läuft praktisch überall, von älteren Notebooks bis Mac mini M2/M4 16 GB; sinnvoll als Testmodell oder für lightweight Reasoning-Aufgaben

Die Werte für VRAM- und RAM-Bedarf sind theoretische Richtwerte aus der gängigen Faustformel: rund 2 Byte pro Parameter bei BF16/FP16 und rund 0,6 Byte pro Parameter bei sauberer Q4-Quantisierung. Reale Inferenz braucht zusätzlich Speicher für den KV-Cache, der mit Kontextlänge wächst, und für Runtime-Overhead. Wer 128.000-Token-Kontexte wirklich nutzen will, sollte beim VRAM-Budget großzügiger planen als die nackte Modellgröße suggeriert. Auf Apple Silicon ist das weniger dramatisch, weil das System Speicher dynamisch zwischen CPU- und GPU-Pfaden verteilt; auf diskreten GPUs ist es härter, weil der KV-Cache zum Modellgewicht addiert wird.

DeepSeek API: Kostenlogik

V4-Pro ist das stärkere Modell, V4-Flash der schnellere und günstigere Pfad. Entscheidend ist nicht nur der Modellname, sondern auch der Thinking-Mode: Mit 1M Kontext und höherem Reasoning-Effort können kleine Konfigurationsänderungen schnell echte Kostenunterschiede erzeugen.

Die 75-Prozent-Discount-Phase für deepseek-v4-pro wurde laut DeepSeek nach ihrem Ende in eine dauerhafte Preislinie überführt. Produktive Teams sollten Preise, Routing und Reasoning-Effort trotzdem versioniert dokumentieren, statt aus dem Gedächtnis zu kalkulieren.

Wann lohnt sich DeepSeek AI?

Für Cloud-only-Nutzer ist DeepSeek attraktiv, wenn Preis-Leistung wichtiger ist als ein bestimmter Anbieter-Lock-in. Für nicht-sensitive Workloads kann V4-Flash viel abdecken; V4-Pro lohnt sich für anspruchsvolleres Reasoning, Coding und lange Agentenläufe. Für regulierte Branchen bleibt die Compliance-Frage: API-Nutzung bedeutet Datenfluss zu einem chinesischen Anbieter. Das ist keine reine Technikentscheidung.

Für Self-Hosting ist R1-Distill-Qwen-32B die stärkste sinnvolle Wahl, R1-Distill-Qwen-14B der pragmatische Mittelweg und 7B/8B die Einstiegsoption. Die Vollmodelle V3 und R1 sind Open Weight, aber praktisch Datacenter-Modelle. Wer mit Open-Source-Souveränität argumentiert, sollte ehrlich sagen, ob er das Vollmodell meint oder ein Distill. Das ist der Unterschied zwischen Serverraum und Mac Studio.

Architektonisch bleibt DeepSeek spannend, weil es eine eigene Effizienzschule etabliert: V3/R1 über MLA und MoE, V4 über Hybrid Attention für lange Kontexte. Für KI-Engineering zählt daraus vor allem eine Konsequenz: Modellwahl, Kontextbudget, Quantisierung und Evaluation gehören zusammen. Benchmarks ersetzen den eigenen Domain-Test nicht.

Empfehlung

Für API-Nutzung ist V4-Pro die Qualitätswahl und V4-Flash die Effizienzvariante. Der eigentliche Engineering-Hebel liegt in sauber dokumentiertem Routing, Kontextbudget und Reasoning-Effort.

Für lokales Reasoning: R1-Distill-Qwen-32B ist die Oberklasse auf Workstation-Hardware, 14B der robuste Mittelweg, 7B/8B der Einstieg. RTX 5090 mit 32 GB ist für 32B deutlich entspannter als RTX 4090 mit 24 GB.

Für V3/R1-Vollmodelle: als API- oder Datacenter-Workload behandeln. Open Weight ist hier ein Transparenz- und Souveränitätsargument, aber kein Versprechen für Heimnetz-Inferenz.

Häufige Fragen

Läuft R1-Distill-Qwen-32B auf RTX 4090 oder RTX 5090?

Auf RTX 4090 nur quantisiert mit reduziertem Kontext und wenig Puffer. Auf RTX 5090 ist Q4 komfortabler; BF16 bleibt außer Reichweite.

Wie viel Apple Unified Memory ist sinnvoll?

24 bis 32 GB reichen für 7B/14B. Für 32B sind 64 GB M-Max deutlich ruhiger. Für 70B sind 128/192 GB M-Ultra realistisch.

DeepSeek API oder Self-Hosting?

API für Frontier-Qualität und lange Kontexte. Self-Hosting, wenn Datenhoheit, Reproduzierbarkeit oder Offline-Betrieb wichtiger sind als das letzte Reasoning-Niveau. Beides parallel ist oft der beste Mittelweg.

Quellen

Ähnliche Beiträge

Was sind KI World Models?

Was sind KI World Models?

World Models sollen KI-Systemen ein inneres Modell der Welt geben. Was V-JEPA 2, Sora und Robotik über diese Idee zeigen und wo die Grenzen liegen.

20. Mai 2026 8 min
Mistral AI Modelle 2026: Hardware, VRAM und Anwendungsfälle

Mistral AI Modelle 2026: Hardware, VRAM und Anwendungsfälle

Mistral AI Modelle 2026 im Hardware-Guide: VRAM, lokale Setups und Einsatz für Ministral 3, Small 4, Devstral und Medium 3.5.

16. Mai 2026 7 min
Humanoide Roboter 2026: Physical AI zwischen Serienproduktion und Systemrisiken

Humanoide Roboter 2026: Physical AI zwischen Serienproduktion und Systemrisiken

Ein humanoider Roboter absolvierte 11 Monate lang Zehn-Stunden-Schichten in einem BMW-Werk. Physische KI ist 2026 keine Vision mehr, sondern messbare Serienproduktion mit harten Grenzen.

07. Mai 2026 7 min

Signal der Woche abonnieren

Eine Nachricht. Eine Analyse. Jeden Freitag im Newsletter.