DeepSeek AI Modelle: V4, R1, API und Hardware im Vergleich

DeepSeek ist 2026 API-Linie, Open-Weight-MoE und lokale Distill-Familie zugleich. Entscheidend ist das Betriebsmodell.

Victor Klaue IT-Projektleiter & KI-Analyst · Veröffentlicht 26. Mai 2026 · 8 min Lesezeit

DeepSeek AI Modelle: V4, R1, API und Hardware im Vergleich

DeepSeek AI ist 2026 keine Einzelmarke mehr, sondern eine Modellfamilie mit zwei Parallelwelten: proprietäre API-Modelle auf der einen Seite, Open-Weight-Modelle auf Hugging Face und GitHub auf der anderen. Wer DeepSeek bewertet, muss deshalb drei Dinge sauber trennen: V4 als API-Linie, V3/R1 als grosse Open-Weight-MoE-Modelle und R1-Distills als praktisch hostbare Ableger.

DeepSeek-Modellfamilie

Drei Linien, drei Betriebsmodelle

API-Linie

V4-Pro und V4-Flash

1M Kontext, Thinking/Non-Thinking, OpenAI-kompatible API. Pro ist der Qualitäts-, Flash der Effizienzpfad.

Open Weight Vollmodelle

V3 und R1

671B MoE, 37B aktiv, 128K Kontext. Technisch offen, praktisch aber Datacenter- oder Experimentierklasse.

Lokales Self-Hosting

R1-Distill-Modelle

Qwen- und Llama-Backbones von 1,5B bis 70B. Die relevante Linie für Mac, RTX, DGX Spark und Workstation-Setups.

Einordnung nach Bereitstellung, nicht nach Benchmark-Rang. API-Modelle, Vollmodelle und Distills sind technisch und operativ unterschiedliche Kategorien.

Kurzfazit

Für API-Nutzung sind deepseek-v4-pro und deepseek-v4-flash die relevante Linie. Beide bieten 1M Kontext, Thinking/Non-Thinking und OpenAI-kompatible Chat-Completions; zusätzlich unterstützt DeepSeek ein Anthropic-Interface. Für Self-Hosting sind dagegen vor allem die R1-Distill-Modelle interessant. DeepSeek-V3 und DeepSeek-R1 sind zwar Open Weight, aber mit 671 Milliarden Gesamtparametern Rechenzentrumsklasse. Open Source heisst hier nicht automatisch: läuft sinnvoll auf der Workstation.

DeepSeek AI als Modellfamilie verstehen

Auf API-Seite unterstützt DeepSeek offiziell deepseek-v4-pro und deepseek-v4-flash. V4-Pro hat 1,6 Billionen Gesamtparameter, 49 Milliarden aktive Parameter pro Token und Reasoning-Effort-Stufen bis max. V4-Flash ist kleiner und schneller: 284 Milliarden Gesamtparameter, 13 Milliarden aktiv. Beide Modelle unterstützen ein Kontextfenster von einer Million Tokens und lassen sich im Thinking- oder Non-Thinking-Modus betreiben.

Die Legacy-Namen deepseek-chat und deepseek-reasoner wurden zunächst auf DeepSeek-V3.2 aktualisiert und verweisen in der aktuellen Übergangsphase auf V4-Flash Non-Thinking beziehungsweise V4-Flash Thinking. Nach dem 2026-07-24 werden sie abgeschaltet. Wer noch alte Modellnamen im Code hat, sollte nicht bis zur Deadline warten.

Auf Open-Weight-Seite stehen DeepSeek-V3 und DeepSeek-R1 im Mittelpunkt. Beide haben 671 Milliarden Parameter insgesamt, 37 Milliarden aktive Parameter pro Token und 128K Kontext. R1 ergänzt die V3-Basis um Reasoning-spezifisches Posttraining; R1-Zero zeigt die reine RL-Variante ohne überwachte Cold-Start-Daten, mit besseren Reasoning-Spuren, aber sichtbaren Problemen bei Lesbarkeit und Wiederholungen.

Die praktisch relevante Self-Hosting-Linie sind die R1-Distills. Sie übertragen Reasoning-Verhalten von R1 in kleinere Qwen- und Llama-Backbones: 1,5B, 7B, 14B, 32B sowie 8B und 70B. Sie sind nicht dieselbe Architektur wie R1, aber sie sind die Modelle, die auf Consumer- und Workstation-Hardware realistisch laufen.

Modellübersicht

Modell	Parameter	Typ	Besonderheit
DeepSeek V4-Pro	1,6T gesamt / 49B aktiv	API	Top-Tier-API-Modell, 1M Kontext, Thinking/Non-Thinking, OpenAI- und Anthropic-kompatibles Interface
DeepSeek V4-Flash	284B gesamt / 13B aktiv	API	Schneller API-Track, 1M Kontext, Thinking/Non-Thinking in einem Modell
DeepSeek-V3	671B gesamt / 37B aktiv	MoE	128K Kontext, MLA, DeepSeekMoE, MTP, Open-Weight-Basismodell
DeepSeek-R1	671B gesamt / 37B aktiv	MoE	Reasoning-Modell auf V3-Basis, cold-start-data plus Reinforcement Learning
DeepSeek-R1-Zero	671B gesamt / 37B aktiv	MoE	RL ohne überwachtes Feintuning, Forschungsmodell mit Lesbarkeitsschwächen
R1-Distill-Qwen-1.5B	1,5B	Dense	Kleinstes Distill, läuft auf Notebook-Hardware
R1-Distill-Qwen-7B	7B	Dense	Solider Allrounder für lokales Reasoning auf Consumer-Hardware
R1-Distill-Llama-8B	8B	Dense	Llama-Backbone, gute Ökosystem-Tool-Unterstützung
R1-Distill-Qwen-14B	14B	Dense	Mittelklasse für anspruchsvollere lokale Aufgaben
R1-Distill-Qwen-32B	32B	Dense	Stärkstes lokal realistisches Reasoning-Distill
R1-Distill-Llama-70B	70B	Dense	Grösstes Distill, lokal nur mit Workstation-Hardware

Die V4-Zahlen stammen aus der DeepSeek-V4-Modellkarte und dem technischen Report: V4-Pro hat 1,6 Billionen Parameter insgesamt und 49 Milliarden aktive Parameter pro Token, V4-Flash 284 Milliarden insgesamt und 13 Milliarden aktiv. Beide unterstützen ein Kontextfenster von einer Million Tokens. Für die Praxis sind diese Zahlen trotzdem nur der Einstieg: Latenz, Preis, Thinking-Effort und Kontextlänge entscheiden stärker über die API-Kosten als die reine Parameterzahl.

Architektur und Hardware: was wirklich zählt

Bei DeepSeek muss man V3/R1 von V4 trennen. V3 und R1 setzen auf Multi-Head Latent Attention, DeepSeekMoE mit auxiliary-loss-free Load Balancing und Multi-Token Prediction. V4 führt dagegen eine Hybrid Attention Architecture ein, die Compressed Sparse Attention und Heavily Compressed Attention kombiniert. Laut DeepSeek-V4-Report benötigt V4-Pro bei 1M Kontext nur 27 Prozent der Single-Token-Inference-FLOPs und 10 Prozent des KV-Caches im Vergleich zu DeepSeek-V3.2. Genau deshalb ist V4 als Million-Token-API-Linie interessant.

Für Self-Hosting bleibt der harte Punkt Speicher. MoE reduziert die aktive Rechenlast pro Token, aber nicht den Bedarf, die Gewichte erreichbar zu halten. Ein 671B-MoE ist kein Modell für eine einzelne Consumer-GPU. Zusätzlich zum Modellgewicht kommt der KV-Cache, der mit Kontextlänge wächst. DeepSeek reduziert diesen Cache über MLA beziehungsweise V4s neue Attention-Architektur, aber kostenlos wird langer Kontext nicht.

Hardware-Kompatibilitätsmatrix

Die folgende Matrix bewertet, welche Modellklassen auf welchen Hardwareprofilen realistisch laufen. Bewertung nur in Klassen, ohne Tokens-pro-Sekunde-Werte.

Für Apple-Silicon-Systeme gilt: Unified Memory ist ein gemeinsames RAM- und VRAM-Budget. Die Zahl beschreibt den gesamten verfügbaren Speicher, von dem Betriebssystem, Anwendungen und Modell ihre Anteile abziehen. Die Klassen staffeln sich grob in M-Pro (typisch MacBook Pro und Mac mini mit 18 bis 36 GB Unified Memory), M-Max (MacBook Pro und Mac Studio mit 36 bis 128 GB, deutlich höhere Speicherbandbreite) und M-Ultra (Mac Studio mit 64, 128 oder 192 GB, zwei zusammengeschaltete Max-Dies). Höhere Klasse heisst hier mehr Speicher plus deutlich mehr Memory-Bandbreite, was bei grossen Modellen mit langen Kontexten den realen Unterschied macht.

Für Multi-GPU-Setups im Consumer-Bereich gilt eine wichtige Einschränkung: 2x RTX 4090 oder 2x RTX 5090 addieren ihren VRAM nicht automatisch zu einem grossen Pool. Sie laufen über PCIe ohne NVLink, das heisst Modelle müssen explizit per Tensor-Parallelism oder Pipeline-Parallelism über mehrere GPUs verteilt werden, und die Verbindung zwischen den Karten wird zum Flaschenhals. Für ein 70B-Modell in Q4 ist das machbar, für einen Vollmodell-Versuch oder lange Kontexte ist die kombinierte VRAM-Summe eine optimistische Obergrenze, nicht eine planbare Ressource. Wer für 70B-Inferenz baut, kommt mit einer einzelnen Workstation-GPU mit 48 GB oder mehr (etwa RTX 6000 Ada), einer Apple-Silicon-Ultra-Maschine oder einer NVIDIA-DGX-Spark-/GB10-Klasse in der Regel sauberer durch als mit gespiegelten Consumer-Karten. DGX Spark liegt dabei zwischen Workstation und Datacenter: stark für 32B, 70B und kleinere MoE-Experimente, aber kein realistischer Ersatz für 8x-H100-Klasse bei V3/R1-Vollmodellen.

Modell	VRAM/RAM voll	VRAM/RAM Q4	Typische Hardware
DeepSeek-V3 / R1 (671B MoE)	lokal kaum sinnvoll	nur stark quantisiert, viele hundert GB	Datacenter-Klasse: 8x H100/H200/B200 oder vergleichbare Multi-Node-Setups; Mac Studio M-Ultra 192 GB oder DGX Spark/GB10 mit rund 128 GB Unified Memory nur als stark quantisierte Experimente, nicht als komfortables Ziel
R1-Distill-Llama-70B	circa 140 GB BF16	circa 40 bis 48 GB	2x RTX 4090 oder 2x RTX 5090 nur mit Tensor-/Pipeline-Parallelism und PCIe-Caveat (VRAM nicht additiv), Mac Studio M-Ultra 128/192 GB oder DGX Spark/GB10 sinnvoll, einzelne RTX 4090 oder RTX 5090 nur stark quantisiert
R1-Distill-Qwen-32B	circa 64 GB BF16	circa 20 bis 22 GB	RTX 4090 24 GB knapp (Q4), RTX 5090 32 GB gut, MacBook Pro M-Max oder Mac Studio M-Max ab 64 GB sinnvoll, Mac Studio M-Ultra und DGX Spark/GB10 komfortabel, Mac mini M-Pro 32 GB nur Q4 mit Kompromissen
R1-Distill-Qwen-14B	circa 28 GB BF16	circa 9 bis 11 GB	RTX 3060 12 GB nur Q4, RTX 4070/4080 12-16 GB sinnvoll, RTX 4090/5090 gut, Mac mini M-Pro 24 GB sinnvoll, Mac mini M-Pro 32 GB gut
R1-Distill-Llama-8B	circa 16 GB BF16	circa 5 bis 6 GB	RTX 3060 12 GB sinnvoll, RTX 4080/4090/5090 Overkill für reines Inferenz-Setup, Mac mini M2/M4 16 GB Q4 sinnvoll, Mac mini M-Pro 24/32 GB gut
R1-Distill-Qwen-7B	circa 14 GB BF16	circa 4 bis 5 GB	RTX 3060 12 GB gut, RTX 4090/5090 Overkill, Mac mini M2/M4 16 GB gut, jedes Apple-Silicon-System ab 16 GB nutzbar
R1-Distill-Qwen-1.5B	circa 3 GB BF16	circa 1 bis 2 GB	läuft praktisch überall, von älteren Notebooks bis Mac mini M2/M4 16 GB; sinnvoll als Testmodell oder für lightweight Reasoning-Aufgaben

Die Werte für VRAM- und RAM-Bedarf sind theoretische Richtwerte aus der gängigen Faustformel: rund 2 Byte pro Parameter bei BF16/FP16 und rund 0,6 Byte pro Parameter bei sauberer Q4-Quantisierung. Benchmark-Hinweis: Das sind keine AISyndicate-eigenen Messungen; Hardware, Runtime und Quantisierung machen die Werte nur grob vergleichbar. Reale Inferenz braucht zusätzlich Speicher für den KV-Cache, der mit Kontextlänge wächst, und für Runtime-Overhead. Wer 128.000-Token-Kontexte wirklich nutzen will, sollte beim VRAM-Budget grosszügiger planen als die nackte Modellgrösse suggeriert. Auf Apple Silicon ist das weniger dramatisch, weil das System Speicher dynamisch zwischen CPU- und GPU-Pfaden verteilt; auf diskreten GPUs ist es härter, weil der KV-Cache zum Modellgewicht addiert wird.

DeepSeek API: Kostenlogik

V4-Pro ist das stärkere Modell, V4-Flash der schnellere und günstigere Pfad. Entscheidend sind Modellname, Thinking-Mode und Kontextbudget gemeinsam: Mit 1M Kontext und höherem Reasoning-Effort können kleine Konfigurationsänderungen schnell echte Kostenunterschiede erzeugen.

Die 75-Prozent-Discount-Phase für deepseek-v4-pro wurde laut DeepSeek nach ihrem Ende in eine dauerhafte Preislinie überführt. Produktive Teams sollten Preise, Routing und Reasoning-Effort trotzdem versioniert dokumentieren, statt aus dem Gedächtnis zu kalkulieren.

Wann lohnt sich DeepSeek AI?

Für Cloud-only-Nutzer ist DeepSeek attraktiv, wenn Preis-Leistung wichtiger ist als ein bestimmter Anbieter-Lock-in. Für nicht-sensitive Workloads kann V4-Flash viel abdecken; V4-Pro lohnt sich für anspruchsvolleres Reasoning, Coding und lange Agentenläufe. Für regulierte Branchen bleibt die Compliance-Frage: API-Nutzung bedeutet Datenfluss zu einem chinesischen Anbieter. Das ist keine reine Technikentscheidung.

Für Self-Hosting ist R1-Distill-Qwen-32B die stärkste sinnvolle Wahl, R1-Distill-Qwen-14B der pragmatische Mittelweg und 7B/8B die Einstiegsoption. Die Vollmodelle V3 und R1 sind Open Weight, aber praktisch Datacenter-Modelle. Wer mit Open-Source-Souveränität argumentiert, sollte ehrlich sagen, ob er das Vollmodell meint oder ein Distill. Für kleinere europäische Open-Weight-Modelle mit deutlich niedrigerer Hardwarehürde bietet die Mistral-Familie eine naheliegende Gegenperspektive. Das ist der Unterschied zwischen Serverraum und Mac Studio.

Architektonisch bleibt DeepSeek spannend, weil es eine eigene Effizienzschule etabliert: V3/R1 über MLA und MoE, V4 über Hybrid Attention für lange Kontexte. Für KI-Engineering zählt daraus vor allem eine Konsequenz: Modellwahl, Kontextbudget, Quantisierung und Evaluation gehören zusammen. Benchmarks ersetzen den eigenen Domain-Test nicht.

Empfehlung

Für API-Nutzung ist V4-Pro die Qualitätswahl und V4-Flash die Effizienzvariante. Der eigentliche Engineering-Hebel liegt in sauber dokumentiertem Routing, Kontextbudget und Reasoning-Effort.

Für lokales Reasoning: R1-Distill-Qwen-32B ist die Oberklasse auf Workstation-Hardware, 14B der robuste Mittelweg, 7B/8B der Einstieg. RTX 5090 mit 32 GB ist für 32B deutlich entspannter als RTX 4090 mit 24 GB.

Für V3/R1-Vollmodelle: als API- oder Datacenter-Workload behandeln. Open Weight ist hier ein Transparenz- und Souveränitätsargument, aber kein Versprechen für Heimnetz-Inferenz. DeepSeek ist stark, wenn man es als Betriebsentscheidung behandelt: API für Preis und Kontext, Distills für Self-Hosting, Vollmodelle für Datacenter-Setups. Wer diese Ebenen vermischt, überschätzt entweder die lokale Machbarkeit oder unterschätzt die Compliance-Frage.

❓ Häufige Fragen

Läuft R1-Distill-Qwen-32B auf RTX 4090 oder RTX 5090?

Auf RTX 4090 nur quantisiert mit reduziertem Kontext und wenig Puffer. Auf RTX 5090 ist Q4 komfortabler; BF16 bleibt ausser Reichweite.

Wie viel Apple Unified Memory ist sinnvoll?

24 bis 32 GB reichen für 7B/14B. Für 32B sind 64 GB M-Max deutlich ruhiger. Für 70B sind 128/192 GB M-Ultra realistisch.

DeepSeek API oder Self-Hosting?

API für Frontier-Qualität und lange Kontexte. Self-Hosting, wenn Datenhoheit, Reproduzierbarkeit oder Offline-Betrieb wichtiger sind als das letzte Reasoning-Niveau. Beides parallel ist oft der beste Mittelweg.

🔗 Quellen

DeepSeek AI Modelle: V4, R1, API und Hardware im Vergleich

Kurzfazit

DeepSeek AI als Modellfamilie verstehen

Modellübersicht

Architektur und Hardware: was wirklich zählt

Hardware-Kompatibilitätsmatrix

DeepSeek API: Kostenlogik

Wann lohnt sich DeepSeek AI?

Empfehlung

Ähnliche Beiträge

Was sind KI World Models?

Mistral AI Modelle 2026: Hardware, VRAM und Anwendungsfälle

Humanoide Roboter 2026: Physical AI zwischen Serienproduktion und Systemrisiken

Kurzfazit

DeepSeek AI als Modellfamilie verstehen

Modellübersicht

Architektur und Hardware: was wirklich zählt

Hardware-Kompatibilitätsmatrix

DeepSeek API: Kostenlogik

Wann lohnt sich DeepSeek AI?

Empfehlung

Ähnliche Beiträge

Was sind KI World Models?

Mistral AI Modelle 2026: Hardware, VRAM und Anwendungsfälle

Humanoide Roboter 2026: Physical AI zwischen Serienproduktion und Systemrisiken

Signal der Woche abonnieren