Qwen-Modelle 2026: Übersicht mit VRAM-Anforderungen und Use Cases

Welches Qwen-Modell läuft lokal sinnvoll? Der Guide vergleicht VRAM, Hardware, Use Cases und Qwen vs. Llama/Mistral für 2026.

Victor Klaue Victor Klaue IT-Projektleiter & KI-Analyst 16. März 2026 7 min Lesezeit
Qwen-Modelle 2026: Übersicht mit VRAM-Anforderungen und Use Cases

Wer in der DACH-Region ernsthaft mit lokalen Sprachmodellen arbeitet, kommt an Qwen AI nicht vorbei. Die von Alibaba Cloud entwickelte Open-Weight-Modellreihe hat sich 2025 und 2026 zu einer der stärksten Alternativen zu Meta Llama und Mistral entwickelt, mit einem entscheidenden Vorteil: Die Modelle decken eine ungewöhnlich breite Spanne ab, vom winzigen 0.8B-Modell für Edge-Geräte bis zum 397-Milliarden-Parameter-Flaggschiff für Datacenter-Hardware. Mit dem Release von Qwen3.5 am 16. Februar 2026 hatte Alibaba die Messlatte nochmals höher gelegt. Dieser Guide erklärt, welche Modelle existieren, was sie können und welche Hardware dafür notwendig ist.

Die Qwen3.5-Familie: Alle Modelle im Überblick

Die Qwen3.5-Familie umfasst laut Heise Online Modelle von 0.8B bis 397B Parametern. Das ist keine Marketingaussage, sondern eine echte technische Bandbreite, die kaum eine andere Open-Weight-Familie so konsequent abdeckt. Alle Modelle teilen ein gemeinsames Fundament: Unterstützung für 201 Sprachen sowie einen wählbaren "Thinking Mode" (Chain-of-Thought) und "Non-Thinking Mode" für direktere Antworten. Das Kontextfenster variiert je nach Modellklasse: Die Small-Serie (0.8B–9B) bietet nativ 262K Token, beim 9B ist eine Erweiterung auf 1M Token möglich. Die grösseren Modelle arbeiten mit 256K Token.

Modell Parameter Typ Besonderheit
Qwen3.5-0.8B 0,8 Mrd. Hybrid Edge, Prototyping, mobile Geräte
Qwen3.5-2B 2 Mrd. Hybrid Edge-Anwendungen, Entwickler-Tests
Qwen3.5-4B 4 Mrd. Hybrid Consumer-Laptops, lokale Assistenten
Qwen3.5-9B 9 Mrd. Hybrid Starke Consumer-GPU, gutes Allround-Modell
Qwen3.5-27B 27 Mrd. Dense High-End Consumer, MacBook Pro M3/M4 Max
Qwen3.5-35B-A3B 35 Mrd. MoE Aktiviert 3B pro Token, sehr effizient
Qwen3.5-122B-A10B 122 Mrd. MoE Semi-Pro-Hardware, aktiviert 10B pro Token
Qwen3.5-397B-A17B 397 Mrd. MoE Flaggschiff, Datacenter-Hardware erforderlich

Die Hybrid-Architektur der Small-Serie (0.8B–9B) kombiniert Gated Delta Networks mit sparse Mixture-of-Experts, eine ungewöhnliche Kombination, die hohen Durchsatz bei minimalem VRAM-Overhead ermöglicht und sich klar von klassischen Dense-Modellen unterscheidet. Die MoE-Modelle der grossen Serie sind ebenfalls besonders effizient: Beim 35B-A3B-Modell werden pro Inferenzschritt nur 3 Milliarden Parameter aktiv, das macht es deutlich ressourceneffizienter als klassische Dense-Modelle gleicher Gesamtgrösse. Neben den reinen Sprachmodellen umfasst die Qwen-Familie auf Hugging Face auch multimodale Modelle (Qwen-VL) sowie spezialisierte Code-Modelle.

Selbst hosten: Was brauche ich wirklich?

Die wichtigste Frage für alle, die Qwen lokal betreiben wollen: Reicht meine Hardware? Die folgende Tabelle basiert auf Angaben der Unsloth-Dokumentation und gibt realistische Mindestanforderungen für volle Präzision (BF16/FP16) an. Mit GGUF-Quantisierung lassen sich die VRAM-Anforderungen deutlich senken, dazu weiter unten mehr.

Modell VRAM (voll) VRAM (Q4) Typische Hardware
0.8B – 4B 2–8 GB 1–3 GB RTX 3060, M1/M2 MacBook Air
9B ~18 GB ~6 GB RTX 4090 (24 GB), RTX 5090 (32 GB), M2 Pro MacBook
27B ~54 GB ~16 GB MacBook Pro M3 Max (96 GB, BF16) oder M3/M4 Max (alle Konfigurationen ab 36 GB, Q4)
35B-A3B MoE ~22 GB ~12 GB MacBook Pro M3/M4 Max, RTX 4090, RTX 5090
122B-A10B MoE ~72 GB ~35 GB 2× RTX 4090, 2× RTX 5090, Mac Studio Ultra
397B-A17B MoE ~141 GB ~70 GB H200 (141 GB VRAM), Datacenter-Setup

Consumer (bis 32 GB VRAM): RTX 5090 (32 GB, 1,79 TB/s) oder RTX 4090 (24 GB) oder MacBook Pro M3/M4 Max. Die RTX 5090 ist die derzeit leistungsfähigste Consumer-GPU für lokale LLMs mit fast doppelter Speicherbandbreite gegenüber der 4090 und 8 GB mehr VRAM. Alle Modelle bis 35B laufen hier problemlos, auch der 35B-A3B in voller BF16-Präzision. Für Windows- und Linux-Nutzer empfiehlt sich Ollama, das Qwen3.5-Modelle direkt aus dem Hub laden kann. Wer eine grafische Oberfläche bevorzugt, ist mit LM Studio gut bedient. Einen praxisnahen Einstieg bietet Ollama auf dem Mac Mini: Lokale KI ohne Cloud.

Enthusiast (bis 80 GB VRAM): Zwei RTX 4090 oder zwei RTX 5090 (Multi-GPU via PCIe, kein NVLink bei Consumer-Karten) mit bis zu 64 GB kombiniertem VRAM, oder ein Mac Studio Ultra mit 64–192 GB unified Memory. Das 122B-MoE-Modell wird hier bei Q4-Quantisierung greifbar, vLLM oder llama.cpp im Multi-GPU-Modus empfohlen.

Pro / Datacenter: Das 397B-Flaggschiff braucht entweder eine H200 mit 141 GB HBM3 oder ein Multi-GPU-Setup. Wer das nicht stemmen kann oder will, sollte schlicht die Qwen-Cloud-API nutzen.

Apple-Silicon-Hinweis: Unified Memory ist ein echter Vorteil. Ein M3 Max mit 96 GB RAM kann das 27B-Modell in voller BF16-Präzision laden (54 GB Bedarf), der häufigere M3 Max mit 48 GB reicht dafür nicht, ermöglicht aber via Q4-Quantisierung (nur ~16 GB) denselben Komfort mit minimal reduzierter Präzision. Kein Consumer-Grafikkarten-Setup erreicht das mit vergleichbarem Budget. GGUF-Quantisierung via Unsloth oder llama.cpp ermöglicht darüber hinaus, selbst auf 16-GB-Geräten erstaunlich grosse Modelle zu betreiben.

Welches Modell für welchen Use Case?

Nicht jede Aufgabe braucht das grösste Modell. Hier eine pragmatische Zuordnung:

Coding & Agentic Tasks: Für Entwickler lohnt sich ein Blick auf Qwen-Coder, die spezialisierte Code-Variante der Familie. Qwen3.5 generell gilt laut Unsloth-Dokumentation als besonders stark in "agentic coding", also Aufgaben, bei denen das Modell autonom Werkzeuge aufruft und mehrstufige Probleme löst. Wer KI-Agenten in Unternehmensumgebungen einsetzen will, findet dazu auch KI-Agenten für Unternehmen: Welche Aufgaben, wie einführen? weiterführend. Das verbesserte Tool-Calling (März-2026-Update) macht Qwen3.5 für solche Workflows besonders attraktiv.

Vision & Multimodale Aufgaben: Die Qwen3.5-Small-Serie (0.8B–9B) ist bereits nativ multimodal, Text, Bilder und weitere Modalitäten werden direkt unterstützt, ohne separate Modelle laden zu müssen. Für anspruchsvollere Vision-Aufgaben wie detaillierte Bild-Analyse oder Document Understanding bietet Qwen-VL (Vision-Language) eine spezialisierte Variante, die auf Hugging Face separat verfügbar ist.

Edge & Mobile: Qwen3.5-0.8B und 2B sind explizit für ressourcenbeschränkte Umgebungen konzipiert. Sie laufen auf 12 GB RAM in nahezu voller Präzision und eignen sich für Prototyping, eingebettete Systeme oder Apps, die lokal auf dem Gerät inferenzieren sollen.

API-Nutzung ohne eigene Hardware: Wer das 397B-Flaggschiff nutzen will, ohne in Datacenter-Hardware zu investieren, kann über chat.qwen.ai oder die Alibaba-Cloud-API darauf zugreifen. Für DACH-Nutzer ist dabei zu beachten, dass die Daten über Alibaba-Infrastruktur laufen, was je nach Datenschutzanforderungen ein relevanter Faktor ist. Wer das grundlegend einordnen will: Digitale Souveränität in Europa gibt den breiteren Kontext.

Qwen vs. Llama vs. Mistral: Kurzer Vergleich

Qwen3.5, Meta Llama 4 und Mistral Large verfolgen unterschiedliche Philosophien:

Stärken von Qwen AI: Aussergewöhnliche Sprachbreite (201 Sprachen), starke Mehrsprachigkeit speziell für CJK-Sprachen und Deutsch, MoE-Modelle mit guter Effizienz, Thinking-Mode für komplexe Reasoning-Aufgaben, breite Modellpalette von Edge bis Datacenter.

Stärken von Llama: Riesiges Ökosystem, maximale Community-Unterstützung, gute Englisch-Performance, lange Erfolgsgeschichte mit Open-Weight-Releases.

Stärken von Mistral: Schlanke, effiziente Modelle, starke europäische Datenschutz-Positionierung, klare Lizenzpolitik.

Wo Qwen schwächer ist: Die Open-Source-Governance ist weniger transparent als bei Meta oder Mistral, Alibaba bleibt ein chinesisches Unternehmen mit entsprechender regulatorischer Exposition. Zudem ist das Community-Ökosystem ausserhalb von Hugging Face und Unsloth noch im Aufbau.

Für DACH-Nutzer, die Deutsch-Performance und Mehrsprachigkeit priorisieren, ist Qwen3.5 jedoch eine ernstzunehmende Alternative, oft leistungsfähiger als gleichgrosse Llama-Modelle auf europäischsprachigen Benchmarks. Die Entscheidungshilfe zwischen offenen und geschlossenen Modellen bietet Open-Source vs. proprietäre KI-Modelle: Wann welches?

Signal der Woche abonnieren

Eine Nachricht. Eine Analyse. Jeden Freitag im Newsletter.

Kostenlos als Member. Gratis abonnieren

Der Elefant im Raum: Kernteam-Abgang

Im März 2026 wurde bekannt, dass gleich mehrere Schlüsselpersonen hinter Qwen das Unternehmen verlassen haben: Chefentwickler Junyang Lin, Qwen-Coder-Entwickler Binyuan Hui (wechselte bereits im Januar 2026 zu Meta), Post-Training-Leiter Bowen Yu und Kaixin Li (Qwen 3.5/VL). Auslöser ist laut Berichten von TechCrunch, LatePost und Caixin eine interne Umstrukturierung: Alibaba-CEO Eddie Wu hat eine neue "Foundation Model Task Force" gebildet, die Leitung soll an einen Forscher gehen, der zuvor bei Googles Gemini-Team war.

Was bedeutet das für Nutzer? Kurzfristig: nichts. Die bereits veröffentlichten Modelle laufen weiter, GGUF-Versionen werden von der Community gepflegt, und Alibaba hat die Open-Source-Strategie explizit bekräftigt. Mittelfristig ist die Frage berechtigt, ob das neue Team die gleiche Innovationsgeschwindigkeit halten kann. Die Qwen-Modelle selbst sind fertige Artefakte, sie werden durch den Personalwechsel nicht schlechter. Aber wer auf Qwen3.6 oder die nächste Generation setzt, sollte die Entwicklung beobachten.

Fazit

Qwen AI ist 2026 eine der stärksten Open-Weight-Modellreihen überhaupt und eine der wenigen, die vom Raspberry-Pi-tauglichen Kleinstmodell bis zum Datacenter-Flaggschiff eine kohärente Familie bildet. Für DACH-Nutzer besonders relevant: die starke Mehrsprachigkeit, die breite Quantisierungsunterstützung via Unsloth und die Verfügbarkeit auf Standard-Consumer-Hardware. Der Kernteam-Abgang ist ein Warnsignal, aber kein Grund zur Panik, die Modelle sind draussen, die Community ist aktiv, und Alibaba hat genug Ressourcen, um den Betrieb fortzuführen.

Wer heute mit lokalen LLMs starten will: Qwen3.5-9B oder der 35B-A3B sind solide Einstiegspunkte. Wer Cloud-API bevorzugt, bekommt mit dem 397B-Flaggschiff auf chat.qwen.ai ein konkurrenzfähiges Modell ohne eigene Hardware.


❓ Häufige Fragen

Welches Qwen3.5-Modell läuft auf einer RTX 4090?

Die RTX 4090 hat 24 GB VRAM. Der Qwen3.5-27B läuft dort mit Q4-Quantisierung (ca. 16 GB), der 35B-A3B sogar in voller BF16-Präzision (ca. 22 GB). Modelle bis 9B laufen ohne Einschränkungen.

Was ist der Unterschied zwischen Qwen3.5 Dense und MoE?

Dense-Modelle (z.B. Qwen3.5-27B) nutzen bei jeder Inferenz alle Parameter. MoE-Modelle (z.B. 35B-A3B) aktivieren pro Token nur einen Bruchteil der Gewichte, beim 35B-A3B sind das 3 Milliarden statt 35. Das macht MoE-Modelle günstiger für grosse Kontexte und spart VRAM bei gleicher Gesamtmodellgrösse.

Sollte ich nach dem Kernteam-Abgang noch auf Qwen setzen?

Für aktuelle Modelle: ja. Die veröffentlichten Gewichte laufen weiter, GGUF-Versionen werden von der Community gepflegt. Wer auf zukünftige Releases wie Qwen3.6 angewiesen ist, sollte die personelle Entwicklung beobachten, bevor er langfristige Infrastrukturentscheidungen trifft.

Ist Qwen kostenlos und wirklich Open Source?

Viele Qwen-Modelle sind als Open-Weight-Modelle frei verfügbar und können lokal genutzt werden. Das ist aber nicht dasselbe wie klassische Open Source mit maximaler Lizenzfreiheit. Für private Tests ist Qwen sehr zugänglich; für Unternehmen zählen Lizenztext, Datenflüsse und Hosting-Entscheidung. Wer Qwen lokal über Ollama oder LM Studio nutzt, vermeidet Cloud-Datenflüsse, muss aber Hardware und Modellpflege selbst tragen.

Meine Meinung

Qwen3.5 ist technisch beeindruckend. Die MoE-Architektur macht Modelle wie den 35B-A3B für Consumer-Hardware zugänglich, ohne auf Performance zu verzichten. Was mich beschäftigt: Ein Unternehmen, das sein gesamtes Kernteam innerhalb weniger Wochen verliert, schickt kein gutes Signal an die Open-Source-Community, egal wie überzeugend die Bekenntnisse zur Offenheit klingen. Die Modelle sind gut. Ob der nächste Release genauso gut wird, ist eine offene Frage.
📚 Quellen & Weiterführendes

Ähnliche Beiträge

Open-Source vs. proprietäre KI-Modelle: Wann welches?

Open-Source vs. proprietäre KI-Modelle: Wann welches?

Wann lohnt Open-Source-KI, wann proprietär? Vergleich für Datenschutz, Kontrolle, Kosten, Leistung und digitale Souveränität in Europa.

15. Apr. 2026 6 min
Ollama auf dem Mac Mini: Welche Modelle auf welcher Ausstattung sinnvoll laufen

Ollama auf dem Mac Mini: Welche Modelle auf welcher Ausstattung sinnvoll laufen

Ollama läuft auf dem Mac Mini erstaunlich gut, aber nicht jedes Modell passt. Welche RAM-Ausstattung 2026 wirklich sinnvoll ist.

06. Apr. 2026 7 min
OpenClaw auf Raspberry Pi: Setup, Sicherheit und drei Monate Erfahrung

OpenClaw auf Raspberry Pi: Setup, Sicherheit und drei Monate Erfahrung

OpenClaw auf dem Raspberry Pi läuft schnell. Schwierig wird der dauerhafte Betrieb: Node-Versionen, systemd, Tailscale, Rechte, Logs und Wartung entscheiden.

09. März 2026 7 min

Signal der Woche abonnieren

Eine Nachricht. Eine Analyse. Jeden Freitag im Newsletter.