Wer in der DACH-Region ernsthaft mit lokalen Sprachmodellen arbeitet, kommt an Qwen AI nicht vorbei. Die von Alibaba Cloud entwickelte Open-Weight-Modellreihe hat sich 2025 und 2026 zu einer der stärksten Alternativen zu Meta Llama und Mistral entwickelt, mit einem entscheidenden Vorteil: Die Modelle decken eine ungewöhnlich breite Spanne ab, vom winzigen 0.8B-Modell für Edge-Geräte bis zum 397-Milliarden-Parameter-Flaggschiff für Datacenter-Hardware. Mit dem Release von Qwen3.5 am 16. Februar 2026 hatte Alibaba die Messlatte nochmals höher gelegt. Dieser Guide erklärt, welche Modelle existieren, was sie können und welche Hardware dafür notwendig ist.
Die Qwen3.5-Familie: Alle Modelle im Überblick
Die Qwen3.5-Familie umfasst laut Heise Online Modelle von 0.8B bis 397B Parametern. Das ist keine Marketingaussage, sondern eine echte technische Bandbreite, die kaum eine andere Open-Weight-Familie so konsequent abdeckt. Alle Modelle teilen ein gemeinsames Fundament: Unterstützung für 201 Sprachen sowie einen wählbaren "Thinking Mode" (Chain-of-Thought) und "Non-Thinking Mode" für direktere Antworten. Das Kontextfenster variiert je nach Modellklasse: Die Small-Serie (0.8B–9B) bietet nativ 262K Token, beim 9B ist eine Erweiterung auf 1M Token möglich. Die grösseren Modelle arbeiten mit 256K Token.
| Modell | Parameter | Typ | Besonderheit |
|---|---|---|---|
| Qwen3.5-0.8B | 0,8 Mrd. | Hybrid | Edge, Prototyping, mobile Geräte |
| Qwen3.5-2B | 2 Mrd. | Hybrid | Edge-Anwendungen, Entwickler-Tests |
| Qwen3.5-4B | 4 Mrd. | Hybrid | Consumer-Laptops, lokale Assistenten |
| Qwen3.5-9B | 9 Mrd. | Hybrid | Starke Consumer-GPU, gutes Allround-Modell |
| Qwen3.5-27B | 27 Mrd. | Dense | High-End Consumer, MacBook Pro M3/M4 Max |
| Qwen3.5-35B-A3B | 35 Mrd. | MoE | Aktiviert 3B pro Token, sehr effizient |
| Qwen3.5-122B-A10B | 122 Mrd. | MoE | Semi-Pro-Hardware, aktiviert 10B pro Token |
| Qwen3.5-397B-A17B | 397 Mrd. | MoE | Flaggschiff, Datacenter-Hardware erforderlich |
Die Hybrid-Architektur der Small-Serie (0.8B–9B) kombiniert Gated Delta Networks mit sparse Mixture-of-Experts, eine ungewöhnliche Kombination, die hohen Durchsatz bei minimalem VRAM-Overhead ermöglicht und sich klar von klassischen Dense-Modellen unterscheidet. Die MoE-Modelle der grossen Serie sind ebenfalls besonders effizient: Beim 35B-A3B-Modell werden pro Inferenzschritt nur 3 Milliarden Parameter aktiv, das macht es deutlich ressourceneffizienter als klassische Dense-Modelle gleicher Gesamtgrösse. Neben den reinen Sprachmodellen umfasst die Qwen-Familie auf Hugging Face auch multimodale Modelle (Qwen-VL) sowie spezialisierte Code-Modelle.
Selbst hosten: Was brauche ich wirklich?
Die wichtigste Frage für alle, die Qwen lokal betreiben wollen: Reicht meine Hardware? Die folgende Tabelle basiert auf Angaben der Unsloth-Dokumentation und gibt realistische Mindestanforderungen für volle Präzision (BF16/FP16) an. Mit GGUF-Quantisierung lassen sich die VRAM-Anforderungen deutlich senken, dazu weiter unten mehr.
| Modell | VRAM (voll) | VRAM (Q4) | Typische Hardware |
|---|---|---|---|
| 0.8B – 4B | 2–8 GB | 1–3 GB | RTX 3060, M1/M2 MacBook Air |
| 9B | ~18 GB | ~6 GB | RTX 4090 (24 GB), RTX 5090 (32 GB), M2 Pro MacBook |
| 27B | ~54 GB | ~16 GB | MacBook Pro M3 Max (96 GB, BF16) oder M3/M4 Max (alle Konfigurationen ab 36 GB, Q4) |
| 35B-A3B MoE | ~22 GB | ~12 GB | MacBook Pro M3/M4 Max, RTX 4090, RTX 5090 |
| 122B-A10B MoE | ~72 GB | ~35 GB | 2× RTX 4090, 2× RTX 5090, Mac Studio Ultra |
| 397B-A17B MoE | ~141 GB | ~70 GB | H200 (141 GB VRAM), Datacenter-Setup |
Consumer (bis 32 GB VRAM): RTX 5090 (32 GB, 1,79 TB/s) oder RTX 4090 (24 GB) oder MacBook Pro M3/M4 Max. Die RTX 5090 ist die derzeit leistungsfähigste Consumer-GPU für lokale LLMs mit fast doppelter Speicherbandbreite gegenüber der 4090 und 8 GB mehr VRAM. Alle Modelle bis 35B laufen hier problemlos, auch der 35B-A3B in voller BF16-Präzision. Für Windows- und Linux-Nutzer empfiehlt sich Ollama, das Qwen3.5-Modelle direkt aus dem Hub laden kann. Wer eine grafische Oberfläche bevorzugt, ist mit LM Studio gut bedient. Einen praxisnahen Einstieg bietet Ollama auf dem Mac Mini: Lokale KI ohne Cloud.
Enthusiast (bis 80 GB VRAM): Zwei RTX 4090 oder zwei RTX 5090 (Multi-GPU via PCIe, kein NVLink bei Consumer-Karten) mit bis zu 64 GB kombiniertem VRAM, oder ein Mac Studio Ultra mit 64–192 GB unified Memory. Das 122B-MoE-Modell wird hier bei Q4-Quantisierung greifbar, vLLM oder llama.cpp im Multi-GPU-Modus empfohlen.
Pro / Datacenter: Das 397B-Flaggschiff braucht entweder eine H200 mit 141 GB HBM3 oder ein Multi-GPU-Setup. Wer das nicht stemmen kann oder will, sollte schlicht die Qwen-Cloud-API nutzen.
Apple-Silicon-Hinweis: Unified Memory ist ein echter Vorteil. Ein M3 Max mit 96 GB RAM kann das 27B-Modell in voller BF16-Präzision laden (54 GB Bedarf), der häufigere M3 Max mit 48 GB reicht dafür nicht, ermöglicht aber via Q4-Quantisierung (nur ~16 GB) denselben Komfort mit minimal reduzierter Präzision. Kein Consumer-Grafikkarten-Setup erreicht das mit vergleichbarem Budget. GGUF-Quantisierung via Unsloth oder llama.cpp ermöglicht darüber hinaus, selbst auf 16-GB-Geräten erstaunlich grosse Modelle zu betreiben.
Welches Modell für welchen Use Case?
Nicht jede Aufgabe braucht das grösste Modell. Hier eine pragmatische Zuordnung:
Coding & Agentic Tasks: Für Entwickler lohnt sich ein Blick auf Qwen-Coder, die spezialisierte Code-Variante der Familie. Qwen3.5 generell gilt laut Unsloth-Dokumentation als besonders stark in "agentic coding", also Aufgaben, bei denen das Modell autonom Werkzeuge aufruft und mehrstufige Probleme löst. Wer KI-Agenten in Unternehmensumgebungen einsetzen will, findet dazu auch KI-Agenten für Unternehmen: Welche Aufgaben, wie einführen? weiterführend. Das verbesserte Tool-Calling (März-2026-Update) macht Qwen3.5 für solche Workflows besonders attraktiv.
Vision & Multimodale Aufgaben: Die Qwen3.5-Small-Serie (0.8B–9B) ist bereits nativ multimodal, Text, Bilder und weitere Modalitäten werden direkt unterstützt, ohne separate Modelle laden zu müssen. Für anspruchsvollere Vision-Aufgaben wie detaillierte Bild-Analyse oder Document Understanding bietet Qwen-VL (Vision-Language) eine spezialisierte Variante, die auf Hugging Face separat verfügbar ist.
Edge & Mobile: Qwen3.5-0.8B und 2B sind explizit für ressourcenbeschränkte Umgebungen konzipiert. Sie laufen auf 12 GB RAM in nahezu voller Präzision und eignen sich für Prototyping, eingebettete Systeme oder Apps, die lokal auf dem Gerät inferenzieren sollen.
API-Nutzung ohne eigene Hardware: Wer das 397B-Flaggschiff nutzen will, ohne in Datacenter-Hardware zu investieren, kann über chat.qwen.ai oder die Alibaba-Cloud-API darauf zugreifen. Für DACH-Nutzer ist dabei zu beachten, dass die Daten über Alibaba-Infrastruktur laufen, was je nach Datenschutzanforderungen ein relevanter Faktor ist. Wer das grundlegend einordnen will: Digitale Souveränität in Europa gibt den breiteren Kontext.
Qwen vs. Llama vs. Mistral: Kurzer Vergleich
Qwen3.5, Meta Llama 4 und Mistral Large verfolgen unterschiedliche Philosophien:
Stärken von Qwen AI: Aussergewöhnliche Sprachbreite (201 Sprachen), starke Mehrsprachigkeit speziell für CJK-Sprachen und Deutsch, MoE-Modelle mit guter Effizienz, Thinking-Mode für komplexe Reasoning-Aufgaben, breite Modellpalette von Edge bis Datacenter.
Stärken von Llama: Riesiges Ökosystem, maximale Community-Unterstützung, gute Englisch-Performance, lange Erfolgsgeschichte mit Open-Weight-Releases.
Stärken von Mistral: Schlanke, effiziente Modelle, starke europäische Datenschutz-Positionierung, klare Lizenzpolitik.
Wo Qwen schwächer ist: Die Open-Source-Governance ist weniger transparent als bei Meta oder Mistral, Alibaba bleibt ein chinesisches Unternehmen mit entsprechender regulatorischer Exposition. Zudem ist das Community-Ökosystem ausserhalb von Hugging Face und Unsloth noch im Aufbau.
Für DACH-Nutzer, die Deutsch-Performance und Mehrsprachigkeit priorisieren, ist Qwen3.5 jedoch eine ernstzunehmende Alternative, oft leistungsfähiger als gleichgrosse Llama-Modelle auf europäischsprachigen Benchmarks. Die Entscheidungshilfe zwischen offenen und geschlossenen Modellen bietet Open-Source vs. proprietäre KI-Modelle: Wann welches?
Signal der Woche abonnieren
Eine Nachricht. Eine Analyse. Jeden Freitag im Newsletter.
Kostenlos als Member. Gratis abonnieren
Der Elefant im Raum: Kernteam-Abgang
Im März 2026 wurde bekannt, dass gleich mehrere Schlüsselpersonen hinter Qwen das Unternehmen verlassen haben: Chefentwickler Junyang Lin, Qwen-Coder-Entwickler Binyuan Hui (wechselte bereits im Januar 2026 zu Meta), Post-Training-Leiter Bowen Yu und Kaixin Li (Qwen 3.5/VL). Auslöser ist laut Berichten von TechCrunch, LatePost und Caixin eine interne Umstrukturierung: Alibaba-CEO Eddie Wu hat eine neue "Foundation Model Task Force" gebildet, die Leitung soll an einen Forscher gehen, der zuvor bei Googles Gemini-Team war.
Was bedeutet das für Nutzer? Kurzfristig: nichts. Die bereits veröffentlichten Modelle laufen weiter, GGUF-Versionen werden von der Community gepflegt, und Alibaba hat die Open-Source-Strategie explizit bekräftigt. Mittelfristig ist die Frage berechtigt, ob das neue Team die gleiche Innovationsgeschwindigkeit halten kann. Die Qwen-Modelle selbst sind fertige Artefakte, sie werden durch den Personalwechsel nicht schlechter. Aber wer auf Qwen3.6 oder die nächste Generation setzt, sollte die Entwicklung beobachten.
Fazit
Qwen AI ist 2026 eine der stärksten Open-Weight-Modellreihen überhaupt und eine der wenigen, die vom Raspberry-Pi-tauglichen Kleinstmodell bis zum Datacenter-Flaggschiff eine kohärente Familie bildet. Für DACH-Nutzer besonders relevant: die starke Mehrsprachigkeit, die breite Quantisierungsunterstützung via Unsloth und die Verfügbarkeit auf Standard-Consumer-Hardware. Der Kernteam-Abgang ist ein Warnsignal, aber kein Grund zur Panik, die Modelle sind draussen, die Community ist aktiv, und Alibaba hat genug Ressourcen, um den Betrieb fortzuführen.
Wer heute mit lokalen LLMs starten will: Qwen3.5-9B oder der 35B-A3B sind solide Einstiegspunkte. Wer Cloud-API bevorzugt, bekommt mit dem 397B-Flaggschiff auf chat.qwen.ai ein konkurrenzfähiges Modell ohne eigene Hardware.
❓ Häufige Fragen
Welches Qwen3.5-Modell läuft auf einer RTX 4090?
Die RTX 4090 hat 24 GB VRAM. Der Qwen3.5-27B läuft dort mit Q4-Quantisierung (ca. 16 GB), der 35B-A3B sogar in voller BF16-Präzision (ca. 22 GB). Modelle bis 9B laufen ohne Einschränkungen.
Was ist der Unterschied zwischen Qwen3.5 Dense und MoE?
Dense-Modelle (z.B. Qwen3.5-27B) nutzen bei jeder Inferenz alle Parameter. MoE-Modelle (z.B. 35B-A3B) aktivieren pro Token nur einen Bruchteil der Gewichte, beim 35B-A3B sind das 3 Milliarden statt 35. Das macht MoE-Modelle günstiger für grosse Kontexte und spart VRAM bei gleicher Gesamtmodellgrösse.
Sollte ich nach dem Kernteam-Abgang noch auf Qwen setzen?
Für aktuelle Modelle: ja. Die veröffentlichten Gewichte laufen weiter, GGUF-Versionen werden von der Community gepflegt. Wer auf zukünftige Releases wie Qwen3.6 angewiesen ist, sollte die personelle Entwicklung beobachten, bevor er langfristige Infrastrukturentscheidungen trifft.
Ist Qwen kostenlos und wirklich Open Source?
Viele Qwen-Modelle sind als Open-Weight-Modelle frei verfügbar und können lokal genutzt werden. Das ist aber nicht dasselbe wie klassische Open Source mit maximaler Lizenzfreiheit. Für private Tests ist Qwen sehr zugänglich; für Unternehmen zählen Lizenztext, Datenflüsse und Hosting-Entscheidung. Wer Qwen lokal über Ollama oder LM Studio nutzt, vermeidet Cloud-Datenflüsse, muss aber Hardware und Modellpflege selbst tragen.
Qwen3.5 ist technisch beeindruckend. Die MoE-Architektur macht Modelle wie den 35B-A3B für Consumer-Hardware zugänglich, ohne auf Performance zu verzichten. Was mich beschäftigt: Ein Unternehmen, das sein gesamtes Kernteam innerhalb weniger Wochen verliert, schickt kein gutes Signal an die Open-Source-Community, egal wie überzeugend die Bekenntnisse zur Offenheit klingen. Die Modelle sind gut. Ob der nächste Release genauso gut wird, ist eine offene Frage.
- → TechCrunch, Alibaba's Qwen tech lead steps down after major AI push
- → Heise Online, Qwen3.5-Familie: Feuerwerk neuer LLMs von Alibaba
- → GitHub, QwenLM/Qwen3.5: Offizielles Repository mit Modell-Releases
- → Hugging Face, Qwen Organisation: Alle Modelle zum Download
- → Unsloth Docs, Qwen3.5 lokales Setup: VRAM-Anforderungen und GGUF-Quantisierung
- → HuggingFace, Open LLM Leaderboard: Unabhängige Benchmarks für Open-Weight-Modelle