2026 ist die Frage nicht mehr, ob Llama lokal läuft. Die Frage ist, warum man Llama statt Qwen, Mistral oder einem spezialisierten Vision-/Coder-Modell nehmen sollte. Seit Llama 4 Scout und Maverick im April 2025 hat Meta keine neueren frei ladbaren generativen Llama-Weights nachgelegt. Llama ist damit nicht tot, aber es ist nicht mehr der Taktgeber für lokale KI.
Auch die Hardware-Realität hat sich verschoben. Die RTX 4090 mit 24 GB war lange der Consumer-Anker; 2026 ist die RTX 5090 mit 32 GB GDDR7 die passendere Referenz. Das hilft kleinen und mittleren Modellen spürbar. Es macht Llama 4 Scout aber noch nicht zu einem normalen Desktop-Modell: Scout rechnet pro Token nur mit 17B aktiven Parametern, muss als 109B-MoE-Modell aber trotzdem mit seinem Speicherbedarf geplant werden.
Der nüchterne Befund: Llama lohnt sich lokal noch, wenn Kompatibilität, bestehende Llama-Stacks, lange Kontexte oder konkrete Meta-Modelle zählen. Wer heute einfach das beste lokale Modell für Text, Code oder Vision sucht, sollte Llama aber gegen Qwen, Mistral und andere aktuelle Open-Weight-Familien testen, statt aus Gewohnheit bei Llama zu starten.
Was Llama 2026 wirklich ist
Llama ist Metas Open-Weight-Modellfamilie. Open Weight ist hier der präzisere Begriff als Open Source: Die Gewichte sind verfügbar, die Nutzung läuft aber unter Metas Community-Lizenzen und nicht unter einer OSI-zertifizierten Open-Source-Lizenz. Für viele Unternehmen ist das praktisch nutzbar. Für Plattformen mit sehr grosser Reichweite, Weitervertrieb oder Konkurrenzprodukten bleibt die Lizenzprüfung Pflicht.
Für DACH ist ausserdem wichtig: Llama 4 ist multimodal, aber die Llama-4-Lizenz und die eingebundene Acceptable Use Policy gehören bei Bildinput in die Prüfung. Schweizer Organisationen fallen nicht automatisch in dieselbe EU-Lage wie Unternehmen mit Sitz in Deutschland oder Österreich. Wer in der EU Bildverständnis produktiv einsetzen will, sollte Llama 4 technisch und lizenzrechtlich prüfen und Alternativen wie Qwen-VL, Pixtral/Mistral oder gehostete APIs vergleichen. Das ist keine Rechtsberatung, aber eine praktische Beschaffungsfrage.
Der Aktualitätscheck ist wichtig, weil rund um Llama 4 viele Namen kursieren. Stand 23. Juni 2026 sind Scout und Maverick die neuesten öffentlich verfügbaren generativen Llama-Weights in Metas offizieller Hugging-Face-Organisation. Für Llama 4.1, Llama 4.2 oder Behemoth gibt es keine offiziellen frei ladbaren Gewichte. Neuere Einträge wie Llama Guard 4 oder Prompt Guard 2 gehören zum Safety-Ökosystem, nicht zu den allgemeinen Chat- und Inferenzmodellen. Metas neuere Produktlinie läuft mit Muse Spark erkennbar in eine geschlossenere, produktgetriebene Richtung; das ändert nichts am Llama-Stand, trennt aber Open-Weight-Linie und Produkt-Roadmap sauberer voneinander.
Das verschiebt die Empfehlung. Llama ist 2026 eine reife, gut unterstützte Familie, aber nicht mehr die frischeste Antwort auf jede lokale Aufgabe. Qwen3.6 und Qwen3-VL sind bei aktuellen lokalen Text-, Agenten- und Vision-Setups ernsthafte Vergleichsmodelle. Mistral positioniert seine neueren offenen Modelle ebenfalls als aktuelle Enterprise- und Multimodal-Optionen. Deshalb sollte ein Llama-Artikel heute nicht so tun, als wäre die Wahl «kleines Llama oder grosses Llama». Die echte Frage ist: Gibt es einen Llama-spezifischen Grund, oder nimmt man das aktuellere Modell aus einem anderen Ökosystem?
Produktiv relevant sind damit derzeit diese Linien:
- Llama 3.1 vom 23. Juli 2024: Dense-Textmodelle in 8B, 70B und 405B mit 128K Kontext.
- Llama 3.2 vom 25. September 2024: kleine Textmodelle in 1B/3B für Edge und Mobile sowie Vision-Modelle in 11B/90B.
- Llama 3.3 70B vom 6. Dezember 2024: ein starkes 70B-Textmodell mit 128K Kontext und verbessertem Instruction-Tuning.
- Llama 4 Scout und Maverick vom 5. April 2025: nativ multimodale MoE-Modelle mit Text- und Bildeingabe; Maverick ist auch als offizielles FP8-Artefakt verfügbar.
- Llama Guard 4 und Prompt Guard 2 vom April 2025: aktuelle Safety-Modelle für Moderation, Jailbreak- und Prompt-Injection-Erkennung.
Llama 4 Behemoth ist in Metas Ankündigung als Lehrermodell beschrieben, aber nicht frei herunterladbar. Für lokale Hardwareplanung zählt es daher nicht.
MoE: Warum Llama 4 anders geplant werden muss
Bei einem Dense-Modell ist die Speicherrechnung grob linear: 70 Milliarden Parameter brauchen in BF16 etwa 140 GB, in 4-Bit-Quantisierung deutlich weniger. Fast alles, was im Speicher liegt, wird auch gerechnet.
Bei Mixture-of-Experts-Modellen ist das anders. Llama 4 Scout hat laut Model Card 17B aktive und 109B Gesamtparameter. Maverick hat ebenfalls 17B aktive, aber 400B Gesamtparameter. Der Router aktiviert pro Token nur einen Teil der Experten. Das spart Rechenzeit, ändert aber nicht den Grundsatz: Die Gewichte müssen für brauchbare Inferenz erreichbar sein. Meta formuliert es selbst: Scout passt mit Int4-Quantisierung auf eine H100; Maverick passt auf einen H100-Host, nicht auf eine einzelne Consumer-GPU.
Das ist keine akademische Spitzfindigkeit. Wer «17B aktiv» wie «17B Modellgrösse» behandelt, landet bei falschen Kaufentscheidungen. MoE macht Llama 4 effizienter pro Token, aber nicht klein im Speicher.
Modellvergleich: Parameter, Kontext, VRAM
Die Werte sind Richtgrössen für Modellgewichte. KV-Cache, Aktivierungen, Runtime-Overhead, längere Kontexte und Multimodalität erhöhen den realen Speicherbedarf.
| Modell | Architektur | Parameter | Kontext | VRAM BF16 | VRAM Q4/Int4 |
|---|---|---|---|---|---|
| Llama 3.2 3B | Dense, Text | 3.21B | 128K | ~6.5 GB | ~2 GB |
| Llama 3.1 8B | Dense, Text | 8B | 128K | ~16 GB | ~5 GB |
| Llama 3.3 70B | Dense, Text | 70B | 128K | ~140 GB | ~40 bis 45 GB |
| Llama 3.1 405B | Dense, Text | 405B | 128K | ~810 GB | ~200 bis 230 GB |
| Llama 4 Scout | MoE, multimodal | 17B aktiv / 109B total | 10M | ~218 GB | ~55 GB |
| Llama 4 Maverick | MoE, multimodal | 17B aktiv / 400B total | 1M | ~800 GB | ~200 GB |
Die 3.x-Modelle sind nicht alle identisch: Llama 3.2 enthält auch 11B- und 90B-Visionmodelle. Wer lokale Bildanalyse ohne Llama 4 testen will, sollte diese Modelle kennen. Für klassische Text-Assistenz, RAG und Code-Hilfe sind aber vor allem 3B, 8B und 70B relevant. Llama 4 ist die erste Llama-Linie, bei der Multimodalität und MoE gleichzeitig zum Kern der Architektur gehören.
Quantisierung: Pflicht, aber kein Zaubertrick
Ohne Quantisierung sind grössere Llama-Modelle lokal kaum interessant. Q4- und Q5-Varianten sind für Llama 3.x seit langem Alltag in llama.cpp, Ollama, LM Studio und verwandten Tools. Diese Artefakte sind aber nicht automatisch «offiziell», nur weil sie bequem verfügbar sind. Meist stammen sie aus der Community oder von spezialisierten Anbietern.
Bei Llama 4 ist diese Trennung besonders wichtig. Unsloth stellt Dynamic-GGUF-Quantisierungen bereit, darunter Scout-Varianten bis hinunter zu rund 33.8 GB Disk Size bei 1.78 Bit. Das ist beeindruckend, aber es ist ein aggressiver Community-Pfad. Eine einzelne 24-GB-GPU kann Scout damit nur mit Kompromissen betreiben: CPU-Offload, kleineres Kontextfenster, geringere Qualität oder niedrigere Geschwindigkeit. Für Produktion sollte man solche Builds erst mit eigenen Aufgaben und eigenen Qualitätskriterien prüfen.
Für saubere Planung gilt:
- Llama 3.1 8B Q4/Q5 ist ein stabiler Consumer-Default.
- Llama 3.3 70B Q4 braucht grob 40 bis 45 GB nur für Gewichte und profitiert stark von 48 GB plus Reserve.
- Llama 4 Scout Int4/Q4 gehört eher in die 80-GB-Klasse als auf eine Einzelkarte mit 24 oder 32 GB.
- Llama 4 Maverick ist lokal nur mit ernsthafter Multi-GPU-Infrastruktur sinnvoll.
Hardware-Matrix: Was realistisch läuft
«Läuft» ist nicht dasselbe wie «lohnt sich». Die Matrix bewertet praktische Nutzung mit brauchbarer Geschwindigkeit und nicht nur den erfolgreichen Start eines Modells.
Die RTX 5090 ändert die Consumer-Baseline: 32 GB GDDR7 und deutlich mehr Bandbreite sind für lokale KI ein echter Sprung gegenüber der 4090. Für Llama 4 ist das trotzdem keine magische Grenze. 32 GB reichen gut für kleine und mittlere Modelle, sie reichen knapp für manche aggressive 70B-Experimente und sie reichen nicht, um Scout als saubere Produktionsbasis zu behandeln.
| Hardware | Llama 3.1 8B | Llama 3.3 70B | Llama 4 Scout | Llama 4 Maverick | Llama 3.1 405B |
|---|---|---|---|---|---|
| RTX 3060 12 GB | gut | läuft nicht sinnvoll | läuft nicht sinnvoll | läuft nicht | läuft nicht |
| RTX 4090 24 GB | Overkill | nur stark quantisiert / Offload | Demo-Pfad mit aggressiven Community-Quants | läuft nicht | läuft nicht |
| RTX 5090 32 GB | Overkill | nur stark quantisiert / Offload | Demo-Pfad, nicht Produktionsbasis | läuft nicht | läuft nicht |
| 2x RTX 4090 (48 GB) | Overkill | sinnvoll in Q4 | knapp; nur mit Kompromissen | läuft nicht sinnvoll | läuft nicht |
| 2x RTX 5090 (64 GB) | Overkill | gut in Q4 | möglich, aber knapp bei Kontext | läuft nicht sinnvoll | läuft nicht |
| Mac mini 16 GB | gut | läuft nicht sinnvoll | läuft nicht | läuft nicht | läuft nicht |
| Mac mini / Studio 64 GB | Overkill | möglich in Q4, Kontext begrenzen | nicht sauber sinnvoll | läuft nicht | läuft nicht |
| Mac Studio Ultra 128 GB | Overkill | gut in Q4 | möglich in Q4 | läuft nicht sinnvoll | läuft nicht |
| H100/H200 80 GB+ (1 GPU) | Overkill | Overkill | sinnvoll mit Int4/Q4 | läuft nicht als Einzel-GPU-Default | läuft nicht sinnvoll |
| Multi-H100/H200-Host | Overkill | Overkill | gut | sinnvoll | sinnvoll |
Apple Silicon braucht eine eigene Lesart. Unified Memory ist kein frei verfügbarer VRAM-Block. Betriebssystem, Apps, KV-Cache und Runtime teilen sich denselben Speicher. Ein 64-GB-Mac kann Llama 3.3 70B in Q4 je nach Tool und Kontext testen, aber Scout mit rund 55 GB Modellgewicht plus Overhead ist kein sauberer Produktionsfall. Auf 128 GB wird Scout realistischer, aber auch dort ist das 10M-Kontextfenster nicht einfach «gratis».
Bei Multi-GPU-Consumer-Systemen ist nicht nur die Summe des VRAM entscheidend. PCIe-Lanes, Tensor Parallelism, Offload-Strategie und Runtime-Support bestimmen, ob ein Setup brauchbar reagiert oder nur auf dem Papier passt. Zwei Karten in schwach angebundenen Slots sind bei MoE-Modellen schnell eine Enttäuschung.
Frameworks: Welche Runtime passt?
Für Einzelplatz und Experimente bleiben llama.cpp, Ollama und LM Studio der einfachste Einstieg. Sie sind besonders stark bei GGUF-Quantisierungen, lokalen Chat-Setups und Mac/Consumer-GPU-Nutzung. Für Serverbetrieb ist vLLM der pragmatische Default: OpenAI-kompatible API, Continuous Batching, solide Llama-4-Unterstützung und ein klarer Pfad zu höherem Durchsatz. TensorRT-LLM lohnt sich, wenn ein Modell lange stabil bleibt und maximale NVIDIA-Optimierung wichtiger ist als Flexibilität.
Die Runtime-Auswahl ändert aber nicht die Physik. vLLM kann Llama 4 besser serven als ein schlecht konfigurierter Desktop-Stack, aber es macht aus einem 400B-MoE-Modell kein 24-GB-Modell. Umgekehrt ist llama.cpp für lokale Tests hervorragend, solange man Quantisierung, Kontextfenster und Erwartungen sauber begrenzt. Safety-Modelle wie Llama Guard 4 oder Prompt Guard 2 plant man zusätzlich, wenn ein lokaler Stack Moderation oder Prompt-Injection-Erkennung braucht; sie ersetzen kein Chatmodell.
Wann Llama nicht die erste Wahl ist
Wer 2026 neu startet, sollte Llama nicht reflexhaft als Default setzen. Für aktuelle lokale Agenten- und Coding-Workloads sind Qwen3.6-Varianten oft näher an der Gegenwart: moderne MoE-Grössen, gute vLLM-/SGLang-Kompatibilität und aktive Quantisierungsartefakte. Für Vision und Multimodalität ist Qwen3-VL ebenfalls ein natürlicher Vergleichspunkt, besonders wenn Llama-4-Lizenzfragen in der EU stören.
Mistral ist der zweite Gegenpol. Die neuere Mistral-Linie ist stärker auf europäische Enterprise-Nutzung, offene Gewichte und produktionsnahe Deployments positioniert. Wer DACH-Compliance, EU-Nähe oder multimodale Enterprise-Nutzung priorisiert, sollte Mistral neben Llama testen, nicht erst nach einem gescheiterten Llama-Prototyp.
Llama bleibt sinnvoll, wenn ein Team bereits Llama-kompatible Prompts, Evaluierungen, Guardrails oder Runtimes hat. Es bleibt auch sinnvoll, wenn 128K-Kontext der 3.x-Linie reicht, Llama-3.3-70B-Qualität passt oder Scout wegen 10M-Kontext tatsächlich einen Spezialfall löst. Ohne solchen Grund ist «wir nehmen Llama» im Jahr 2026 keine Strategie mehr, sondern Gewohnheit.
Wann sich welches Llama lohnt
Llama 3.2 3B lohnt sich für Edge, schnelle lokale Assistenten, einfache Zusammenfassungen und Tool-Prototypen. Es ist klein genug, um unkompliziert auf Consumer-Hardware oder Apple Silicon zu laufen. Bei neuen Projekten sollte es trotzdem gegen aktuelle kleine Modelle aus Qwen, Mistral oder Gemma antreten.
Llama 3.1 8B ist der robuste Legacy-Standard für lokale RAG-Backends, Klassifikation, einfache Code-Hilfe und private Assistenten. Es ist schnell, günstig zu betreiben und in fast jedem lokalen Stack gut unterstützt. Der Vorteil ist Ökosystemreife, nicht Aktualität.
Llama 3.3 70B ist 2026 die vernünftige Llama-Wahl, wenn Textqualität zählt und Multimodalität nicht nötig ist. Mit 48 GB bis 80 GB VRAM, starker Quantisierung und begrenztem Kontext ist es für Workstations realistisch. Es ist oft attraktiver als Llama 4 Scout, wenn der Workload klassische Textarbeit ist. Gegen aktuelle Qwen- oder Mistral-Modelle muss es sich aber in eigenen Tests beweisen.
Llama 4 Scout lohnt sich, wenn Bildverständnis, sehr lange Kontexte oder MoE-Effizienz bei Last wirklich gebraucht werden. Für normale lokale Textarbeit ist Scout häufig zu gross für den Mehrwert. Wer es testen will, kann aggressive Community-Quants verwenden; wer es betreiben will, sollte eher an H100/H200-Klasse oder gut geplante Multi-GPU-Systeme denken. Für deutsche und österreichische Unternehmen gilt zusätzlich: Multimodale Nutzung gehört vor produktivem Einsatz in die Lizenzprüfung.
Llama 4 Maverick ist ein Datacenter-Modell. Es kann für multimodale und komplexe Aufgaben interessant sein, aber die lokale Hardwareanforderung ist so hoch, dass Hosted Inference oder ein GPU-Cluster realistischer sind als der klassische «lokal auf meiner Workstation»-Ansatz.
Llama 3.1 405B bleibt ein Spezialfall für Forschung, Distillation, grosse Server und Hosted APIs. Für lokale Teams ist es selten der beste erste Schritt.
Fazit
Llama lokal lohnt sich weiterhin, aber nicht als automatische 2026-Antwort. Die 3.x-Linie ist reif, gut quantisiert und breit unterstützt. Llama 4 bringt mit MoE, Multimodalität und langen Kontexten echte Fähigkeiten, wirkt im lokalen Alltag aber eher wie ein Spezialwerkzeug als wie der neue Consumer-Default.
Die beste Entscheidung ist deshalb selten «das neueste Llama». Sie entsteht aus einem Vergleich gegen den aktuellen Markt. Für einen privaten Assistenten reicht ein kleines Modell oft. Für hochwertige Textarbeit ist die 30B- bis 70B-Klasse meist der Sweet Spot. Für Scout oder Maverick sollte der Use Case zuerst beweisen, dass er Multimodalität, extreme Kontextlänge oder MoE-Serving wirklich braucht. Sonst kauft man Infrastruktur für ein Modell, während ein aktuelleres kleineres Modell aus einem anderen Ökosystem das Problem bereits gelöst hätte.
Quellen
- →Meta AI: Llama 4 Multimodal Intelligence (Release und Architektur)
- →Meta: Llama 4 Community License
- →Meta: Llama 4 Acceptable Use Policy
- →Meta AI: Introducing Muse Spark
- →NVIDIA: GeForce RTX 5090 Specifications
- →Hugging Face: Qwen3.6 35B A3B FP8
- →Hugging Face: Qwen3-VL 30B A3B Instruct
- →Mistral AI: Models Overview
- →Hugging Face: Llama 4 Scout / Maverick Model Card
- →Hugging Face: Llama 3.3 70B Instruct Model Card
- →Hugging Face: Llama 3.1 8B/70B/405B Model Card
- →Hugging Face: Llama 3.2 3B Instruct Model Card
- →Hugging Face: Llama 3.2 Vision Model Cards
- →Hugging Face: Llama Guard 4 / Prompt Guard 2 Safety Models
- →Meta AI: Introducing Llama 3.1
- →Meta AI: Llama 3.2 Edge and Vision Models
- →vLLM: Llama 4 in vLLM
- →Unsloth: Llama 4 Quantization and Fine-Tuning Guide
- →arXiv: Evolution of Meta's LLaMA Models and Parameter-Efficient Fine-Tuning