Modelle

Lokale LLMs 2026: Welche Modelle auf dem Mac mini M4 wirklich laufen

28. April 20268 Min. Lesezeit

Welche KI-Modelle laufen 2026 sinnvoll auf einem Mac mini M4? Was passt in 32 GB Unified Memory, wo lohnt sich der Sprung auf 48 GB, und was bleibt der Cloud vorbehalten? Wir gehen das gerätenah durch – fokussiert auf die Hardware, die wir bei ClawStation tatsächlich verbauen.

Was bedeuten Parameter, Quantisierung, Tokens?

Drei Begriffe, die du in jeder LLM-Diskussion 2026 brauchst:

Parameter (B = Milliarden): Wie viele „Schrauben" das Modell beim Lernen verstellen konnte. Mehr Parameter = mehr Weltwissen und besseres Reasoning, aber auch mehr Speicher- und Rechenbedarf. 7B fühlt sich an wie ein aufgeweckter Praktikant, 70B eher wie eine erfahrene Fachkraft.
Quantisierung (Q3, Q4, Q6, Q8): Komprimierungs- stufe der Gewichte. Q4 halbiert ungefähr den Speicherbedarf gegenüber dem Original, kostet aber nur 1–3 % Qualität. Faustregel: Q4 ist 2026 der goldene Standard für lokal, Q3 nur wenn der Speicher knapp ist, Q6 wenn du die letzte Präzision willst.
Tokens: Die Einheit, in der ein LLM denkt. Ein Token ist grob ein Wortteil. Geschwindigkeit wird in t/s (Tokens pro Sekunde) gemessen – alles über ~10 t/s fühlt sich flüssig an, ab 25 t/s liest du den Output kaum noch mit.

Wie viel Speicher braucht welches Modell?

Faustformel auf Apple Silicon mit Unified Memory: ein Modell belegt bei Q4 ungefähr 0,6 × Parameter (in GB) plus etwas KV-Cache pro aktivem Gespräch. Ein 14B-Modell braucht also rund 8–10 GB, ein 30B-Modell ~18–22 GB, ein 70B-Modell ~40–45 GB.

Modellgröße (Q4)	Speicherbedarf	Allrounder (32 GB)	Pro (48 GB)
3B	~2 GB	flüssig	flüssig
7–8B	~4–5 GB	flüssig	flüssig
12–14B	~8–10 GB	flüssig (Sweet Spot)	flüssig
30–32B	~18–22 GB	möglich, Cache knapp	flüssig (Sweet Spot)
70B	~40–45 GB	passt nicht	passt knapp (Q3), langsamer

Im macOS bleiben 6–10 GB für System & Apps reserviert. „Nutzbar für KI" heißt: was nach diesem Reservat übrig bleibt.

Text-Modelle: Was 2026 wirklich Spaß macht

Allrounder · Mac mini M4 (32 GB)

Bei 32 GB Unified Memory ist 14B der Sweet Spot. Du bekommst Antwortqualität, die für 90 % aller Alltagsaufgaben deutlich oberhalb von 7B-Modellen liegt – schreiben, zusammenfassen, recherchieren, einfaches Coding.

Llama 3.1 8B (Q6) / 3.3 8B: Solider Allrounder, läuft mit 25–35 t/s. Gut für E-Mail, Notizen, lange Antworten.
Qwen 2.5 14B (Q4) / Qwen 3 14B: Top-Reasoning, stark in Deutsch und englischen Fachtexten. Mein persönlicher Allrounder für anspruchsvollere Aufgaben.
Mistral Nemo 12B (Q6): Großer Kontext (128k Tokens), präzise – ideal, wenn du lange Dokumente einspeist.
Gemma 3 4B / 12B: Googles offene Familie, besonders sauber bei strukturierten Antworten (JSON, Tabellen).
Phi-4 (14B): Microsofts Stärken in Logik und Code, kompakter Speicherbedarf.

Pro · Mac mini M4 Pro (48 GB)

Bei 48 GB öffnet sich die 30B-Klasse als komfortabler Sweet Spot – und 70B wird grenzwertig machbar.

Qwen 2.5 32B (Q4): Antwortqualität nahe an GPT-4o mini, lokal mit ca. 12–15 t/s. Echte Cloud-Alternative für den Alltag.
Llama 3.3 70B (Q3): Eines der besten offenen Modelle 2026, läuft mit ca. 6–9 t/s. Spürbar langsamer als 14B, aber für schwierige Aufgaben (Recht, Analyse, längere Übersetzungen) deutlich besser.
DeepSeek R2-Distill 32B: Reasoning-spezialisiert – „denkt" sichtbar Schritt für Schritt. Stark bei Mathe, Logik, mehrstufigen Aufgaben.
Mehrere Modelle parallel: Mit 48 GB kannst du z. B. Qwen Coder 32B (für Code) und Qwen 14B (für Chat) gleichzeitig im RAM halten – ohne ständiges Nachladen.

Was passt nicht auf den Mac mini? Modelle ab 100B+ Parametern – also die ganz großen offenen Modelle wie DeepSeek V3 oder Qwen 3 Max. Die brauchen Workstations mit 64 GB+ oder echte GPU-Cluster. Wenn du sowas wirklich brauchst, ist Cloud (Claude, GPT) meist günstiger und schneller als Eigen-Hardware.

Reasoning-Modelle: Wenn der Assistent denken soll

Reasoning-Modelle „denken laut" – sie produzieren erst eine Kette von Gedanken (oft nicht angezeigt), dann die finale Antwort. Sie sind langsamer, aber bei mehrstufigen Aufgaben oft deutlich präziser.

DeepSeek R2-Distill 8B / 14B: Auf beiden Paketen flüssig. Sehr stark bei Mathe, Logik, Code-Bugs.
DeepSeek R2-Distill 32B: Nur auf dem Pro-Paket sinnvoll – aber dann ein echtes Pferd für komplexe Analyse.

Praxis-Tipp: Reasoning-Modelle nicht als Default einstellen, sondern gezielt einsetzen. Für „schreib mir eine Mail" sind sie Overkill. Für „prüfe, ob diese Argumentation Lücken hat" sind sie Gold wert.

Vision-Modelle: Bilder verstehen

Dein Assistent kann lokal auch Bilder lesen – Screenshots, Belegscans, Diagramme.

Qwen 2.5-VL 3B / 7B: Klein, schnell, erstaunlich präzise. Liest Belege, beschreibt Diagramme, extrahiert Tabellen aus Fotos.
Llama 3.2-Vision 11B: Stärker, brauche etwas mehr Speicher. Auf beiden Paketen problemlos.
Qwen 2.5-VL 32B (nur Pro): Vision auf Cloud-Niveau – für komplexere Visual-Reasoning-Aufgaben.

Bildgenerierung: Stable Diffusion lokal

Bilder generieren ist 2026 auf Apple Silicon eine echte Option – nicht so schnell wie eine dedizierte NVIDIA-GPU, aber gut nutzbar.

SDXL Turbo / SD 3.5 Medium: Ein Bild in 3–8 Sekunden auf dem Allrounder, schneller auf dem Pro.
FLUX.1-dev (Q4 GGUF): Höhere Bildqualität, dauert pro Bild eher 20–40 Sekunden. Auf dem Pro deutlich komfortabler.

Welches Paket passt zu welchem Profil?

Profil	Empfehlung	Warum
Privat / Alltag	Allrounder (32 GB)	14B-Modelle reichen für 90 % der Alltagsaufgaben locker.
Selbstständig / kleine Firma	Allrounder (32 GB)	Genug Headroom für Docs-Indexer + E-Mail + Chat gleichzeitig.
Wissensarbeit / Recherche	Pro (48 GB)	30B-Modelle für lange Texte und komplexe Synthese.
Coding / Power-User	Pro (48 GB)	Coder-Modell + Chat-Modell parallel im RAM.
Reasoning-intensiv	Pro (48 GB)	DeepSeek-R2 32B als Reasoning-Modell flüssig.

Fazit

Der Mac mini M4 ist 2026 das attraktivste Stück Hardware für lokale KI: leise, sparsam, schnell genug. Das Allrounder-Paket mit 32 GB ist für die meisten ausreichend – ein 14B-Modell reicht für deinen Alltag, drei vier parallel installierte Modelle sind kein Problem. Wer 30B-Modelle flüssig fahren will oder mehrere Modelle gleichzeitig im RAM braucht, greift zum Pro-Paket mit 48 GB.

Was nicht lokal geht, bleibt bei der Cloud: die wirklich großen 100B+-Modelle und alles, was über 70B hinausgeht. Aber das ist 2026 ehrlich gesagt nur noch in Nischen nötig – die offenen Modelle der 14B–32B-Klasse sind erstaunlich nah dran.