Modelle

Lokale LLMs 2026: Welche Modelle auf Mac mini und Jetson Orin wirklich laufen

28. April 20268 Min. Lesezeit

Cloud-KI ist beeindruckend, aber nicht alternativlos. 2026 läuft auf einem Mac mini M4 für unter 1.000 € oder einem Jetson Orin Nano Super für rund 250 € heute schon das, wofür man vor zwei Jahren ein Rechenzentrum brauchte. Dieser Guide zeigt dir, welche Modelle für genau diese beiden Geräte wirklich infrage kommen – und wo die ehrliche Grenze ist.

Was Parameter, Kontext und Quantisierung bedeuten

Drei Begriffe, die deinen Hardware-Bedarf direkt bestimmen:

Parameter (in Milliarden, „B")

Die „Größe" eines Modells. Ein 8B-Modell hat 8 Milliarden trainierte Gewichte. Mehr Parameter = mehr Wissen und Sprachfeingefühl, aber auch mehr Speicher- und Rechenbedarf. Faustregel: Verdopplung der Parameter ≈ Verdopplung des Speicherbedarfs.

Kontextfenster (in Tokens)

Wie viel Text das Modell gleichzeitig „im Kopf" behalten kann. 1 Token ≈ 0,75 deutsche Wörter. Ein Kontextfenster von 32.000 Tokens entspricht ca. 50 Seiten Text. Moderne Modelle erreichen bis 128.000 Tokens – auf kleinen Geräten begrenzt das aber den Speicher zusätzlich.

Quantisierung (FP16, Q8, Q5, Q4, Q3, Q2)

Die „Auflösung" jedes Parameters. FP16 (16 Bit pro Parameter) ist die Originalqualität, Q4 nutzt nur 4 Bit – Modell wird ¼ so groß, verliert aber je nach Implementation 1–5 % Qualität. Praktisch fast unmerklich. Q4_K_M ist 2026 der De-facto-Standard auf Endgeräten.

Konkretes Beispiel

Ein Llama-3.1-8B-Modell:

FP16: ~16 GB → passt nicht aufs 16-GB-Gerät, weil das Betriebssystem auch RAM braucht
Q4_K_M: ~4,7 GB → läuft auf Mac mini M4 und Jetson Orin Nano Super
Q3: ~3,5 GB → noch kompakter, leicht spürbarer Qualitätsverlust

Was du auf 16 GB / 8 GB realistisch betreiben kannst

Bevor wir die Modelle durchgehen, der ehrliche Rahmen:

Mac mini M4 mit 16 GB Unified Memory: ca. 10–12 GB stehen für Modelle zur Verfügung (Rest: macOS, Browser, deine Apps). Das reicht für bis zu 14-B-Modelle in Q4.
Jetson Orin Nano Super mit 8 GB: ca. 5–6 GB für Modelle nutzbar. Sweet Spot: 3-B- bis 8-B-Modelle in Q4.

Beide Geräte teilen sich Arbeitsspeicher zwischen CPU und GPU – das ist ein Vorteil gegenüber klassischen PC-Setups, wo VRAM und RAM strikt getrennt sind.

Text-Modelle: Die Allrounder

Llama 3.1/3.3 8B (Meta) – die solide Standardwahl

Größe Q4: ~4,7 GB. Läuft schnell auf beiden Geräten, mehrsprachig (auch Deutsch), gut für E-Mails, Zusammenfassungen, Standardfragen. Wenn du nicht weiter überlegen willst: Nimm das.

Empfohlen für: Mac mini M4 ✅ · Jetson Orin Nano Super ✅

Qwen 3 8B (Alibaba) – der technisch starke Allrounder

Größe Q4: ~5 GB. Stärker als Llama 3.x in technischen Domänen, Mathematik und Code. Sehr gut in Deutsch trotz asiatischer Herkunft.

Empfohlen für: Mac mini M4 ✅ · Jetson Orin Nano Super ✅

Mistral Small 3 (8B) – der Effiziente

Größe Q4: ~4,8 GB. Optimiert auf Geschwindigkeit – liefert Antworten oft 30 % schneller als Llama bei vergleichbarer Qualität für Standardaufgaben.

Empfohlen für: Mac mini M4 ✅ · Jetson Orin Nano Super ✅

Phi-4 14B (Microsoft) – der David gegen Goliath

Größe Q4: ~8,5 GB. Trainiert auf hochkuratierten synthetischen Daten – schlägt in vielen Benchmarks doppelt so große Modelle. Auf dem 16-GB-Mac-mini der Qualitäts-Sweet-Spot.

Empfohlen für: Mac mini M4 ✅ · Jetson Orin Nano Super ❌ (zu groß)

Gemma 3 4B (Google) – der Schlanke

Größe Q4: ~2,5 GB. Wenn du auf dem Jetson noch Reserve für andere Dienste brauchst (z. B. parallel ein Vision-Modell laden willst), ist Gemma 3 4B die kompakte Lösung. Multilingual stark.

Empfohlen für: Mac mini M4 ✅ · Jetson Orin Nano Super ✅ (sehr gut)

Teaser für größere Geräte: Wer ein Mac Studio oder eine RTX-5090-Workstation hat, kann auch Llama 4 Scout (109 B MoE) oder Qwen 3 32B lokal betreiben – mit deutlich erweiterter Allgemeinwissens-Tiefe. Auf den hier besprochenen Geräten passt das nicht.

Reasoning-Modelle: Wenn das Modell „nachdenken" soll

Reasoning-Modelle generieren vor der eigentlichen Antwort eine interne Gedankenkette – sie überlegen, bevor sie schreiben. Das löst Logik, Mathe und Code deutlich besser, kostet aber 5–20× mehr Antwortzeit.

DeepSeek R2-Distill 7B (Anfang 2026)

Größe Q4: ~4,5 GB. Eine herausdestillierte Variante des großen DeepSeek-R2-Modells. Erbt einen Großteil der Reasoning-Fähigkeit, passt aber auf beide Zielgeräte. Klare Empfehlung, wenn du Logik-Aufgaben lösen willst.

Empfohlen für: Mac mini M4 ✅ · Jetson Orin Nano Super ✅

DeepSeek R2-Distill 14B

Größe Q4: ~8,5 GB. Noch besseres Reasoning, aber nur auf dem Mac sinnvoll.

Empfohlen für: Mac mini M4 ✅ · Jetson Orin Nano Super ❌

Wann lohnt sich Reasoning?

Nur für Aufgaben mit klarer „richtig/falsch"-Lösung: Mathematik, Programmierung, Logik, mehrstufige Recherche. Für E-Mails, Zusammenfassungen, Smalltalk ist Reasoning Verschwendung – ein normales Llama 3.3 8B antwortet 10× schneller in vergleichbarer Qualität.

Teaser: Auf einer 64-GB-Workstation läuft auch das vollständige DeepSeek R2 (671 B MoE) in Q4 – derzeit eines der stärksten Open-Source-Reasoning-Modelle weltweit.

Vision-Modelle: KI, die Bilder versteht

Multimodale Modelle nehmen Bilder als Input – fürs Vorlesen von Belegen, Beschreiben von Fotos, Lesen handschriftlicher Notizen oder Auswerten von Diagrammen.

Qwen 2.5-VL 3B – das kompakte Vision-Modell

Größe Q4: ~2,5 GB. Aktuell das beste Vision-Modell in dieser Größenklasse. Liest Belege, Etiketten, Screenshots und Handschrift erstaunlich zuverlässig. Klare Empfehlung für den Jetson.

Empfohlen für: Mac mini M4 ✅ · Jetson Orin Nano Super ✅

Qwen 2.5-VL 7B – mehr Detailtiefe

Größe Q4: ~5 GB. Auf dem Mac die bessere Wahl, wenn du komplexere Bilder (Diagramme, Tabellen, mehrseitige Belege) verarbeitest.

Empfohlen für: Mac mini M4 ✅ · Jetson Orin Nano Super ⚠️ (zu eng)

Realistische Grenze

Beide Geräte erkennen Objekte, lesen Text und beschreiben Szenen souverän. Sie sind aber kein Ersatz für spezialisierte OCR-Pipelines bei tausenden Belegen.

Teaser: Qwen 2.5-VL 72B auf einem Mac Studio mit 192 GB versteht Diagramme so präzise, dass es als Augen für Sehbehinderte oder als Inspektor in der Qualitätskontrolle eingesetzt wird.

Bildgenerierung: Wenn lokale KI Bilder erstellt

Eigene Modellkategorie – nicht mit Vision verwechseln. Hier wird aus Text ein Bild generiert.

Stable Diffusion 3.5 Medium (~6 GB VRAM)

Auf dem Mac mini M4 in akzeptabler Zeit (15–30 Sekunden pro Bild). Auf dem Jetson Orin Nano Super theoretisch möglich, aber sehr langsam (~2–3 Minuten pro Bild).

Empfohlen für: Mac mini M4 ✅ · Jetson Orin Nano Super ⚠️ (möglich, aber langsam)

SDXL Turbo / SDXL Lightning (~7 GB)

Schneller Allrounder mit großem LoRA-Ökosystem für Spezialstile. Auf dem Mac eine gute Wahl.

Empfohlen für: Mac mini M4 ✅ · Jetson Orin Nano Super ❌

Realistische Grenze

Lokale Bildgenerierung in dieser Hardware-Klasse ist nutzbar, aber kein Echtzeit-Erlebnis. Wer schnelle Bilder will, ist im Browser bei einem API-Service besser bedient.

Teaser: Auf einer RTX-5090-Workstation liefert FLUX.1 dev fotorealistische Bilder in 5–10 Sekunden – auf Augenhöhe mit Midjourney, aber komplett offline.

Modell-Empfehlung pro Gerät auf einen Blick

Modell	Mac mini M4 (16 GB)	Jetson Orin Nano Super (8 GB)
Llama 3.3 8B (Q4)	✅ Empfohlen	✅ Empfohlen
Qwen 3 8B (Q4)	✅ Empfohlen	✅ Empfohlen
Mistral Small 3 (Q4)	✅ Empfohlen	✅ Empfohlen
Gemma 3 4B (Q4)	✅	✅ Sehr gut (kompakt)
Phi-4 14B (Q4)	✅ Sweet Spot	❌
DeepSeek R2-Distill 7B	✅	✅
DeepSeek R2-Distill 14B	✅	❌
Qwen 2.5-VL 3B (Vision)	✅	✅ Empfohlen
Qwen 2.5-VL 7B (Vision)	✅ Empfohlen	⚠️
Stable Diffusion 3.5 M	✅	⚠️ Sehr langsam

Möglichkeiten und Grenzen — ehrlich

Was deine Geräte 2026 sehr gut können

Texte schreiben, zusammenfassen, übersetzen
E-Mails strukturieren, Antworten vorschlagen
Code generieren und debuggen (besonders mit Reasoning-Modell)
Eigene PDFs und Notizen durchsuchen (RAG)
Belege, Fotos und Screenshots verstehen
Smart-Home und Alltagsautomation orchestrieren

Wo Cloud-KI 2026 noch vorne liegt

Sehr lange, mehrstufige Reasoning-Aufgaben (>30 Min. Denken am Stück)
Brandaktuelle Web-Daten ohne explizite Anbindung
Live-Multimodalität (Video-Stream + Audio + Text gleichzeitig)
Hochspezialisierte Domänen (Pharma-Strukturen, juristische Tiefenrecherche)

Was viele unterschätzen

Ein gut gewähltes 8-B-Modell auf deiner Hardware schlägt einen schlechten Cloud-Prompt fast immer. Qualität entsteht nicht durch Modellgröße, sondern durch passende Anwendung: RAG mit deinen Daten, ein klares Prompt-Pattern und ein Modell, das zur Aufgabe passt.

Welches Setup zu welchem Profil?

„Ich will einen Allrounder ohne nachdenken zu müssen." → Mac mini M4 + Llama 3.3 8B oder Qwen 3 8B
„Ich will die beste Qualität in dieser Preisklasse." → Mac mini M4 + Phi-4 14B
„Ich brauche Reasoning für Code und Logik." → Mac mini M4 + DeepSeek R2-Distill 14B
„Ich will ein lautloses, sparsames Edge-Gerät." → Jetson Orin Nano Super + Llama 3.3 8B + Qwen 2.5-VL 3B
„Ich will mit Bildern und Belegen arbeiten." → Mac mini M4 + Qwen 2.5-VL 7B
„Ich will alles auf einer Maschine, ohne Kompromisse." → Größere Hardware (Mac Studio M3 Ultra oder RTX 5090) – sprich uns an, dafür stellen wir individuelle Pakete zusammen.

Fazit

Lokale LLMs sind 2026 erwachsen geworden – auch auf bezahlbarer Hardware. Mac mini M4 und Jetson Orin Nano Super sind keine Kompromiss-Geräte, sondern bewusste Entscheidungen: sparsam, leise, datensouverän. Wir bei Clawstation kennen die aktuelle Modell-Landschaft und wählen für dich die richtige Kombination aus Text-, Reasoning- und Vision-Modell. Du musst nicht selbst grübeln, was Q4_K_M bedeutet – wir installieren, du nutzt.