Lokale LLMs mit Ollama auf dem Homelab-Server
Eigene Sprachmodelle selbst hosten – ohne Cloud, ohne Datenabfluss
Dieser Artikel ist Teil des KI-Agenten Guides – dem kuratierten Lernpfad zu KI-Agenten.
Cloud-LLMs sind bequem, aber nicht immer die richtige Wahl: sensible Daten, laufende Kosten, Abhängigkeit von einem Anbieter. Mit Ollama betreibst du Sprachmodelle lokal auf deinem eigenen Server – erstaunlich einfach. Dieser Artikel zeigt den Einstieg samt ehrlicher Hardware-Einordnung.
Warum lokal?
- Datenschutz: Nichts verlässt deinen Server – ideal für private oder vertrauliche Inhalte.
- Kosten: Keine Token-Abrechnung; nur Strom.
- Offline & Kontrolle: Läuft auch ohne Internet, keine API-Limits, kein Modellwechsel über Nacht.
Der Preis dafür: Lokale Modelle sind (noch) schwächer als die großen Cloud-Modelle – dafür für viele Aufgaben völlig ausreichend.
Installation
Auf einem Linux-Server reicht eine Zeile:
curl -fsSL https://ollama.com/install.sh | sh
Das installiert Ollama als Dienst, der im Hintergrund läuft. (Wer es sauber gekapselt mag, nimmt stattdessen das offizielle Docker-Image.)
Erstes Modell laden und chatten
Ein Befehl lädt das Modell und startet direkt den Chat:
ollama run llama3.2
Beim ersten Mal wird das Modell heruntergeladen, danach landest du in einem interaktiven Prompt. Mit ollama list siehst du installierte Modelle, mit ollama pull mistral holst du weitere. Kleine Modelle (1–4B Parameter) sind fix, größere (8–14B) brauchen mehr RAM und Geduld.
Die Hardware-Realität
Ehrlich gesagt entscheidet die Hardware über den Spaß. Grobe Faustregel für den RAM-Bedarf:
- 3B-Modell: ~4–6 GB – läuft auf fast jedem Mini-PC flüssig.
- 7–8B-Modell: ~8–10 GB – brauchbar, der Sweet Spot fürs Homelab.
- 14B+: 16 GB und mehr – ohne GPU spürbar langsam.
Eine GPU beschleunigt enorm, ist aber kein Muss – auf CPU laufen kleine Modelle ordentlich. Wichtig ist genug RAM.
Bei mir läuft Ollama auf demselben Mini-PC wie der Rest des Homelabs – mit 24 GB RAM sind 7–8B-Modelle problemlos drin:
Anzeige · Affiliate-Link – kaufst du darüber, erhalte ich ggf. eine Provision. Für dich ändert sich am Preis nichts.
Ollama als API und mit Oberfläche
Spannend wird es, wenn andere Programme Ollama nutzen. Der Dienst stellt automatisch eine API auf Port 11434 bereit:
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"prompt": "Erklaere MQTT in einem Satz.",
"stream": false
}'
Ollama spricht zusätzlich ein OpenAI-kompatibles API – damit lässt es sich in viele Tools einklinken. Eine bequeme Chat-Oberfläche bekommst du z. B. mit LibreChat, das ich hier im Detail beschrieben habe.
Was ich weggelassen habe
- GPU-Setup (CUDA/ROCm) – lohnt sich, ist aber ein eigenes Thema.
- Quantisierung – warum es ein Modell in mehreren Größen gibt und welche du nimmst.
- Eigene Modelfiles – Systemprompt und Parameter fest hinterlegen.
Fazit & Ausblick
Mit einer Zeile Installation und einem Befehl läuft dein eigenes LLM – lokal, privat, kostenlos im Betrieb. Über die API wird es zur Basis für eigene KI-Anwendungen. Und wenn du verstehen willst, wie aus so einem Modell ein Agent wird, der eigenständig Werkzeuge nutzt: genau darum geht es im nächsten Artikel.
Anzeige · Affiliate-Link – kaufst du darüber, erhalte ich ggf. eine Provision. Für dich ändert sich am Preis nichts.