Software & Web · 16. Juni 2026 · ~5min · d40b1f3

Lokale LLMs mit Ollama auf dem Homelab-Server

Eigene Sprachmodelle selbst hosten – ohne Cloud, ohne Datenabfluss

devmaker.net

author · d40b1f3 · 2026-06-16

Nicht jede KI-Anfrage muss in die Cloud: Mit Ollama betreibst du Sprachmodelle wie Llama oder Mistral komplett lokal auf deinem eigenen Server – datenschutzfreundlich, kostenlos im Betrieb und offline verfügbar. Dieser Artikel zeigt den ehrlichen Einstieg: Installation in einer Zeile, das erste Modell laden und nutzen, die nüchterne Hardware-Realität (wie viel RAM brauchst du wirklich) und wie du Ollama über seine API mit einer Oberfläche verbindest. Du brauchst einen Linux-Server mit etwas RAM; am Ende läuft dein eigenes LLM im Homelab.

Teil eines Guides

Dieser Artikel ist Teil des KI-Agenten Guides – dem kuratierten Lernpfad zu KI-Agenten.

Cloud-LLMs sind bequem, aber nicht immer die richtige Wahl: sensible Daten, laufende Kosten, Abhängigkeit von einem Anbieter. Mit Ollama betreibst du Sprachmodelle lokal auf deinem eigenen Server – erstaunlich einfach. Dieser Artikel zeigt den Einstieg samt ehrlicher Hardware-Einordnung.

Warum lokal?

Datenschutz: Nichts verlässt deinen Server – ideal für private oder vertrauliche Inhalte.
Kosten: Keine Token-Abrechnung; nur Strom.
Offline & Kontrolle: Läuft auch ohne Internet, keine API-Limits, kein Modellwechsel über Nacht.

Der Preis dafür: Lokale Modelle sind (noch) schwächer als die großen Cloud-Modelle – dafür für viele Aufgaben völlig ausreichend.

Installation

Auf einem Linux-Server reicht eine Zeile:

curl -fsSL https://ollama.com/install.sh | sh

Das installiert Ollama als Dienst, der im Hintergrund läuft. (Wer es sauber gekapselt mag, nimmt stattdessen das offizielle Docker-Image.)

Erstes Modell laden und chatten

Ein Befehl lädt das Modell und startet direkt den Chat:

ollama run llama3.2

Beim ersten Mal wird das Modell heruntergeladen, danach landest du in einem interaktiven Prompt. Mit ollama list siehst du installierte Modelle, mit ollama pull mistral holst du weitere. Kleine Modelle (1–4B Parameter) sind fix, größere (8–14B) brauchen mehr RAM und Geduld.

Die Hardware-Realität

Ehrlich gesagt entscheidet die Hardware über den Spaß. Grobe Faustregel für den RAM-Bedarf:

3B-Modell: ~4–6 GB – läuft auf fast jedem Mini-PC flüssig.
7–8B-Modell: ~8–10 GB – brauchbar, der Sweet Spot fürs Homelab.
14B+: 16 GB und mehr – ohne GPU spürbar langsam.

Eine GPU beschleunigt enorm, ist aber kein Muss – auf CPU laufen kleine Modelle ordentlich. Wichtig ist genug RAM.

Bei mir läuft Ollama auf demselben Mini-PC wie der Rest des Homelabs – mit 24 GB RAM sind 7–8B-Modelle problemlos drin:

Anzeige · Affiliate-Link – kaufst du darüber, erhalte ich ggf. eine Provision. Für dich ändert sich am Preis nichts.

Beelink SER5 Max (Ryzen 7 6800U, 24 GB RAM, 500 GB SSD) Amazon

Sparsamer Mini-PC für Homelab & Self-Hosting – genug RAM für Proxmox, Docker-Stacks oder eine Home-Assistant-VM.

Bei Amazon ansehen

Ollama als API und mit Oberfläche

Spannend wird es, wenn andere Programme Ollama nutzen. Der Dienst stellt automatisch eine API auf Port 11434 bereit:

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "Erklaere MQTT in einem Satz.",
  "stream": false
}'

Ollama spricht zusätzlich ein OpenAI-kompatibles API – damit lässt es sich in viele Tools einklinken. Eine bequeme Chat-Oberfläche bekommst du z. B. mit LibreChat, das ich hier im Detail beschrieben habe.

Was ich weggelassen habe

GPU-Setup (CUDA/ROCm) – lohnt sich, ist aber ein eigenes Thema.
Quantisierung – warum es ein Modell in mehreren Größen gibt und welche du nimmst.
Eigene Modelfiles – Systemprompt und Parameter fest hinterlegen.

Fazit & Ausblick

Mit einer Zeile Installation und einem Befehl läuft dein eigenes LLM – lokal, privat, kostenlos im Betrieb. Über die API wird es zur Basis für eigene KI-Anwendungen. Und wenn du verstehen willst, wie aus so einem Modell ein Agent wird, der eigenständig Werkzeuge nutzt: genau darum geht es im nächsten Artikel.

// Weitere Empfehlungen

Anzeige · Affiliate-Link – kaufst du darüber, erhalte ich ggf. eine Provision. Für dich ändert sich am Preis nichts.

netcup – 5 € Gutschein für Neukunden Hosting

5 € Rabatt für netcup-Neukunden (gilt nicht für Domains). Beim Bestellen einlösen.

Zum Angebot

Code: 36nc17813356860

#ollama #llm #ai #self-hosting #homelab #linux

Lokale LLMs mit Ollama auf dem Homelab-Server

Warum lokal?

Installation

Erstes Modell laden und chatten

Die Hardware-Realität

Ollama als API und mit Oberfläche

Was ich weggelassen habe

Fazit & Ausblick

Schreibe einen Kommentar