„Moment mal, ich kann Claude Code einfach auf meinem eigenen Rechner laufen lassen – ganz ohne API-Kosten und ohne dass mein Code in die Cloud wandert?“ Genau diese Frage haben wir in den letzten Wochen von immer mehr Developern gehört. Mit der Ankündigung von Ollama v0.14.0 hat sich die Spielregel für KI-gestütztes Coding fundamental verändert. Bei Never Code Alone beschäftigen wir uns seit über 15 Jahren mit Softwarequalität, Open Source und Remote Consulting – und die Möglichkeit, Claude Code vollständig lokal zu betreiben, ist für uns ein Meilenstein, den ihr unbedingt kennen solltet.
1. Was ist Claude Code und warum sollte man es lokal betreiben
Claude Code ist Anthropics agentisches Coding-Tool, das direkt in eurem Terminal lebt. Anders als klassische Chat-Interfaces kann Claude Code eigenständig Dateien lesen, Code schreiben, Git-Repositories durchforsten und sogar Terminal-Befehle ausführen. Das Tool versteht euren Projektkontext und arbeitet wie ein echter Pair-Programming-Partner an eurer Seite.
Bisher war Claude Code fest an Anthropics Cloud-Infrastruktur gebunden. Jede Code-Zeile, jeder Prompt, jeder Projektkontext wurde an Anthropics Server gesendet. Für viele Teams ist genau das ein Problem – sei es wegen Datenschutzanforderungen, Compliance-Vorgaben oder schlicht dem Wunsch nach voller Kontrolle über sensible Codebases.
Die lokale Ausführung löst dieses Problem elegant: Euer Code verlässt niemals euren Rechner. Keine API-Kosten, kein Tracking, vollständige Privatsphäre. Durch Ollamas neu implementierte Anthropic Messages API-Kompatibilität könnt ihr Claude Code jetzt mit lokalen Open-Source-Modellen wie Qwen3-Coder, DeepSeek-Coder oder CodeLlama betreiben.
2. Welche konkreten Vorteile bringt die lokale Ausführung
Die Vorteile gehen weit über „kostenlos“ hinaus. Stellt euch vor, ihr arbeitet an einem Projekt für einen Kunden im Finanzsektor oder im Gesundheitswesen. Die Compliance-Anforderungen verbieten oft, dass Quellcode an externe Server übertragen wird. Mit der lokalen Ausführung ist dieses Problem vom Tisch – eure Daten bleiben auf eurem Rechner, Punkt.
Der Kostenfaktor ist ebenfalls nicht zu unterschätzen. Cloud-basierte KI-Dienste rechnen pro Token ab, und bei intensiven Coding-Sessions können diese Kosten schnell explodieren. Ein autonomer Agent, der über Nacht Code iteriert, Tests ausführt und Fehler korrigiert, kann Token im Wert von mehreren hundert Euro verbrauchen. Lokal zahlt ihr nur eure Stromrechnung.
Offline-Fähigkeit ist ein weiterer Pluspunkt, der oft unterschätzt wird. Im Flugzeug, im Zug, in Gegenden mit schlechter Internetverbindung oder hinter restriktiven Firewalls – mit einem lokalen Setup seid ihr unabhängig von der Netzwerkverfügbarkeit.
Unser Praxis-Tipp aus dem Consulting: Teams, die mit sensiblen Daten arbeiten, sollten lokale LLMs nicht als Experiment, sondern als strategische Entscheidung betrachten. Die Investition in die richtige Hardware zahlt sich durch wegfallende API-Kosten und reduzierte Compliance-Risiken schnell aus.
3. Was ist Ollama und wie funktioniert die Integration
Ollama ist eine Open-Source-Plattform, die das Ausführen von Large Language Models auf lokalem Hardware so einfach macht wie das Installieren einer App. Ihr könnt euch Ollama wie einen lokalen Docker für KI-Modelle vorstellen – ein Befehl, und das gewünschte Modell läuft auf eurem System.
Mit Version 0.14.0 hat Ollama einen entscheidenden Schritt gemacht: Die Unterstützung der Anthropic Messages API. Das bedeutet, Claude Code kann nahtlos mit Ollama kommunizieren, als würde es mit Anthropics Servern sprechen. Technisch gesehen ist Ollama ein API-Endpunkt, der auf localhost:11434 lauscht und Anfragen im Anthropic-Format entgegennimmt.
Die Integration ist bemerkenswert elegant. Claude Code selbst bleibt unverändert – ihr ändert lediglich die Ziel-URL für API-Anfragen. Das Tool plant weiterhin, navigiert durch Code und editiert Dateien, während das zugrundeliegende Modell auf eurem lokalen System läuft.
# Ollama installieren (macOS mit Homebrew)
brew install ollama
# Oder direkt von ollama.com herunterladen
# Ollama-Service starten
ollama serve
# Ein Code-fokussiertes Modell herunterladen
ollama pull qwen3-coder
4. Welche Hardware-Anforderungen gelten für lokale Modelle
Die Hardware-Frage ist entscheidend und wird oft falsch eingeschätzt. Lokale LLMs sind speicherhungrig – und wir reden hier nicht von eurer Festplatte, sondern vom RAM, insbesondere vom VRAM eurer Grafikkarte.
Als Faustregel gilt: Ein Modell mit 7 Milliarden Parametern benötigt im quantisierten Format etwa 4-6 GB VRAM. Ein 30B-Modell wie der Qwen3-Coder benötigt entsprechend mehr – plant mit mindestens 16-24 GB VRAM für flüssiges Arbeiten. Für Apple Silicon Macs mit Unified Memory gelten ähnliche Werte, wobei hier CPU und GPU den gleichen Speicherpool nutzen.
Ollama empfiehlt für Claude Code eine Kontextlänge von mindestens 32.000 Tokens. Das ist wichtig, weil agentisches Coding viel Kontext benötigt – das Modell muss euren Code, die bisherige Konversation und Systemprompts gleichzeitig im Speicher halten.
Konkrete Hardware-Empfehlungen für unterschiedliche Szenarien:
Für Einsteiger und Tests eignet sich ein System mit 16 GB RAM und integrierter Grafik. Ihr könnt kleinere Modelle wie Gemma 2B oder quantisierte 7B-Varianten nutzen. Die Performance ist begrenzt, aber zum Experimentieren absolut ausreichend.
Für produktives Arbeiten solltet ihr mindestens 32 GB Unified Memory bei Apple Silicon oder eine dedizierte GPU mit 12-16 GB VRAM einplanen. Modelle wie Qwen2.5-Coder:7B laufen hier flüssig.
Für intensive Workloads sind 64 GB RAM und eine High-End-GPU mit 24+ GB VRAM empfehlenswert. Hier könnt ihr auch größere Modelle wie Qwen3-Coder:30B nutzen, die qualitativ näher an die Cloud-Modelle herankommen.
5. Welches lokale Modell eignet sich am besten fürs Coding
Die Modellauswahl ist entscheidend für die Qualität eurer Ergebnisse. Nicht jedes LLM ist für Coding-Tasks optimiert – spezialisierte Code-Modelle liefern deutlich bessere Ergebnisse als generische Chat-Modelle.
Qwen3-Coder hat sich als hervorragende Wahl etabliert. Das Modell wurde speziell für Coding-Aufgaben trainiert und versteht sowohl die Syntax gängiger Programmiersprachen als auch übergeordnete Konzepte wie Design Patterns und Best Practices.
DeepSeek-Coder ist eine weitere starke Option, besonders wenn ihr mit komplexeren Reasoning-Aufgaben arbeitet. Das Modell zeigt gute Performance bei der Analyse bestehender Codebases und beim Vorschlagen von Refactoring-Maßnahmen.
CodeLlama in der 34B-Variante bietet einen guten Kompromiss zwischen Qualität und Ressourcenbedarf. Es basiert auf Metas LLaMA-Architektur und wurde auf großen Mengen von Open-Source-Code nachtrainiert.
# Empfohlene Modelle für verschiedene Szenarien
# Leichtgewicht für schnelle Iterationen
ollama pull qwen2.5-coder:7b
# Mittlere Performance mit guter Qualität
ollama pull codellama:13b
# Beste Qualität für komplexe Aufgaben
ollama pull qwen3-coder:30b
Unsere Erfahrung aus der Praxis: Startet mit einem kleineren Modell und skaliert bei Bedarf hoch. Die 7B-Varianten reichen für viele alltägliche Coding-Aufgaben völlig aus. Größere Modelle bringen Vorteile bei komplexem Reasoning und bei der Arbeit mit umfangreichen Codebases.
6. Wie installiert man die komplette Toolchain Schritt für Schritt
Die Installation ist überraschend unkompliziert. Beginnt mit Ollama, dann installiert Claude Code, und konfiguriert abschließend die Verbindung zwischen beiden.
Für macOS und Linux installiert ihr Ollama entweder über Homebrew oder den offiziellen Installer von ollama.com. Windows-Nutzer laden den Installer direkt von der Website herunter. Nach der Installation läuft Ollama als Hintergrund-Service auf eurem System.
# Schritt 1: Ollama installieren
# macOS mit Homebrew
brew install ollama
# Linux
curl -fsSL https://ollama.com/install.sh | sh
# Windows: Installer von ollama.com herunterladen
# Schritt 2: Ollama-Service starten
ollama serve
# Schritt 3: Modell herunterladen (dauert je nach Größe einige Minuten)
ollama run qwen2.5-coder:7b
Für Claude Code nutzt ihr den offiziellen Installer von Anthropic. Das Tool installiert sich in euer Home-Verzeichnis und ist danach über den Befehl claude erreichbar.
# Claude Code installieren (macOS/Linux)
curl -fsSL https://claude.ai/install.sh | bash
# Claude Code installieren (Windows PowerShell)
irm https://claude.ai/install.ps1 | iex
# Installation verifizieren
claude --version
Falls ihr bereits mit einem Anthropic-Account angemeldet seid, meldet euch zunächst ab, damit Claude in den lokalen Modus wechseln kann.
7. Wie konfiguriert man die Umgebungsvariablen für den lokalen Betrieb
Die Konfiguration ist der kritischste Schritt – hier verbindet ihr Claude Code mit eurem lokalen Ollama-Server. Im Kern müsst ihr drei Umgebungsvariablen setzen.
Die ANTHROPIC_BASE_URL zeigt Claude Code, wo der API-Endpunkt liegt. Statt der Cloud-URL von Anthropic gebt ihr hier den lokalen Ollama-Endpunkt an.
Der ANTHROPIC_AUTH_TOKEN wird von Claude Code erwartet, auch wenn Ollama keine echte Authentifizierung benötigt. Ein Dummy-Wert wie „ollama“ reicht aus.
Mit CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC verhindert ihr, dass Claude Code Telemetrie oder andere nicht-essentielle Anfragen an externe Server sendet.
# Umgebungsvariablen setzen (für die aktuelle Session)
export ANTHROPIC_BASE_URL="http://localhost:11434"
export ANTHROPIC_AUTH_TOKEN="ollama"
export CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1
# Für permanente Konfiguration in ~/.bashrc oder ~/.zshrc eintragen
echo 'export ANTHROPIC_BASE_URL="http://localhost:11434"' >> ~/.zshrc
echo 'export ANTHROPIC_AUTH_TOKEN="ollama"' >> ~/.zshrc
echo 'export CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1' >> ~/.zshrc
# Shell neu laden
source ~/.zshrc
Alternativ könnt ihr die Konfiguration in der Claude-Einstellungsdatei hinterlegen. Diese liegt unter ~/.claude/settings.json:
{
"env": {
"ANTHROPIC_BASE_URL": "http://localhost:11434",
"ANTHROPIC_AUTH_TOKEN": "ollama",
"CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1"
}
}
8. Welche Einschränkungen haben lokale Modelle im Vergleich zur API
Ehrlichkeit ist uns wichtig: Lokale Open-Source-Modelle sind nicht gleichwertig mit Anthropics Frontier-Modellen wie Claude Sonnet oder Opus. Die Qualitätsunterschiede sind real und sollten bei eurer Entscheidung berücksichtigt werden.
Reasoning-Fähigkeiten sind der größte Unterschied. Anthropics Modelle sind speziell auf komplexes, mehrstufiges Reasoning trainiert. Bei architektonischen Entscheidungen, bei der Analyse komplexer Bugs oder beim Verstehen von Legacy-Codebases werden die Cloud-Modelle oft bessere Ergebnisse liefern.
Die Kontextlänge ist ein weiterer Faktor. Anthropics Modelle unterstützen deutlich längere Kontexte, was bei der Arbeit mit großen Codebases relevant wird. Lokale Modelle mit 32K Kontextlänge können bei umfangreichen Projekten an Grenzen stoßen.
Die Geschwindigkeit hängt stark von eurer Hardware ab. Auf Consumer-Hardware ist die lokale Inferenz oft deutlich langsamer als API-Calls. Ein Entwickler berichtete, dass ein simples „Hi“ auf einem M1 Max MacBook Pro mit 64 GB RAM etwa 55 Sekunden dauerte – das ist für interaktives Arbeiten unpraktisch.
Tool-Calling und strukturierte Outputs funktionieren, aber nicht immer so zuverlässig wie bei den großen Cloud-Modellen. Wenn Claude Code komplexe Multi-Step-Operationen plant, können kleinere lokale Modelle manchmal Schwierigkeiten haben, die Tool-Aufrufe korrekt zu formatieren.
9. Wie verhält sich die Performance und was kann man optimieren
Performance-Optimierung ist bei lokaler Inferenz entscheidend. Es gibt mehrere Hebel, an denen ihr drehen könnt.
Quantisierung reduziert den Speicherbedarf drastisch. Ein FP16-Modell mit 70 Milliarden Parametern benötigt etwa 140 GB Speicher. Mit INT4-Quantisierung schrumpft das auf etwa 35 GB – ein Faktor von 4x. Der Qualitätsverlust ist in der Praxis oft überraschend gering.
Warm-up-Zeit einkalkulieren: Lokale Modelle reagieren beim ersten Prompt oft träge, werden aber nach dem Laden in den Speicher deutlich schneller. Plant diese Initial-Latenz ein und urteilt nicht nach der ersten Antwort.
Prompt-Disziplin zahlt sich aus. Weil lokale Inferenz länger dauert, werden präzise, klare Prompts wichtiger. Jede unnötige Iteration kostet Zeit. Investiert in gutes Prompt Engineering, um die Anzahl der Durchläufe zu minimieren.
# Performance-Monitoring während der Nutzung
# Ollama zeigt Statistiken im Log
# GPU-Auslastung überwachen (NVIDIA)
watch -n 1 nvidia-smi
# Speicherverbrauch auf macOS
top -l 1 -s 0 | grep PhysMem
10. Wann lohnt sich die lokale Ausführung und wann sollte man bei der API bleiben
Die Entscheidung zwischen lokal und Cloud ist keine Entweder-oder-Frage. Beide Ansätze haben ihre Berechtigung, und oft ist eine hybride Strategie sinnvoll.
Lokale Ausführung lohnt sich bei sensiblen Projekten mit Compliance-Anforderungen, bei regelmäßiger, intensiver Nutzung wo API-Kosten relevant werden, bei Offline-Szenarien oder eingeschränkter Konnektivität und für Teams, die volle Kontrolle über ihre Toolchain wünschen.
Die Cloud-API bleibt sinnvoll bei Bedarf nach höchster Modellqualität für komplexe Reasoning-Aufgaben, bei gelegentlicher Nutzung wo sich Hardware-Investitionen nicht rechnen, wenn Geschwindigkeit kritisch ist und die Hardware limitiert und für Teams ohne Ressourcen für lokale Infrastruktur.
Unser Ansatz im Consulting: Wir empfehlen oft eine Zwei-Stufen-Strategie. Verwendet lokale Modelle für den Großteil eurer Coding-Aufgaben – schnelle Iterationen, Boilerplate-Generierung, Dokumentation, einfache Refactorings. Für komplexe Architektur-Entscheidungen, schwierige Debugging-Sessions oder kritische Code-Reviews könnt ihr punktuell auf die API zurückgreifen.
Euer nächster Schritt
Die Möglichkeit, Claude Code lokal zu betreiben, demokratisiert KI-gestütztes Coding. Ihr braucht keine teuren API-Subscriptions, keine Kompromisse bei der Datensicherheit und keine Abhängigkeit von Cloud-Diensten. Mit Ollama und einem passenden Open-Source-Modell habt ihr einen vollwertigen Coding-Agenten auf eurem eigenen Rechner.
Was ihr jetzt tun solltet:
Evaluiert eure Hardware – habt ihr genug RAM und VRAM für das gewünschte Modell? Plant eure Testphase – beginnt mit einem kleineren Modell und skaliert bei Bedarf. Dokumentiert eure Workflows – welche Aufgaben lassen sich lokal abbilden, wo bleibt die API relevant?
Ihr braucht Unterstützung bei der Einrichtung eurer lokalen KI-Infrastruktur oder wollt eine Strategie für euer Team entwickeln? Bei Never Code Alone sind wir seit über 15 Jahren auf Softwarequalität, Open Source und Remote Consulting spezialisiert. Wir helfen euch von der Hardware-Planung bis zum produktiven Einsatz.
Schreibt uns einfach eine E-Mail an roland@nevercodealone.de – wir freuen uns auf eure Herausforderung!
Never Code Alone – Gemeinsam für bessere Software-Qualität!
