Lokale KI-Modelle laufen nicht in der Cloud, sondern auf eigener Hardware. Das kann ein Laptop, ein Desktop-PC, eine Workstation oder ein Server im Unternehmen sein. Der große Vorteil: Daten müssen nicht zwingend an externe Anbieter übertragen werden. Das ist besonders interessant für Unternehmen, Entwickler, Forschungsteams oder private Nutzer mit sensiblen Informationen.
Gleichzeitig bedeutet lokale KI auch mehr Eigenverantwortung. Installation, Updates, Speicherbedarf, Geschwindigkeit, Sicherheit und Wartung müssen selbst geplant werden.
Speicher ist der wichtigste Engpass
Bei lokalen KI-Modellen ist nicht nur die Rechenleistung entscheidend, sondern vor allem der verfügbare Speicher. Große Sprachmodelle bestehen aus Milliarden von Parametern, die während der Nutzung im RAM oder im Grafikspeicher liegen müssen.
Kleine Modelle mit etwa 3 bis 7 Milliarden Parametern können auf vielen modernen Rechnern laufen. Für bessere Qualität werden oft Modelle mit 7 bis 14 Milliarden Parametern genutzt. Diese benötigen aber deutlich mehr Arbeitsspeicher oder VRAM. Noch größere Modelle sind lokal zwar möglich, aber meist nur mit teurer Spezialhardware sinnvoll.
Eine wichtige Rolle spielt Quantisierung. Dabei wird das Modell platzsparender gespeichert, zum Beispiel mit weniger Bits pro Parameter. Dadurch laufen Modelle auch auf schwächerer Hardware, allerdings manchmal mit leichten Qualitätsverlusten.
Welche Hardware ist realistisch?
Ein normaler Laptop mit 16 GB RAM eignet sich gut zum Ausprobieren kleiner Modelle. Für einfache Textaufgaben, Zusammenfassungen oder private Assistenten reicht das oft aus. Die Geschwindigkeit ist aber begrenzt.
Ein leistungsstarker Desktop-PC mit 32 bis 64 GB RAM und einer GPU mit ausreichend VRAM ist deutlich flexibler. Damit sind lokale Chatbots, Coding-Assistenten oder Dokumentenanalysen realistisch.
Für Unternehmen kommen eher Workstations oder eigene Server infrage. Diese ermöglichen größere Modelle, mehrere Nutzer und bessere Geschwindigkeit. Dafür steigen aber Kosten, Stromverbrauch und Administrationsaufwand.
Interner Dokumenten-Assistent
Ein lokaler Assistent für interne Dokumente ist eines der sinnvollsten Szenarien. Mitarbeitende können Fragen zu Handbüchern, Prozessbeschreibungen, technischen Dokumentationen, Richtlinien oder Projektunterlagen stellen.
Für einfache Fragen und kurze Dokumente reichen oft 7B- bis 8B-Modelle. Für bessere Antworten, längere Zusammenhänge und zuverlässigere Formulierungen sind 13B- bis 14B-Modelle realistischer. Bei sehr umfangreichen Wissensdatenbanken, vielen Nutzern oder komplexen technischen Inhalten können 30B-Modelle oder größer sinnvoll sein, benötigen aber deutlich stärkere Hardware.
Wichtig ist hier meist nicht ein riesiges Modell, sondern ein gutes RAG-System mit sauberen Quellenangaben.
Entwicklerunterstützung
Lokale KI kann beim Programmieren helfen: Code erklären, Fehlermeldungen analysieren, einfache Funktionen schreiben oder Tests vorschlagen.
Für einfache Code-Erklärungen reichen spezialisierte 7B-Modelle oft aus. Für brauchbare Unterstützung im Alltag sind 13B- bis 14B-Code-Modelle deutlich angenehmer. Bei komplexeren Repositories, Architekturfragen oder schwieriger Fehlersuche werden eher 30B- bis 70B-Modelle interessant.
Die Grenze ist klar: Je größer und komplexer die Codebasis, desto wichtiger werden Kontextlänge, Modellqualität und Speicher.