Unternehmen stehen heute vor der Herausforderung, internes Wissen schnell, sicher und kontextgenau nutzen zu können. Während große Cloud-KI-Lösungen beeindruckende Fähigkeiten bieten, sind sie für viele Unternehmensbereiche aufgrund von Datenschutz, Compliance oder Infrastrukturvorgaben keine Option.
Die Lösung: eine vollständig lokale KI-Instanz, die dennoch moderne Large Language Models (LLMs) effektiv nutzt und Unternehmenswissen in Sekundenschnelle kontextbezogen anwenden kann.
Das Ziel ist ambitioniert: Eine spezifische fachliche Frage soll innerhalb von 20 bis 30 Sekunden beantwortet werden – gestützt auf interne Dokumente, Erfahrungen, Prozesse und Rückmeldungen der Mitarbeitenden.
Dieses Ziel lässt sich erreichen, wenn Daten, Modelle und Workflows clever miteinander kombiniert werden.
Die Bedeutung der Datenaufbereitung
Bevor überhaupt eine Frage gestellt wird, muss das Unternehmenswissen so aufbereitet sein, dass eine KI es effizient nutzen kann. Dazu wird ein großes lokales Modell – etwa ein 120B-Modell – eingesetzt, um vorhandene PDFs, PowerPoints, Grafiken, Textdokumente und Intranet-Artikel in strukturierte Text-Templates zu überführen.
Entscheidend ist, dass diese Templates nicht nur reinen Text enthalten, sondern auch aussagekräftige Metadaten wie Titel, Kategorien, Herkunft, Aktualität und Relevanz.
Der Prozess ähnelt einem automatisierten Redaktionssystem: Die KI extrahiert Inhalte, erkennt Zusammenhänge und bringt Informationen in ein Format, das für spätere Vektorisierung optimal geeignet ist. Mit dieser strukturierten Datengrundlage kann die spätere Antwortgenerierung präzise und schnell erfolgen.
AnythingLLM als Schaltzentrale
Sind die Daten einmal aufbereitet, müssen sie bereitgestellt werden – und zwar so, dass verschiedene Modelle darauf zugreifen können. AnythingLLM bietet dafür eine ideale Umgebung. Die Anwendung dient zwar oft als Chat-Schnittstelle, doch der eigentliche Wert liegt in der Organisation: Spaces, Modelle, System-Prompts und Kontextfenster lassen sich zentral verwalten.
AnythingLLM fungiert damit als Control Layer, über den die Kommunikation zwischen Weboberfläche, Vektordatenbank und Modellen stattfindet. Die Chats selbst laufen später über API-Anbindungen, was maximale Flexibilität ermöglicht.
Für Unternehmen bedeutet dies, dass KI-Workflows über eine verständliche Weboberfläche konfigurierbar bleiben – ohne dass ständig auf Codeebene eingegriffen werden muss.
Verbesserung der Nutzerfragen durch ein kleines Modell
Eine besondere Rolle spielt die Verarbeitung der Nutzerfragen. In vielen Fällen formulieren Mitarbeitende ihre Anfragen unpräzise oder zu allgemein. Hier kommt ein kleineres Modell, zum Beispiel phi4-mini, ins Spiel. Es dient als Vorverarbeitungsschicht für eingehende Fragen. Das Modell analysiert die Frage, erkennt deren Absicht, bereinigt unnötige oder missverständliche Formulierungen und ergänzt fehlende Informationen.
Dieser Prozess dauert weniger als zwei Sekunden. Das Modell zieht dafür nicht nur Wissen aus der Vektordatenbank, sondern auch aus einem zusätzlichen Lernschritt:
Benutzerfeedback, Interaktionshistorien und Bewertungen werden ebenfalls als Vektoren gespeichert und genutzt. Auf diese Weise entsteht ein System, das sich mit jeder Nutzung weiter verfeinert.
Das Ergebnis: Anstelle einer unscharfen Anfrage erhält das größere Modell eine optimierte, kontextsensitive Frage, die gezielt auf das Unternehmenswissen verweist.