07762 - 56 79 952 info@crazyALEX.de

UNTERNEHMENSWISSEN MIT LOKALER KI

von

Unternehmen stehen heute vor der Herausforderung, internes Wissen schnell, sicher und kontextgenau nutzen zu können. Während große Cloud-KI-Lösungen beeindruckende Fähigkeiten bieten, sind sie für viele Unternehmensbereiche aufgrund von Datenschutz, Compliance oder Infrastrukturvorgaben keine Option.

Die Lösung: eine vollständig lokale KI-Instanz, die dennoch moderne Large Language Models (LLMs) effektiv nutzt und Unternehmenswissen in Sekundenschnelle kontextbezogen anwenden kann.

Das Ziel ist ambitioniert: Eine spezifische fachliche Frage soll innerhalb von 20 bis 30 Sekunden beantwortet werden – gestützt auf interne Dokumente, Erfahrungen, Prozesse und Rückmeldungen der Mitarbeitenden.

Dieses Ziel lässt sich erreichen, wenn Daten, Modelle und Workflows clever miteinander kombiniert werden.

Die Bedeutung der Datenaufbereitung

Bevor überhaupt eine Frage gestellt wird, muss das Unternehmenswissen so aufbereitet sein, dass eine KI es effizient nutzen kann. Dazu wird ein großes lokales Modell – etwa ein 120B-Modell – eingesetzt, um vorhandene PDFs, PowerPoints, Grafiken, Textdokumente und Intranet-Artikel in strukturierte Text-Templates zu überführen.

Entscheidend ist, dass diese Templates nicht nur reinen Text enthalten, sondern auch aussagekräftige Metadaten wie Titel, Kategorien, Herkunft, Aktualität und Relevanz.

Der Prozess ähnelt einem automatisierten Redaktionssystem: Die KI extrahiert Inhalte, erkennt Zusammenhänge und bringt Informationen in ein Format, das für spätere Vektorisierung optimal geeignet ist. Mit dieser strukturierten Datengrundlage kann die spätere Antwortgenerierung präzise und schnell erfolgen.

AnythingLLM als Schaltzentrale

Sind die Daten einmal aufbereitet, müssen sie bereitgestellt werden – und zwar so, dass verschiedene Modelle darauf zugreifen können. AnythingLLM bietet dafür eine ideale Umgebung. Die Anwendung dient zwar oft als Chat-Schnittstelle, doch der eigentliche Wert liegt in der Organisation: Spaces, Modelle, System-Prompts und Kontextfenster lassen sich zentral verwalten.

AnythingLLM fungiert damit als Control Layer, über den die Kommunikation zwischen Weboberfläche, Vektordatenbank und Modellen stattfindet. Die Chats selbst laufen später über API-Anbindungen, was maximale Flexibilität ermöglicht.

Für Unternehmen bedeutet dies, dass KI-Workflows über eine verständliche Weboberfläche konfigurierbar bleiben – ohne dass ständig auf Codeebene eingegriffen werden muss.

Verbesserung der Nutzerfragen durch ein kleines Modell

Eine besondere Rolle spielt die Verarbeitung der Nutzerfragen. In vielen Fällen formulieren Mitarbeitende ihre Anfragen unpräzise oder zu allgemein. Hier kommt ein kleineres Modell, zum Beispiel phi4-mini, ins Spiel. Es dient als Vorverarbeitungsschicht für eingehende Fragen. Das Modell analysiert die Frage, erkennt deren Absicht, bereinigt unnötige oder missverständliche Formulierungen und ergänzt fehlende Informationen.

Dieser Prozess dauert weniger als zwei Sekunden. Das Modell zieht dafür nicht nur Wissen aus der Vektordatenbank, sondern auch aus einem zusätzlichen Lernschritt:

Benutzerfeedback, Interaktionshistorien und Bewertungen werden ebenfalls als Vektoren gespeichert und genutzt. Auf diese Weise entsteht ein System, das sich mit jeder Nutzung weiter verfeinert.

Das Ergebnis: Anstelle einer unscharfen Anfrage erhält das größere Modell eine optimierte, kontextsensitive Frage, die gezielt auf das Unternehmenswissen verweist.

    Antwortgenerierung durch ein großes Modell

    Im zweiten Schritt übernimmt ein größeres Modell – etwa ein 20B-, 70B- oder 120B-Modell. Es erhält eine vollständig ausgearbeitete, angereicherte Frage samt relevanter Vektor-Treffer und generiert daraufhin eine qualitativ hochwertige Antwort. Durch die Kombination aus Frageoptimierung, gut strukturiertem Unternehmenswissen und Vektorspeicherung von Nutzerinteraktionen entsteht eine bemerkenswerte Effizienz: Selbst komplexe Antworten zu Spezialthemen liegen innerhalb von 20 bis 30 Sekunden vor.

    So wird aus einem mehrstufigen Prozess ein flüssiger Workflow: Mitarbeitende erhalten schnell präzise Antworten, und das System versteht mit jeder weiteren Nutzung ein Stück besser, welche Informationen wichtig sind.

    Zentrale Vorteile der Architektur

    Diese Architektur bietet mehrere entscheidende Vorteile gegenüber herkömmlichen RAG- oder Chatbot-Lösungen.

    Erstens: Die Datenhaltung von Dokumenten und Interaktionen ist getrennt. Das erhöht die Flexibilität und minimiert Sicherheitsrisiken.

    Zweitens: Modelle, Prompts und Spaces lassen sich ohne technischen Aufwand über eine Weboberfläche konfigurieren. Das ermöglicht souveräne Kontrolle und schnelle Anpassungen.

    Drittens: Das Finetuning erfolgt auf kleinen Modellen. Diese sind schnell, ressourcenschonend und können durch häufige Anpassungen weiter optimiert werden. Gleichzeitig bleibt die Antwortqualität hoch, weil das große Modell am Ende die eigentliche Antwort erzeugt.

    Viertens: Große Modelle liefern die finalen Antworten. Dadurch entsteht ein System, das Geschwindigkeit und Qualität kombiniert – ein entscheidender Wettbewerbsvorteil.