KI-Anwedungsprojekt mit era-contact GmbH

Rückblick: Effizienzsteigerung durch RAG-basierte Copiloten
Im ersten Teil unseres Blogbeitrags haben wir gezeigt, wie ein KI-gestützter Copilot auf Basis von Retrieval-Augmented Generation (RAG) zur Effizienzsteigerung in der Projektabwicklung beitragen kann. Mithilfe des RAG können unternehmensinterne Dokumente in eine strukturierte, maschinenlesbare Wissensbasis überführt und semantisch durchsuchbar gemacht werden, ohne das Unternehmen zu verlassen. Dabei bleiben alle Daten lokal und unter Kontrolle, was insbesondere im Hinblick auf Datenschutz, Vertraulichkeit und Compliance von zentraler Bedeutung ist. Der Copilot nutzt diese Wissensbasis, um relevante Informationen gezielt bereitzustellen, Entscheidungsprozesse zu unterstützen und die tägliche Arbeit der Mitarbeitenden intelligenter und effizienter zu gestalten. Der zweite Teil des Blogbeitrag beleuchtet einige Kernaspekte, die bei einer Implementierung des LLM basierend auf RAG beachtet werden müssen.
Sprachverständnis durch Embedding-Modelle
LLM verstehen menschliche Sprache durch die numerische Beziehung zwischen Wörtern. Um die menschliche Sprache numerische zu repräsentieren, werden sogenannte Embedding Modelle genutzt. Ein Embedding-Modell wandelt Wörter, Sätze oder ganze Dokumente in mathematische Vektoren um, also Zahlenreihen, die die Bedeutung dieser Inhalte erfassbar machen. So können Maschinen verstehen, wie Begriffe inhaltlich zueinanderstehen, auch wenn sie ganz unterschiedlich formuliert sind. Embedding Modelle sind Machine Learning Anwendung, die auf große Textmengen trainiert werden. Die Auswahl des Embedding Modells ist maßgeblich für die Performance des LLM. Es existieren Embedding Modelle für unterschiedliche Anwendungen, Sprachen, Textlängen und auch Domänen. Schlussendlich ist die Auswahl des Embedding Models abhängig von der gewünschten Performance und dem Ressourcenbedarf.
Chunking: Die Basis für semantische Suche
Um das Durchsuchen der zu Grunde liegenden Wissensbasis effizient zu gestalten ist das sogenannte Chunking der Wissensbasis entscheidend. Die maximale Eingabelänge von Embedding-Modellen ist durch eine feste Token-Grenze begrenzt. Tokens sind dabei die kleinsten Einheiten, in die ein Text vor der Verarbeitung zerlegt wird. Beim Chunking wird die zu grundliegende Wissensbasis in kleinere, sinnvolle Einheiten Chunks zerlegt, bevor es in ein semantisches Suchsystem eingespeist wird. Anstatt den Text selbst abzuspeichern, wird jeder Chunk durch ein Embedding Modell in einen Vektor umgewandelt, der die inhaltliche Bedeutung in einem mathematischen Raum repräsentiert. Hierdurch kann die Wissensbasis nicht nur nach Worten, sondern auch nach Bedeutung durchsucht werden. Beim Chunking gibt es verschiedene Strategien, die je nach Anwendungsfall unterschiedlich gut geeignet sind. Die Wissensbasis kann beispielsweise in gleichlange Abschnitte, satzweise, absatzweise oder semantisch, also nach inhaltlicher Bedeutung, unterteilt werden. Dabei ist es auch möglich, die einzelnen Chunks überlappen zu lassen, um den Kontext besser zu erhalten. Bei zu großen Chunks besteht die Gefahr, dass relevante Informationen in irrelevantem Kontext untergehen. Dagegen fehlt bei zu kleinen Chunks oft der Zusammenhang, wodurch wichtige Bedeutungsbezüge verloren gehen. Werden Chunks an ungünstigen Stellen getrennt, entstehen unvollständige Sätze oder isolierte Textfragmente, die für das LLM schwer verständlich sind.
Suchstrategien im RAG: Dense, Sparse & Hybrid
Im RAG dienen Suchstrategien dazu aus einer großen Wissensbasis genau die Chunks zu finden, die für die jeweilige Nutzeranfrage relevant sind. Je nach Anwendung kommen dabei unterschiedliche Methoden zum Einsatz. Bei der Dense-Retrieval-Methode wird die semantische Ähnlichkeit durch die numerische Ähnlichkeit zwischen der Anfrage und den Chunks ermittelt. Hierdurch ist die Dense-Retrival-Methode ideal für ausformulierte Fragen. Sparse Retrieval dagegen beschreibt eine klassische Wortsuche und eignet sich gut bei technischen Fragen mit fester Terminologie. In der Praxis werden häufig hybride oder komplexere Suchstrategien eingesetzt, die beide Ansätze kombinieren, um sowohl semantisches Verständnis als auch präzise Begriffsübereinstimmung zu ermöglichen. Oft kommt auch ein sogenanntes Reranking verwendet. Beim Reranking wird zunächst eine Dense-Retrieval-Methode verwendet, um die relevantesten Chunks über ihre numerische Ähnlichkeit vorzuselektieren. Diese werden anschließend gemeinsam mit der ursprünglichen Frage nochmals analysiert und in ihrer Relevanz neu bewertet. Ergänzend lassen sich Chunks über Metadaten filtern oder die Nutzerfrage automatisch durch eine sogenannte Query Expansion erweitern, um die Relevanz der Suchergebnisse weiter zu erhöhen. Ergänzend lassen sich die Ergebnisse durch Metadatenfilter weiter eingrenzen oder die Nutzerfrage mittels Query Expansion automatisch erweitern, um die Treffergenauigkeit zusätzlich zu erhöhen.
Erfolgsfaktor: Passgenaue technische Umsetzung
Die Implementierung eines auf RAG basierenden LLM erfordert eine wissensbasisspezifische Auswahl verschiedener Teillösungen, um das volle Potenzial der Technologie auszuschöpfen. Auch wenn die Vielzahl an Optionen zunächst komplex wirken kann, lässt sich die Umsetzung mit einem soliden technischen Grundverständnis und der Unterstützung durch gut dokumentierte Open-Source-Tools und praxiserprobte Frameworks gut bewältigen.
Weitere Themen aus dem Zentrum
Digital besser biegen
Umsetzungsprojekt mit der Herkules Wetzlar GmbH Die Herkules Wetzlar GmbH besitzt ihre Kernkompetenzen im Bereich…
Video: Digital besser biegen
Umsetzungsprojekt mit der Herkules Wetzlar GmbH Wie können digitale Technologien die Qualitätssicherung eines Biegeteil-Herstellers verbessern?…
Digitale Auftragsverfolgung I
Umsetzungsprojekt mit der LS-Mechanik GmbH Die LS-Mechanik GmbH in Alsfeld ist ein mittelständisches Unternehmen mit…