Files
MtoRagSystem/RAG_SYSTEM_OVERVIEW.md
2026-02-28 20:43:56 +01:00

3.8 KiB

RAG-System - Wie funktioniert das System?

Grundidee

Dieses System ist ein sogenanntes RAG-System (Retrieval Augmented Generation).

Das bedeutet:

Die KI antwortet nicht frei oder kreativ,
sondern ausschließlich auf Basis der hier hinterlegten Wissensdokumente.

Oder einfacher gesagt:

Die KI „weiß“ nur das, was Sie ihr hier als Dokumente geben.


Die drei Ebenen des Systems

1. Dokumente (Ihre Wissensquelle)

Sie laden Dokumente hoch (z. B. PDF, DOCX, Markdown, TXT).

Diese Dokumente sind:

  • versioniert
  • unveränderlich gespeichert
  • die einzige Wissensgrundlage des Systems

Wichtig:
Dokumente werden nicht direkt beantwortet, sondern technisch vorbereitet.


2. Ingest & Indexierung (technische Aufbereitung)

Sobald ein Dokument aktiviert wird:

  1. Es wird in kleinere Textabschnitte („Chunks“) zerlegt
  2. Diese Chunks werden strukturiert gespeichert (NDJSON)
  3. Der Vektorindex wird vollständig neu aufgebaut

Nur aktive Dokumentversionen werden berücksichtigt.

Das System arbeitet deterministisch und reproduzierbar.


3. Anfrage & Antwort

Wenn ein Nutzer im Frontend eine Frage stellt:

  1. Das System durchsucht den Index nach passenden Inhalten
  2. Relevante Textstellen werden ausgewählt
  3. Diese werden an das KI-Modell übergeben
  4. Die KI formuliert daraus eine Antwort

Die KI erfindet keine Inhalte.
Sie formuliert ausschließlich das, was in Ihren Dokumenten steht.


Steuerungsmöglichkeiten im Adminbereich

Im Adminbereich können zentrale Parameter gesteuert werden.
Diese beeinflussen, wie das System antwortet und wie es Inhalte verarbeitet.

Modell- & Antwortparameter

Parameter Bedeutung Wirkung
Modell Auswahl des KI-Modells Bestimmt Stil, Qualität und Sprachverhalten
Temperatur Kreativitätsgrad der Antwort Niedrig = sachlich & stabil, Hoch = freier formuliert
Top K (LLM) Token-Auswahlbreite Steuert Varianz bei der Wortauswahl
Top P Wahrscheinlichkeitsfilter Begrenzt unplausible Wortkombinationen
Streaming Antwort wird live ausgegeben Verbessert UX im Frontend

Retrieval- & Wissensparameter

Parameter Bedeutung Wirkung
vectorTopK Anzahl gefundener Chunks Mehr = breiter Kontext, weniger = fokussierter
maxChunks Maximale Übergabe an das Modell Begrenzt Kontextgröße
Tag-Routing aktiv Aktiviert Tag-Vorselektion Präzisere Themenfilterung
Scoring-Version Bewertungslogik Steuert Priorisierung relevanter Inhalte

Ingest- & Indexparameter

Parameter Bedeutung Wirkung
Chunk-Größe Länge eines Textabschnitts Klein = präziser, Groß = mehr Kontext
Chunk-Overlap Überlappung zwischen Chunks Verhindert Kontextverlust
Embedding-Modell Modell für Vektorisierung Bestimmt Suchqualität
Global Reindex Vollständiger Neuaufbau Erzwingt saubere Reproduzierbarkeit

Was bedeutet das für Sie als Admin?

Sie steuern:

  • Welche Dokumente aktiv sind
  • Welche Versionen gültig sind
  • Wie Inhalte indexiert werden
  • Wie stark gefiltert wird
  • Wie das Modell antwortet

Die Qualität der Antworten hängt direkt ab von:

  • der Dokumentstruktur
  • der Chunk-Logik
  • der Retrieval-Konfiguration
  • der Modellkonfiguration

Grundprinzip des Systems

„Wir nutzen KI nicht, um kreativ zu raten,
sondern um verlässlich auf Basis Ihres Wissens zu antworten.“

Das System ist:

  • deterministisch
  • versioniert
  • governance-stabil
  • reproduzierbar

Kurz zusammengefasst

Dokumente → werden aufbereitet → indexiert → gezielt durchsucht → KI formuliert Antwort.

Sie kontrollieren das Wissen.
Die KI formuliert es.