marek/MtoRagSystem

Fork 0

Files

team2 54ce057ef0 harden system

2026-02-28 20:43:56 +01:00

3.8 KiB

Raw Blame History

RAG-System - Wie funktioniert das System?

Grundidee

Dieses System ist ein sogenanntes RAG-System (Retrieval Augmented Generation).

Das bedeutet:

Die KI antwortet nicht frei oder kreativ,
sondern ausschließlich auf Basis der hier hinterlegten Wissensdokumente.

Oder einfacher gesagt:

Die KI „weiß“ nur das, was Sie ihr hier als Dokumente geben.

Die drei Ebenen des Systems

1. Dokumente (Ihre Wissensquelle)

Sie laden Dokumente hoch (z. B. PDF, DOCX, Markdown, TXT).

Diese Dokumente sind:

versioniert
unveränderlich gespeichert
die einzige Wissensgrundlage des Systems

Wichtig:
Dokumente werden nicht direkt beantwortet, sondern technisch vorbereitet.

2. Ingest & Indexierung (technische Aufbereitung)

Sobald ein Dokument aktiviert wird:

Es wird in kleinere Textabschnitte („Chunks“) zerlegt
Diese Chunks werden strukturiert gespeichert (NDJSON)
Der Vektorindex wird vollständig neu aufgebaut

Nur aktive Dokumentversionen werden berücksichtigt.

Das System arbeitet deterministisch und reproduzierbar.

3. Anfrage & Antwort

Wenn ein Nutzer im Frontend eine Frage stellt:

Das System durchsucht den Index nach passenden Inhalten
Relevante Textstellen werden ausgewählt
Diese werden an das KI-Modell übergeben
Die KI formuliert daraus eine Antwort

Die KI erfindet keine Inhalte.
Sie formuliert ausschließlich das, was in Ihren Dokumenten steht.

Steuerungsmöglichkeiten im Adminbereich

Im Adminbereich können zentrale Parameter gesteuert werden.
Diese beeinflussen, wie das System antwortet und wie es Inhalte verarbeitet.

Modell- & Antwortparameter

Parameter	Bedeutung	Wirkung
Modell	Auswahl des KI-Modells	Bestimmt Stil, Qualität und Sprachverhalten
Temperatur	Kreativitätsgrad der Antwort	Niedrig = sachlich & stabil, Hoch = freier formuliert
Top K (LLM)	Token-Auswahlbreite	Steuert Varianz bei der Wortauswahl
Top P	Wahrscheinlichkeitsfilter	Begrenzt unplausible Wortkombinationen
Streaming	Antwort wird live ausgegeben	Verbessert UX im Frontend

Retrieval- & Wissensparameter

Parameter	Bedeutung	Wirkung
vectorTopK	Anzahl gefundener Chunks	Mehr = breiter Kontext, weniger = fokussierter
maxChunks	Maximale Übergabe an das Modell	Begrenzt Kontextgröße
Tag-Routing aktiv	Aktiviert Tag-Vorselektion	Präzisere Themenfilterung
Scoring-Version	Bewertungslogik	Steuert Priorisierung relevanter Inhalte

Ingest- & Indexparameter

Parameter	Bedeutung	Wirkung
Chunk-Größe	Länge eines Textabschnitts	Klein = präziser, Groß = mehr Kontext
Chunk-Overlap	Überlappung zwischen Chunks	Verhindert Kontextverlust
Embedding-Modell	Modell für Vektorisierung	Bestimmt Suchqualität
Global Reindex	Vollständiger Neuaufbau	Erzwingt saubere Reproduzierbarkeit

Was bedeutet das für Sie als Admin?

Sie steuern:

Welche Dokumente aktiv sind
Welche Versionen gültig sind
Wie Inhalte indexiert werden
Wie stark gefiltert wird
Wie das Modell antwortet

Die Qualität der Antworten hängt direkt ab von:

der Dokumentstruktur
der Chunk-Logik
der Retrieval-Konfiguration
der Modellkonfiguration

Grundprinzip des Systems

„Wir nutzen KI nicht, um kreativ zu raten,
sondern um verlässlich auf Basis Ihres Wissens zu antworten.“

Das System ist:

deterministisch
versioniert
governance-stabil
reproduzierbar

Kurz zusammengefasst

Dokumente → werden aufbereitet → indexiert → gezielt durchsucht → KI formuliert Antwort.

Sie kontrollieren das Wissen.
Die KI formuliert es.

3.8 KiB Raw Blame History