{% extends 'admin/base.html.twig' %} {% block title %}Neue Modell-Generierungskonfiguration{% endblock %} {% block body %}

Neue Modell-Generierungskonfiguration

Zurück
Exakter Modellname wie im KI-Endpunkt konfiguriert.
Token-Streaming im Chat (empfohlen).

Generation (LLM Sampling)
Kreativität des Modells. Für RAG 0.2–0.4 empfohlen.
Begrenzt die Auswahl wahrscheinlicher Token.
Nucleus Sampling – Balance zwischen Stabilität und Natürlichkeit.
Verhindert Wiederholungen (1.1–1.15 empfohlen).
Maximale Kontextlänge (System + Frage + Retrieval).

Retrieval (Wissensabruf)
Maximale Anzahl an Wissens-Chunks, die dem Modell übergeben werden. 20–40 ist für die meisten Systeme optimal.
Anzahl der Vektor-Treffer vor Filterung. Höhere Werte erhöhen Recall, können aber Rauschen verstärken.

Hinweis: Neue Konfigurationen werden zunächst inaktiv gespeichert und müssen separat aktiviert werden. Pro Modell kann nur eine Version aktiv sein.
{% endblock %}