{% extends 'admin/base.html.twig' %} {% block title %}Neue Modell-Generierungskonfiguration{% endblock %} {% block body %}

Neue Modell-Generierungskonfiguration

Zurück
Exakter Modellname wie im KI-Endpunkt konfiguriert (z. B. Ollama oder API).
Aktiviert Token-Streaming im Chat (empfohlen für bessere UX).
Steuert die Kreativität der Antworten. Niedrige Werte (0.2–0.4) erzeugen stabile, sachliche Ergebnisse – empfohlen für RAG-Systeme. Höhere Werte führen zu freieren, weniger deterministischen Antworten.
Begrenzt die Anzahl der wahrscheinlichsten Token, aus denen das Modell auswählt. Niedrigere Werte = konservativer, höhere Werte = flexibler. 20–50 ist für Wissenssysteme üblich.
Nucleus Sampling: Das Modell berücksichtigt nur Token, deren kumulative Wahrscheinlichkeit innerhalb dieses Werts liegt. 0.8–0.95 bietet eine gute Balance zwischen Stabilität und Natürlichkeit.
Bestraft Wortwiederholungen. Werte leicht über 1.0 (z. B. 1.1–1.15) verhindern Schleifen und redundante Antworten.
Maximale Kontextlänge in Tokens (Systemprompt + Benutzerfrage + Retrieval-Chunks). Muss vom Modell unterstützt werden. Höhere Werte ermöglichen größere Wissenskontexte, erhöhen jedoch Speicher- und Rechenbedarf.

Hinweis: Neue Konfigurationen werden zunächst inaktiv gespeichert und müssen separat aktiviert werden. Pro Modell kann nur eine Version aktiv sein.
{% endblock %}