alpha new hybridretriver line
This commit is contained in:
@@ -22,7 +22,10 @@
|
||||
|
||||
<div class="row g-4">
|
||||
|
||||
<!-- Modell -->
|
||||
<!-- ============================== -->
|
||||
<!-- Modell-Basis -->
|
||||
<!-- ============================== -->
|
||||
|
||||
<div class="col-md-6">
|
||||
<label class="form-label">Modellname</label>
|
||||
<input type="text"
|
||||
@@ -31,11 +34,10 @@
|
||||
placeholder="z. B. qwen3:latest"
|
||||
required>
|
||||
<div class="form-text text-secondary">
|
||||
Exakter Modellname wie im KI-Endpunkt konfiguriert (z. B. Ollama oder API).
|
||||
Exakter Modellname wie im KI-Endpunkt konfiguriert.
|
||||
</div>
|
||||
</div>
|
||||
|
||||
<!-- Stream -->
|
||||
<div class="col-md-6 d-flex align-items-center">
|
||||
<div class="form-check form-switch mt-4">
|
||||
<input class="form-check-input"
|
||||
@@ -48,11 +50,22 @@
|
||||
</label>
|
||||
</div>
|
||||
<div class="form-text text-secondary ms-3">
|
||||
Aktiviert Token-Streaming im Chat (empfohlen für bessere UX).
|
||||
Token-Streaming im Chat (empfohlen).
|
||||
</div>
|
||||
</div>
|
||||
|
||||
<!-- Temperature -->
|
||||
</div>
|
||||
|
||||
<hr class="border-secondary my-4">
|
||||
|
||||
<!-- ============================== -->
|
||||
<!-- GENERATION -->
|
||||
<!-- ============================== -->
|
||||
|
||||
<h5 class="text-info mb-3">Generation (LLM Sampling)</h5>
|
||||
|
||||
<div class="row g-4">
|
||||
|
||||
<div class="col-md-4">
|
||||
<label class="form-label">Temperature</label>
|
||||
<input type="number"
|
||||
@@ -64,29 +77,24 @@
|
||||
class="form-control bg-dark text-light border-secondary"
|
||||
required>
|
||||
<div class="form-text text-secondary">
|
||||
Steuert die Kreativität der Antworten.
|
||||
Niedrige Werte (0.2–0.4) erzeugen stabile, sachliche Ergebnisse – empfohlen für RAG-Systeme.
|
||||
Höhere Werte führen zu freieren, weniger deterministischen Antworten.
|
||||
Kreativität des Modells. Für RAG 0.2–0.4 empfohlen.
|
||||
</div>
|
||||
</div>
|
||||
|
||||
<!-- Top K -->
|
||||
<div class="col-md-4">
|
||||
<label class="form-label">Top K</label>
|
||||
<input type="number"
|
||||
min="1"
|
||||
max="200"
|
||||
name="top_k"
|
||||
value="40"
|
||||
class="form-control bg-dark text-light border-secondary"
|
||||
required>
|
||||
<div class="form-text text-secondary">
|
||||
Begrenzt die Anzahl der wahrscheinlichsten Token, aus denen das Modell auswählt.
|
||||
Niedrigere Werte = konservativer, höhere Werte = flexibler.
|
||||
20–50 ist für Wissenssysteme üblich.
|
||||
Begrenzt die Auswahl wahrscheinlicher Token.
|
||||
</div>
|
||||
</div>
|
||||
|
||||
<!-- Top P -->
|
||||
<div class="col-md-4">
|
||||
<label class="form-label">Top P</label>
|
||||
<input type="number"
|
||||
@@ -98,13 +106,10 @@
|
||||
class="form-control bg-dark text-light border-secondary"
|
||||
required>
|
||||
<div class="form-text text-secondary">
|
||||
Nucleus Sampling: Das Modell berücksichtigt nur Token,
|
||||
deren kumulative Wahrscheinlichkeit innerhalb dieses Werts liegt.
|
||||
0.8–0.95 bietet eine gute Balance zwischen Stabilität und Natürlichkeit.
|
||||
Nucleus Sampling – Balance zwischen Stabilität und Natürlichkeit.
|
||||
</div>
|
||||
</div>
|
||||
|
||||
<!-- Repeat Penalty -->
|
||||
<div class="col-md-6">
|
||||
<label class="form-label">Repeat Penalty</label>
|
||||
<input type="number"
|
||||
@@ -116,12 +121,10 @@
|
||||
class="form-control bg-dark text-light border-secondary"
|
||||
required>
|
||||
<div class="form-text text-secondary">
|
||||
Bestraft Wortwiederholungen. Werte leicht über 1.0 (z. B. 1.1–1.15)
|
||||
verhindern Schleifen und redundante Antworten.
|
||||
Verhindert Wiederholungen (1.1–1.15 empfohlen).
|
||||
</div>
|
||||
</div>
|
||||
|
||||
<!-- Num Ctx -->
|
||||
<div class="col-md-6">
|
||||
<label class="form-label">Context Window (num_ctx)</label>
|
||||
<input type="number"
|
||||
@@ -132,9 +135,50 @@
|
||||
class="form-control bg-dark text-light border-secondary"
|
||||
required>
|
||||
<div class="form-text text-secondary">
|
||||
Maximale Kontextlänge in Tokens (Systemprompt + Benutzerfrage + Retrieval-Chunks).
|
||||
Muss vom Modell unterstützt werden.
|
||||
Höhere Werte ermöglichen größere Wissenskontexte, erhöhen jedoch Speicher- und Rechenbedarf.
|
||||
Maximale Kontextlänge (System + Frage + Retrieval).
|
||||
</div>
|
||||
</div>
|
||||
|
||||
</div>
|
||||
|
||||
<hr class="border-secondary my-4">
|
||||
|
||||
<!-- ============================== -->
|
||||
<!-- RETRIEVAL -->
|
||||
<!-- ============================== -->
|
||||
|
||||
<h5 class="text-warning mb-3">Retrieval (Wissensabruf)</h5>
|
||||
|
||||
<div class="row g-4">
|
||||
|
||||
<div class="col-md-6">
|
||||
<label class="form-label">Max Chunks</label>
|
||||
<input type="number"
|
||||
min="1"
|
||||
max="200"
|
||||
name="retrieval_max_chunks"
|
||||
value="25"
|
||||
class="form-control bg-dark text-light border-secondary"
|
||||
required>
|
||||
<div class="form-text text-secondary">
|
||||
Maximale Anzahl an Wissens-Chunks,
|
||||
die dem Modell übergeben werden.
|
||||
20–40 ist für die meisten Systeme optimal.
|
||||
</div>
|
||||
</div>
|
||||
|
||||
<div class="col-md-6">
|
||||
<label class="form-label">Vector Top K</label>
|
||||
<input type="number"
|
||||
min="1"
|
||||
max="200"
|
||||
name="retrieval_vector_top_k"
|
||||
value="25"
|
||||
class="form-control bg-dark text-light border-secondary"
|
||||
required>
|
||||
<div class="form-text text-secondary">
|
||||
Anzahl der Vektor-Treffer vor Filterung.
|
||||
Höhere Werte erhöhen Recall, können aber Rauschen verstärken.
|
||||
</div>
|
||||
</div>
|
||||
|
||||
@@ -157,4 +201,4 @@
|
||||
Hinweis: Neue Konfigurationen werden zunächst inaktiv gespeichert und
|
||||
müssen separat aktiviert werden. Pro Modell kann nur eine Version aktiv sein.
|
||||
</div>
|
||||
{% endblock %}
|
||||
{% endblock %}
|
||||
Reference in New Issue
Block a user