alpha new hybridretriver line

2026-02-26 07:02:07 +01:00
parent c12ae8b45e
commit df97f9314b
9 changed files with 460 additions and 152 deletions
--- a/templates/admin/model_config/create.html.twig
+++ b/templates/admin/model_config/create.html.twig
@@ -22,7 +22,10 @@

                <div class="row g-4">

-                    <!-- Modell -->
+                    <!-- ============================== -->
+                    <!-- Modell-Basis -->
+                    <!-- ============================== -->
+
                    <div class="col-md-6">
                        <label class="form-label">Modellname</label>
                        <input type="text"
@@ -31,11 +34,10 @@
                               placeholder="z. B. qwen3:latest"
                               required>
                        <div class="form-text text-secondary">
-                            Exakter Modellname wie im KI-Endpunkt konfiguriert (z. B. Ollama oder API).
+                            Exakter Modellname wie im KI-Endpunkt konfiguriert.
                        </div>
                    </div>

-                    <!-- Stream -->
                    <div class="col-md-6 d-flex align-items-center">
                        <div class="form-check form-switch mt-4">
                            <input class="form-check-input"
@@ -48,11 +50,22 @@
                            </label>
                        </div>
                        <div class="form-text text-secondary ms-3">
-                            Aktiviert Token-Streaming im Chat (empfohlen für bessere UX).
+                            Token-Streaming im Chat (empfohlen).
                        </div>
                    </div>

-                    <!-- Temperature -->
+                </div>
+
+                <hr class="border-secondary my-4">
+
+                <!-- ============================== -->
+                <!-- GENERATION -->
+                <!-- ============================== -->
+
+                <h5 class="text-info mb-3">Generation (LLM Sampling)</h5>
+
+                <div class="row g-4">
+
                    <div class="col-md-4">
                        <label class="form-label">Temperature</label>
                        <input type="number"
@@ -64,29 +77,24 @@
                               class="form-control bg-dark text-light border-secondary"
                               required>
                        <div class="form-text text-secondary">
-                            Steuert die Kreativität der Antworten.
-                            Niedrige Werte (0.2–0.4) erzeugen stabile, sachliche Ergebnisse – empfohlen für RAG-Systeme.
-                            Höhere Werte führen zu freieren, weniger deterministischen Antworten.
+                            Kreativität des Modells. Für RAG 0.2–0.4 empfohlen.
                        </div>
                    </div>

-                    <!-- Top K -->
                    <div class="col-md-4">
                        <label class="form-label">Top K</label>
                        <input type="number"
                               min="1"
+                               max="200"
                               name="top_k"
                               value="40"
                               class="form-control bg-dark text-light border-secondary"
                               required>
                        <div class="form-text text-secondary">
-                            Begrenzt die Anzahl der wahrscheinlichsten Token, aus denen das Modell auswählt.
-                            Niedrigere Werte = konservativer, höhere Werte = flexibler.
-                            20–50 ist für Wissenssysteme üblich.
+                            Begrenzt die Auswahl wahrscheinlicher Token.
                        </div>
                    </div>

-                    <!-- Top P -->
                    <div class="col-md-4">
                        <label class="form-label">Top P</label>
                        <input type="number"
@@ -98,13 +106,10 @@
                               class="form-control bg-dark text-light border-secondary"
                               required>
                        <div class="form-text text-secondary">
-                            Nucleus Sampling: Das Modell berücksichtigt nur Token,
-                            deren kumulative Wahrscheinlichkeit innerhalb dieses Werts liegt.
-                            0.8–0.95 bietet eine gute Balance zwischen Stabilität und Natürlichkeit.
+                            Nucleus Sampling – Balance zwischen Stabilität und Natürlichkeit.
                        </div>
                    </div>

-                    <!-- Repeat Penalty -->
                    <div class="col-md-6">
                        <label class="form-label">Repeat Penalty</label>
                        <input type="number"
@@ -116,12 +121,10 @@
                               class="form-control bg-dark text-light border-secondary"
                               required>
                        <div class="form-text text-secondary">
-                            Bestraft Wortwiederholungen. Werte leicht über 1.0 (z. B. 1.1–1.15)
-                            verhindern Schleifen und redundante Antworten.
+                            Verhindert Wiederholungen (1.1–1.15 empfohlen).
                        </div>
                    </div>

-                    <!-- Num Ctx -->
                    <div class="col-md-6">
                        <label class="form-label">Context Window (num_ctx)</label>
                        <input type="number"
@@ -132,9 +135,50 @@
                               class="form-control bg-dark text-light border-secondary"
                               required>
                        <div class="form-text text-secondary">
-                            Maximale Kontextlänge in Tokens (Systemprompt + Benutzerfrage + Retrieval-Chunks).
-                            Muss vom Modell unterstützt werden.
-                            Höhere Werte ermöglichen größere Wissenskontexte, erhöhen jedoch Speicher- und Rechenbedarf.
+                            Maximale Kontextlänge (System + Frage + Retrieval).
+                        </div>
+                    </div>
+
+                </div>
+
+                <hr class="border-secondary my-4">
+
+                <!-- ============================== -->
+                <!-- RETRIEVAL -->
+                <!-- ============================== -->
+
+                <h5 class="text-warning mb-3">Retrieval (Wissensabruf)</h5>
+
+                <div class="row g-4">
+
+                    <div class="col-md-6">
+                        <label class="form-label">Max Chunks</label>
+                        <input type="number"
+                               min="1"
+                               max="200"
+                               name="retrieval_max_chunks"
+                               value="25"
+                               class="form-control bg-dark text-light border-secondary"
+                               required>
+                        <div class="form-text text-secondary">
+                            Maximale Anzahl an Wissens-Chunks,
+                            die dem Modell übergeben werden.
+                            20–40 ist für die meisten Systeme optimal.
+                        </div>
+                    </div>
+
+                    <div class="col-md-6">
+                        <label class="form-label">Vector Top K</label>
+                        <input type="number"
+                               min="1"
+                               max="200"
+                               name="retrieval_vector_top_k"
+                               value="25"
+                               class="form-control bg-dark text-light border-secondary"
+                               required>
+                        <div class="form-text text-secondary">
+                            Anzahl der Vektor-Treffer vor Filterung.
+                            Höhere Werte erhöhen Recall, können aber Rauschen verstärken.
                        </div>
                    </div>

@@ -157,4 +201,4 @@
        Hinweis: Neue Konfigurationen werden zunächst inaktiv gespeichert und
        müssen separat aktiviert werden. Pro Modell kann nur eine Version aktiv sein.
    </div>
-{% endblock %}
+{% endblock %}