p101

2026-05-12 10:56:50 +02:00
parent feaec9bbaf
commit 6dced1c4df
7 changed files with 1409 additions and 5 deletions
--- a/RETRIEX-EVAL-CASE-HOWTO.md
+++ b/RETRIEX-EVAL-CASE-HOWTO.md
@@ -0,0 +1,731 @@
+# RetrieX How-to: Neue Eval-Cases korrekt erstellen
+
+Dieses How-to beschreibt, wie neue Regressionstests für die RetrieX Eval-Suite über den Admin-Bereich angelegt werden.
+
+Ziel ist, neue rote oder fachlich wichtige Fälle dauerhaft abzusichern, ohne direkt Core-Logik, Retrieval-Regeln oder Shopquery-Heuristiken zu verändern.
+
+## Einstieg
+
+Admin-Pfad:
+
+```text
+/admin/evals/
+```
+
+Im Bereich **„Eval-Case erstellen“** können neue Cases für folgende Typen angelegt werden:
+
+```text
+retrieval
+shop_query
+followup
+answer_guard
+```
+
+Nach dem Speichern wird der Case in die passende Datei geschrieben:
+
+```text
+tests/evals/cases/retrieval.ndjson
+tests/evals/cases/shop_query.ndjson
+tests/evals/cases/followup.ndjson
+tests/evals/cases/answer_guard.ndjson
+```
+
+---
+
+## Grundregel
+
+Ein guter Eval-Case prüft genau **einen klaren Sachverhalt**.
+
+Gut:
+
+```json
+{
+  "expected_query": "testomat 808",
+  "must_not_include_terms": [
+    "indikator",
+    "300"
+  ]
+}
+```
+
+Weniger gut:
+
+```json
+{
+  "expected_query": "testomat 808",
+  "must_include_terms": [
+    "testomat",
+    "808",
+    "gerät",
+    "preis",
+    "wasserhärte"
+  ],
+  "must_not_include_terms": [
+    "indikator",
+    "300",
+    "testomat 2000",
+    "chlor",
+    "versand"
+  ]
+}
+```
+
+Je kleiner und eindeutiger der Case ist, desto besser eignet er sich als Regressionstest.
+
+---
+
+# Felder im Admin
+
+## 1. Eval-Typ
+
+Wähle den Typ passend zum Ziel des Tests.
+
+```text
+retrieval      → prüft, ob die richtigen RAG-Dokumente/Chunks gefunden werden
+shop_query     → prüft, welche Shopquery aus einem direkten Prompt entsteht
+followup       → prüft, welche Shopquery aus Prompt + Chatverlauf entsteht
+answer_guard   → prüft No-Answer-, Nicht-Halluzinations- oder Evidenzfälle
+```
+
+Faustregel:
+
+```text
+Wird das richtige Dokument gefunden?        → retrieval
+Wird die richtige Shopquery erzeugt?        → shop_query
+Versteht RetrieX die Folgefrage im Verlauf? → followup
+Erfindet RetrieX nichts bei schwacher Evidenz? → answer_guard
+```
+
+---
+
+## 2. Neue Case-ID
+
+Die Case-ID muss eindeutig sein und darf nur folgende Zeichen enthalten:
+
+```text
+Buchstaben
+Zahlen
+_
+-
+```
+
+Gute Beispiele:
+
+```text
+retrieval_semantic_chlor_clt_001
+shop_query_indicator_300_exact_002
+followup_main_device_price_002
+answer_guard_unknown_medium_001
+```
+
+Nicht verwenden:
+
+```text
+Test 1
+shop query indikator 300
+gerät/frage/neue-version
+```
+
+Empfohlenes Schema:
+
+```text
+<typ>_<thema>_<ziel>_<nummer>
+```
+
+Beispiel:
+
+```text
+followup_testomat808_device_price_001
+```
+
+---
+
+## 3. Prompt
+
+Hier kommt exakt der Nutzerprompt hinein, der getestet werden soll.
+
+Beispiele:
+
+```text
+welches geraet ist fuer chlorueberwachung gedacht
+```
+
+```text
+was kostet der indikator
+```
+
+```text
+und was kostet das gerät selber
+```
+
+```text
+welcher testomat misst drachenblut
+```
+
+Der Prompt sollte möglichst so eingetragen werden, wie er real im Chat vorkommt. Tippfehler dürfen bewusst enthalten sein, wenn genau dieses Verhalten abgesichert werden soll.
+
+---
+
+## 4. Assert-JSON
+
+Das Assert-JSON beschreibt, was der Test prüfen soll.
+
+Das Feld muss immer ein gültiges JSON-Objekt sein:
+
+```json
+{
+}
+```
+
+Wichtig:
+
+- Keine Kommentare im JSON
+- Keine trailing commas
+- Doppelte Anführungszeichen verwenden
+- Das Feld muss ein Objekt `{ ... }` sein, kein Array
+
+---
+
+# Eval-Typen und Beispiele
+
+## A) Retrieval-Case
+
+Retrieval-Cases prüfen, ob die richtigen RAG-Dokumente oder Chunks gefunden werden.
+
+### Minimaler positiver Retrieval-Case
+
+```json
+{
+  "min_results": 1
+}
+```
+
+### Retrieval-Case mit erwarteter Dokument-ID
+
+```json
+{
+  "min_results": 1,
+  "must_include_one_of_document_ids": [
+    "DOKUMENT-ID-HIER"
+  ]
+}
+```
+
+### Retrieval-Case mit mehreren möglichen Ziel-Dokumenten
+
+```json
+{
+  "min_results": 1,
+  "must_include_one_of_document_ids": [
+    "DOKUMENT-ID-1",
+    "DOKUMENT-ID-2"
+  ]
+}
+```
+
+### Retrieval-Case mit Pflichtbegriffen
+
+```json
+{
+  "min_results": 1,
+  "must_include_any_terms": [
+    "lieferung",
+    "versand"
+  ]
+}
+```
+
+### Retrieval-Case mit verbotenen Dokumenten
+
+```json
+{
+  "min_results": 1,
+  "must_not_include_document_ids": [
+    "FALSCHE-DOKUMENT-ID"
+  ]
+}
+```
+
+### Retrieval-Case für No-Result / Unsinn
+
+```json
+{
+  "max_results": 0
+}
+```
+
+### Empfohlene Retrieval-Struktur
+
+```json
+{
+  "min_results": 1,
+  "must_include_one_of_document_ids": [
+    "DOKUMENT-ID-HIER"
+  ],
+  "must_include_any_terms": [
+    "wichtiger fachbegriff",
+    "produktname"
+  ]
+}
+```
+
+---
+
+## B) Shopquery-Case
+
+Shopquery-Cases prüfen, welche Shopquery aus einem direkten Prompt entsteht.
+
+### Exakte Shopquery
+
+Prompt:
+
+```text
+was kostet der Testomat 808 Indikator 300
+```
+
+Assert-JSON:
+
+```json
+{
+  "expected_query": "testomat 808 300 indikator"
+}
+```
+
+### Shopquery mit Pflicht- und Verbotsbegriffen
+
+```json
+{
+  "must_include_terms": [
+    "testomat",
+    "808",
+    "300",
+    "indikator"
+  ],
+  "must_not_include_terms": [
+    "300 s",
+    "301",
+    "302",
+    "303"
+  ]
+}
+```
+
+### Query darf nicht auf Noise fallen
+
+```json
+{
+  "must_not_equal_query": "information"
+}
+```
+
+### Multi-Produkt- oder Link-Follow-up mit Einzelqueries
+
+```json
+{
+  "expected_individual_queries": [
+    "testomat 2000 self clean",
+    "testomat 2000 cal",
+    "testomat 808"
+  ],
+  "expected_individual_queries_exact": true
+}
+```
+
+### Empfehlung für Shopquery-Cases
+
+Nicht jeden Case sofort zu streng mit `expected_query` absichern. Bei noch variabler Query-Bildung ist oft besser:
+
+```json
+{
+  "must_include_terms": [
+    "testomat",
+    "808",
+    "sio2"
+  ],
+  "must_not_include_terms": [
+    "gerät",
+    "möchte",
+    "messen"
+  ]
+}
+```
+
+`expected_query` nur verwenden, wenn die Query bereits stabil und bewusst exakt sein soll.
+
+---
+
+## C) Follow-up-Case
+
+Follow-up-Cases prüfen, ob RetrieX den Verlauf korrekt nutzt.
+
+Bei `followup` ist **History-JSON praktisch Pflicht**, weil sonst kein echter Verlauf getestet wird.
+
+### Beispiel: Indikatorpreis nach Verlauf
+
+Prompt:
+
+```text
+was kostet der indikator
+```
+
+History-JSON:
+
+```json
+[
+  {
+    "prompt": "Was ist der niedrigste Grenzwert für die Wasserhärte, welcher mit einem Testomaten überwacht werden kann?",
+    "answer": "Der niedrigste Grenzwert für die Wasserhärte beträgt 0,02 °dH. Dieser Wert wird vom Testomat 808 gemessen."
+  },
+  {
+    "prompt": "mit welchem indikator",
+    "answer": "Der niedrigste messbare Grenzwert für Wasserhärte mit dem Testomat 808 wird mit dem Indikatortyp 300 erreicht."
+  }
+]
+```
+
+Assert-JSON:
+
+```json
+{
+  "expected_query": "testomat 808 300 indikator",
+  "must_include_terms": [
+    "testomat",
+    "808",
+    "300",
+    "indikator"
+  ],
+  "must_not_include_terms": [
+    "300 s",
+    "301",
+    "302",
+    "303",
+    "testomat 2000"
+  ]
+}
+```
+
+### Beispiel: Wechsel vom Indikator zurück zum Hauptgerät
+
+Prompt:
+
+```text
+und was kostet das gerät selber
+```
+
+History-JSON:
+
+```json
+[
+  {
+    "prompt": "was kostet der indikator",
+    "answer": "Shop-Suche abgeschlossen. Gesendete Suchquery: testomat 808 300 indikator. Testomat® 808 Indikator 300 500 ml, Produkt-Nummer 141001. Testomat® 808 Indikator 300 2 x 100 ml, Produkt-Nummer 140001. Der zugehörige Testomat ist Testomat 808."
+  }
+]
+```
+
+Assert-JSON:
+
+```json
+{
+  "expected_query": "testomat 808",
+  "must_include_terms": [
+    "testomat",
+    "808"
+  ],
+  "must_not_include_terms": [
+    "indikator",
+    "300",
+    "141001",
+    "140001"
+  ]
+}
+```
+
+### Empfehlung für Follow-up-Cases
+
+Die History sollte genau die Informationen enthalten, die der echte Chat vorher hatte.
+
+Nicht zu wenig:
+
+```text
+Nur "Indikator 300" ohne Geräteanker kann zu unklar sein.
+```
+
+Nicht zu viel:
+
+```text
+Ein kompletter langer Chatverlauf kann den Case unnötig instabil machen.
+```
+
+Gut ist ein kurzer, fachlich relevanter Auszug.
+
+---
+
+## D) Answer-Guard-Case
+
+Answer-Guard-Cases prüfen, dass RetrieX bei Unsinn, schwacher Evidenz oder falschen Zuordnungen nichts erfindet.
+
+### Unsinn soll keine Treffer liefern
+
+Prompt:
+
+```text
+dsgfsdgfsdgf
+```
+
+Assert-JSON:
+
+```json
+{
+  "max_results": 0
+}
+```
+
+### Erfundenes Medium soll nicht als echtes Produkt beantwortet werden
+
+Prompt:
+
+```text
+welcher testomat misst drachenblut
+```
+
+Assert-JSON:
+
+```json
+{
+  "must_not_include_terms": [
+    "drachenblut"
+  ]
+}
+```
+
+### Falsches Dokument darf nicht gezogen werden
+
+```json
+{
+  "min_results": 1,
+  "must_not_include_document_ids": [
+    "FALSCHE-DOKUMENT-ID"
+  ]
+}
+```
+
+### Empfehlung für Answer-Guard-Cases
+
+Bei Answer-Guard-Cases möglichst nicht auf einzelne Wörter im kompletten Retrieval-Text überreagieren. Besser sind:
+
+```text
+Dokument-IDs
+klare Produktnamen
+klare verbotene Zielbegriffe
+max_results bei Unsinn
+```
+
+Ein Wort irgendwo im Retrieval-Kontext ist nicht automatisch ein fachlicher Fehler.
+
+---
+
+# Optionales Feld: History-JSON
+
+History-JSON wird vor allem für `followup` verwendet.
+
+Format:
+
+```json
+[
+  {
+    "prompt": "vorherige Nutzerfrage",
+    "answer": "vorherige Antwort oder relevanter Auszug"
+  }
+]
+```
+
+Mehrere Turns:
+
+```json
+[
+  {
+    "prompt": "erste Frage",
+    "answer": "erste Antwort"
+  },
+  {
+    "prompt": "zweite Frage",
+    "answer": "zweite Antwort"
+  }
+]
+```
+
+Wichtig:
+
+```text
+History-JSON ist ein Array [...]
+Assert-JSON ist ein Objekt {...}
+```
+
+---
+
+# Optionales Feld: Request Context Hint
+
+Dieses Feld kann meistens leer bleiben.
+
+Es ist nur sinnvoll, wenn ein Case zusätzlichen Kontext simulieren soll, der nicht sauber über History abbildbar ist.
+
+Beispiel:
+
+```text
+Sichtbare Shop-Ergebnisse enthalten Testomat 808 und Testomat 808 Indikator 300.
+Der Nutzer fragt nach dem Gerät selber.
+```
+
+Empfehlung:
+
+```text
+Für normale Regressionen lieber History-JSON verwenden.
+Request Context Hint nur für Spezialfälle nutzen.
+```
+
+---
+
+# Vollständiges Beispiel: Follow-up-Gerätepreis
+
+## Eval-Typ
+
+```text
+followup
+```
+
+## Neue Case-ID
+
+```text
+followup_testomat808_main_device_price_002
+```
+
+## Prompt
+
+```text
+und was kostet das gerät selber
+```
+
+## Assert-JSON
+
+```json
+{
+  "expected_query": "testomat 808",
+  "must_include_terms": [
+    "testomat",
+    "808"
+  ],
+  "must_not_include_terms": [
+    "indikator",
+    "300",
+    "141001",
+    "140001"
+  ]
+}
+```
+
+## History-JSON
+
+```json
+[
+  {
+    "prompt": "was kostet der indikator",
+    "answer": "Shop-Suche abgeschlossen. Gesendete Suchquery: testomat 808 300 indikator. Testomat® 808 Indikator 300 500 ml, Produkt-Nummer 141001. Testomat® 808 Indikator 300 2 x 100 ml, Produkt-Nummer 140001. Der zugehörige Testomat ist Testomat 808."
+  }
+]
+```
+
+## Request Context Hint
+
+Leer lassen.
+
+---
+
+# Nach dem Speichern prüfen
+
+Nach dem Speichern sollte der passende Eval-Typ ausgeführt werden.
+
+Im Admin:
+
+```text
+/admin/evals/
+```
+
+Oder per CLI:
+
+```bash
+php bin/console mto:agent:config:validate
+php bin/console mto:agent:eval:run retrieval
+php bin/console mto:agent:eval:run shop_query
+php bin/console mto:agent:eval:run followup
+php bin/console mto:agent:eval:run answer_guard
+```
+
+Für einen einzelnen Typ:
+
+```bash
+php bin/console mto:agent:eval:run followup
+```
+
+---
+
+# Praktische Checkliste
+
+Vor dem Speichern prüfen:
+
+```text
+[ ] Eval-Typ passt zum Ziel
+[ ] Case-ID ist eindeutig
+[ ] Case-ID enthält nur Buchstaben, Zahlen, _ oder -
+[ ] Prompt ist realistisch und exakt
+[ ] Assert-JSON ist gültiges JSON-Objekt
+[ ] History-JSON ist bei Follow-up-Cases vorhanden
+[ ] History-JSON ist gültiges JSON-Array
+[ ] Der Case prüft nur einen klaren Sachverhalt
+[ ] Assertions sind nicht unnötig streng
+[ ] Nach dem Speichern läuft der passende Eval-Typ grün
+```
+
+---
+
+# Wann ein neuer Eval-Case angelegt werden sollte
+
+Ein neuer Case ist sinnvoll, wenn:
+
+```text
+ein realer Prompt rot war
+ein wichtiger grüner Flow dauerhaft abgesichert werden soll
+ein Tippfehler-/Noise-Fall stabil bleiben soll
+eine Produktidentität nicht verloren gehen darf
+eine falsche Dokumentzuordnung verhindert werden soll
+eine No-Answer-Situation nicht halluzinieren darf
+```
+
+Kein neuer Case ist nötig, wenn:
+
+```text
+nur die Formulierung einer Antwort leicht anders war
+der Prompt fachlich nicht relevant ist
+die Erwartung nicht eindeutig definiert werden kann
+der Case mehrere unabhängige Dinge gleichzeitig prüfen würde
+```
+
+---
+
+# Leitlinie
+
+Ab RetrieX v1.6.2 gilt:
+
+```text
+Keine neue Genauigkeitslogik ohne konkreten roten oder fachlich wichtigen Eval-Fall.
+```
+
+Daher sollten neue Optimierungen möglichst immer so ablaufen:
+
+```text
+1. Prompt testen
+2. Verhalten bewerten
+3. Wenn wichtig: Eval-Case anlegen
+4. Eval grün bekommen
+5. Erst danach Logik, YAML oder Parameter ändern
+```
--- a/patch_history/RETRIEX_PATCH_100D_ADMIN_EVAL_PROMPT_CONTEXT_README.md
+++ b/patch_history/RETRIEX_PATCH_100D_ADMIN_EVAL_PROMPT_CONTEXT_README.md
@@ -0,0 +1,44 @@
+# RetrieX Patch p100d – Admin Eval Prompt Context
+
+Status: patch-only follow-up for p100 Admin Eval UX.
+
+## Goal
+
+Make eval results easier to understand in the Admin UI by showing the actual case prompt directly next to the case id. For follow-up and shopquery cases, show a compact history/context preview as well.
+
+## Changes
+
+- Admin eval result table now displays the case prompt below the case id.
+- Follow-up/shopquery eval details now include a compact history preview.
+- Admin eval result table shows history/context in a collapsible section when available.
+
+## Files changed
+
+- `src/Eval/ShopQueryEvalRunner.php`
+- `templates/admin/evals/index.html.twig`
+
+## Non-goals
+
+No production answer logic is changed:
+
+- no retrieval logic changes
+- no shopquery logic changes
+- no follow-up logic changes
+- no answer-guard logic changes
+- no eval assertion changes
+- no YAML or parameter changes
+- no database migration
+
+## Validation
+
+Recommended after applying:
+
+```bash
+php bin/console mto:agent:config:validate
+php bin/console mto:agent:eval:run retrieval
+php bin/console mto:agent:eval:run shop_query
+php bin/console mto:agent:eval:run followup
+php bin/console mto:agent:eval:run answer_guard
+```
+
+Then open `/admin/evals/` and verify that each result row shows the case prompt and that follow-up/shopquery rows can reveal context/history.
--- a/patch_history/RETRIEX_PATCH_101_ADMIN_EVAL_CASE_CREATOR_README.md
+++ b/patch_history/RETRIEX_PATCH_101_ADMIN_EVAL_CASE_CREATOR_README.md
@@ -0,0 +1,66 @@
+# RetrieX Patch p101 - Admin Eval Case Creator
+
+## Ziel
+
+p101 ergänzt die bestehende Admin Eval Suite um einen kleinen Case-Creator, damit neue Regression-Cases direkt aus dem Admin heraus in die passenden NDJSON-Dateien geschrieben werden können.
+
+Der Patch baut auf dem grünen p100/p100a/p100b/p100c/p100d-Stand auf und verändert keine produktive RAG-, Shopquery-, Follow-up- oder Antwortlogik.
+
+## Änderungen
+
+- Neue POST-Route im Admin:
+  - `/admin/evals/case/create`
+  - Route-Name: `admin_evals_case_create`
+- `EvalAdminService::createCase()` zum validierten Schreiben neuer Eval-Cases.
+- Neues Formular auf `/admin/evals/`:
+  - Eval-Typ
+  - Case-ID
+  - Prompt
+  - Assert-JSON
+  - optionales History-JSON
+  - optionaler Request Context Hint
+- Button pro Report-Result:
+  - `Als neuen Case vorbereiten`
+  - übernimmt Prompt, Typ, History-Vorschau, Query oder Dokument-ID als Vorlage in den Creator.
+- JSON-/ID-Validierung vor dem Schreiben.
+- Duplicate-Guard über alle Eval-Typen.
+
+## Geschriebene Dateien
+
+Neue Cases werden an folgende Dateien angehängt:
+
+- `tests/evals/cases/retrieval.ndjson`
+- `tests/evals/cases/shop_query.ndjson`
+- `tests/evals/cases/followup.ndjson`
+- `tests/evals/cases/answer_guard.ndjson`
+
+## Sicherheit / Scope
+
+Nicht geändert:
+
+- keine Retrieval-Gewichte
+- keine Shopquery-Logik
+- keine Follow-up-Logik
+- keine Answer-Guard-Logik
+- keine Prompt-/YAML-/Parameteränderung
+- keine Migration
+
+## Manuelle Prüfung
+
+```bash
+php bin/console mto:agent:config:validate
+php bin/console mto:agent:eval:run retrieval
+php bin/console mto:agent:eval:run shop_query
+php bin/console mto:agent:eval:run followup
+php bin/console mto:agent:eval:run answer_guard
+```
+
+Zusätzlich im Admin:
+
+1. `/admin/evals/` öffnen.
+2. Einen Eval laufen lassen.
+3. Bei einem Result `Als neuen Case vorbereiten` klicken.
+4. Case-ID anpassen bzw. prüfen.
+5. Assert-JSON prüfen.
+6. Speichern.
+7. Den betroffenen Eval-Typ erneut laufen lassen.
--- a/src/Controller/Admin/AdminEvalController.php
+++ b/src/Controller/Admin/AdminEvalController.php
@@ -67,4 +67,45 @@ final class AdminEvalController extends AbstractController
            'type' => $type,
        ]);
    }
+
+    #[Route('/case/create', name: 'admin_evals_case_create', methods: ['POST'])]
+    public function createCase(Request $request, EvalAdminService $evals): Response
+    {
+        $this->denyAccessUnlessGranted(ApplicationRoles::ROLE_KNOWLEDGE_ADMIN);
+
+        if (!$this->isCsrfTokenValid('admin_eval_case_create', (string) $request->request->get('_token'))) {
+            throw $this->createAccessDeniedException();
+        }
+
+        $type = trim((string) $request->request->get('type', 'retrieval'));
+
+        try {
+            $created = $evals->createCase(
+                type: $type,
+                id: (string) $request->request->get('id', ''),
+                prompt: (string) $request->request->get('prompt', ''),
+                assertJson: (string) $request->request->get('assert_json', ''),
+                historyJson: (string) $request->request->get('history_json', ''),
+                requestContextHint: (string) $request->request->get('request_context_hint', ''),
+            );
+
+            $type = (string) ($created['type'] ?? $type);
+
+            $this->addFlash(
+                'success',
+                sprintf('Eval-Case "%s" wurde in %s.ndjson gespeichert.', (string) ($created['id'] ?? ''), $type)
+            );
+        } catch (\Throwable $e) {
+            $this->addFlash('danger', $e->getMessage());
+        }
+
+        if (!in_array($type, $evals->supportedTypeNames(), true)) {
+            $type = 'retrieval';
+        }
+
+        return $this->redirectToRoute('admin_evals_index', [
+            'type' => $type,
+        ]);
+    }
+
 }
--- a/src/Eval/ShopQueryEvalRunner.php
+++ b/src/Eval/ShopQueryEvalRunner.php
@@ -74,6 +74,7 @@ final readonly class ShopQueryEvalRunner
            details: [
                'prompt' => $case->prompt,
                'history_turns' => count($case->history),
+                'history' => $this->buildHistoryPreview($case->history),
                'has_request_context_hint' => $case->requestContextHint !== '',
                'query' => $shopMeta['query'],
                'individual_queries' => $shopMeta['individual_queries'],
@@ -82,6 +83,31 @@ final readonly class ShopQueryEvalRunner
        );
    }

+    /**
+     * @param array<int, array{prompt:string,answer:string}> $history
+     * @return array<int, array{prompt:string,answer_preview:string}>
+     */
+    private function buildHistoryPreview(array $history): array
+    {
+        $preview = [];
+
+        foreach ($history as $turn) {
+            $prompt = trim((string) ($turn['prompt'] ?? ''));
+            $answer = trim((string) ($turn['answer'] ?? ''));
+
+            if ($prompt === '' && $answer === '') {
+                continue;
+            }
+
+            $preview[] = [
+                'prompt' => $prompt !== '' ? $prompt : 'Eval-Kontext',
+                'answer_preview' => $this->previewText($answer, 260),
+            ];
+        }
+
+        return $preview;
+    }
+
    private function buildUserId(EvalCase $case): string
    {
        $safeId = preg_replace('/[^a-zA-Z0-9_-]+/', '_', $case->id) ?? $case->id;
@@ -349,14 +375,15 @@ final readonly class ShopQueryEvalRunner
        return array_values(array_unique($out));
    }

-    private function previewText(string $value): string
+    private function previewText(string $value, int $maxLength = 1200): string
    {
        $value = $this->normalizeOneLine($value);
+        $maxLength = max(40, $maxLength);

-        if (mb_strlen($value, 'UTF-8') <= 1200) {
+        if (mb_strlen($value, 'UTF-8') <= $maxLength) {
            return $value;
        }

-        return rtrim(mb_substr($value, 0, 1200, 'UTF-8')) . '...';
+        return rtrim(mb_substr($value, 0, $maxLength, 'UTF-8')) . '...';
    }
 }
--- a/src/Service/Admin/EvalAdminService.php
+++ b/src/Service/Admin/EvalAdminService.php
@@ -145,6 +145,83 @@ final readonly class EvalAdminService
    }


+    /**
+     * @return array{type:string,id:string,path:string,row:array<string,mixed>,case_count:int}
+     */
+    public function createCase(
+        string $type,
+        string $id,
+        string $prompt,
+        string $assertJson,
+        string $historyJson = '',
+        string $requestContextHint = '',
+    ): array {
+        $type = $this->assertSupportedType($type);
+        $id = $this->normalizeNewCaseId($id);
+        $prompt = trim($prompt);
+        $requestContextHint = trim($requestContextHint);
+
+        if ($prompt === '') {
+            throw new \InvalidArgumentException('Der Eval-Prompt darf nicht leer sein.');
+        }
+
+        if ($this->caseIdExists($id)) {
+            throw new \RuntimeException(sprintf(
+                'Ein Eval-Case mit der ID "%s" existiert bereits. Bitte eine neue ID verwenden.',
+                $id
+            ));
+        }
+
+        $assert = $this->decodeJsonObject($assertJson, 'Assert-JSON');
+        $history = $this->decodeHistoryJson($historyJson);
+
+        $row = [
+            'id' => $id,
+            'type' => $type,
+            'prompt' => $prompt,
+            'assert' => $assert,
+        ];
+
+        if ($history !== []) {
+            $row['history'] = $history;
+        }
+
+        if ($requestContextHint !== '') {
+            $row['request_context_hint'] = $requestContextHint;
+        }
+
+        // Reuse the regular DTO validation before writing the case file.
+        EvalCase::fromArray($row);
+
+        $path = $this->caseFilePath($type);
+        $line = json_encode(
+            $row,
+            JSON_UNESCAPED_UNICODE | JSON_UNESCAPED_SLASHES | JSON_THROW_ON_ERROR
+        );
+
+        $prefix = '';
+        if (is_file($path) && filesize($path) > 0) {
+            $contents = file_get_contents($path);
+            if (is_string($contents) && $contents !== '' && !str_ends_with($contents, "\n")) {
+                $prefix = "\n";
+            }
+        }
+
+        $written = file_put_contents($path, $prefix . $line . PHP_EOL, FILE_APPEND | LOCK_EX);
+        if ($written === false) {
+            throw new \RuntimeException(sprintf('Eval-Case-Datei konnte nicht geschrieben werden: %s', $path));
+        }
+
+        return [
+            'type' => $type,
+            'id' => $id,
+            'path' => $path,
+            'row' => $row,
+            'case_count' => count($this->loadCases($type)),
+        ];
+    }
+
+
    /**
     * @param array<int, EvalCase> $cases
     * @return array<int, EvalCase>
@@ -249,6 +326,123 @@ final readonly class EvalAdminService
        return $decoded;
    }

+
+    private function normalizeNewCaseId(string $id): string
+    {
+        $id = trim($id);
+
+        if ($id === '') {
+            throw new \InvalidArgumentException('Die Eval-Case-ID darf nicht leer sein.');
+        }
+
+        if (preg_match('/^[a-zA-Z0-9][a-zA-Z0-9_-]*$/', $id) !== 1) {
+            throw new \InvalidArgumentException(
+                'Die Eval-Case-ID darf nur Buchstaben, Zahlen, Unterstriche und Bindestriche enthalten und muss mit einem Buchstaben oder einer Zahl beginnen.'
+            );
+        }
+
+        return $id;
+    }
+
+    private function caseIdExists(string $id): bool
+    {
+        foreach (array_keys(self::TYPES) as $type) {
+            foreach ($this->loadCases($type) as $case) {
+                if ($case->id === $id) {
+                    return true;
+                }
+            }
+        }
+
+        return false;
+    }
+
+    /**
+     * @return array<string, mixed>
+     */
+    private function decodeJsonObject(string $json, string $label): array
+    {
+        $json = trim($json);
+
+        if ($json === '') {
+            return [];
+        }
+
+        try {
+            $decoded = json_decode($json, true, 512, JSON_THROW_ON_ERROR);
+        } catch (\JsonException $e) {
+            throw new \InvalidArgumentException(sprintf('%s ist ungültig: %s', $label, $e->getMessage()));
+        }
+
+        if (!is_array($decoded)) {
+            throw new \InvalidArgumentException(sprintf('%s muss ein JSON-Objekt sein.', $label));
+        }
+
+        return $decoded;
+    }
+
+    /**
+     * @return array<int, array{prompt:string,answer:string}>
+     */
+    private function decodeHistoryJson(string $json): array
+    {
+        $json = trim($json);
+
+        if ($json === '') {
+            return [];
+        }
+
+        try {
+            $decoded = json_decode($json, true, 512, JSON_THROW_ON_ERROR);
+        } catch (\JsonException $e) {
+            throw new \InvalidArgumentException(sprintf('History-JSON ist ungültig: %s', $e->getMessage()));
+        }
+
+        if (!is_array($decoded)) {
+            throw new \InvalidArgumentException('History-JSON muss eine JSON-Liste sein.');
+        }
+
+        $history = [];
+
+        foreach ($decoded as $entry) {
+            if (is_string($entry)) {
+                $entry = trim($entry);
+                if ($entry !== '') {
+                    $history[] = [
+                        'prompt' => 'Eval-Kontext',
+                        'answer' => $entry,
+                    ];
+                }
+                continue;
+            }
+
+            if (!is_array($entry)) {
+                continue;
+            }
+
+            $prompt = trim((string) ($entry['prompt'] ?? ''));
+            $answer = trim((string) ($entry['answer'] ?? $entry['response'] ?? $entry['answer_preview'] ?? ''));
+
+            if ($prompt === '' && $answer === '') {
+                continue;
+            }
+
+            $history[] = [
+                'prompt' => $prompt !== '' ? $prompt : 'Eval-Kontext',
+                'answer' => $answer,
+            ];
+        }
+
+        return $history;
+    }
+
+    private function caseFilePath(string $type): string
+    {
+        $type = $this->assertSupportedType($type);
+
+        return sprintf('%s/tests/evals/cases/%s.ndjson', $this->projectDir, $type);
+    }
+
    private function statusFromReport(?array $report): string
    {
        if ($report === null) {
--- a/templates/admin/evals/index.html.twig
+++ b/templates/admin/evals/index.html.twig
@@ -212,6 +212,100 @@
        </div>
    </div>

+
+    <div class="card bg-black border-secondary text-light shadow-sm mb-4" id="adminEvalCaseCreator">
+        <div class="card-body">
+            <div class="d-flex justify-content-between align-items-start flex-wrap gap-2 mb-3">
+                <div>
+                    <h5 class="text-warning mb-1">
+                        <i class="bi bi-plus-square"></i> Eval-Case erstellen
+                    </h5>
+                    <div class="small text-secondary">
+                        Speichert neue Regression-Cases direkt in <code>tests/evals/cases/&lt;type&gt;.ndjson</code>.
+                        Aus Report-Ergebnissen kannst du Prompt, History, Query oder Dokument-IDs als Vorlage übernehmen.
+                    </div>
+                </div>
+            </div>
+
+            <form method="post" action="{{ path('admin_evals_case_create') }}" class="row g-3">
+                <input type="hidden" name="_token" value="{{ csrf_token('admin_eval_case_create') }}">
+
+                <div class="col-md-4">
+                    <label class="form-label">Eval-Typ</label>
+                    <select name="type" class="form-select bg-dark text-light border-secondary js-admin-eval-create-type">
+                        {% for type, label in types %}
+                            <option value="{{ type }}" {% if type == selected_type %}selected{% endif %}>{{ label }}</option>
+                        {% endfor %}
+                    </select>
+                </div>
+
+                <div class="col-md-8">
+                    <label class="form-label">Neue Case-ID</label>
+                    <input type="text"
+                           name="id"
+                           class="form-control bg-dark text-light border-secondary js-admin-eval-create-id"
+                           placeholder="z. B. retrieval_semantic_new_001"
+                           autocomplete="off"
+                           required>
+                    <div class="form-text text-secondary">
+                        Erlaubt: Buchstaben, Zahlen, Unterstrich, Bindestrich. IDs müssen eindeutig sein.
+                    </div>
+                </div>
+
+                <div class="col-12">
+                    <label class="form-label">Prompt</label>
+                    <textarea name="prompt"
+                              rows="2"
+                              class="form-control bg-dark text-light border-secondary js-admin-eval-create-prompt"
+                              placeholder="Testprompt, der abgesichert werden soll"
+                              required></textarea>
+                </div>
+
+                <div class="col-lg-6">
+                    <label class="form-label">Assert-JSON</label>
+                    <textarea name="assert_json"
+                              rows="8"
+                              class="form-control bg-dark text-light border-secondary font-monospace small js-admin-eval-create-assert"
+                              spellcheck="false">{
+  "min_results": 1
+}</textarea>
+                    <div class="form-text text-secondary">
+                        Beispiel: <code>expected_query</code>, <code>must_include_one_of_document_ids</code>, <code>must_not_include_terms</code>.
+                    </div>
+                </div>
+
+                <div class="col-lg-6">
+                    <label class="form-label">Optional: History-JSON</label>
+                    <textarea name="history_json"
+                              rows="8"
+                              class="form-control bg-dark text-light border-secondary font-monospace small js-admin-eval-create-history"
+                              spellcheck="false"
+                              placeholder='[{"prompt":"...","answer":"..."}]'></textarea>
+                    <div class="form-text text-secondary">
+                        Für Follow-up-Cases: Liste vorheriger Chat-Turns mit <code>prompt</code> und <code>answer</code>.
+                    </div>
+                </div>
+
+                <div class="col-12">
+                    <label class="form-label">Optional: Request Context Hint</label>
+                    <textarea name="request_context_hint"
+                              rows="2"
+                              class="form-control bg-dark text-light border-secondary js-admin-eval-create-context"
+                              placeholder="Nur nutzen, wenn ein Case explizit Zusatzkontext braucht."></textarea>
+                </div>
+
+                <div class="col-12 d-flex gap-2 flex-wrap">
+                    <button type="submit" class="btn btn-outline-warning">
+                        <i class="bi bi-save"></i> Case speichern
+                    </button>
+                    <button type="button" class="btn btn-outline-secondary js-admin-eval-create-clear">
+                        Formular leeren
+                    </button>
+                </div>
+            </form>
+        </div>
+    </div>
+
    <div class="card bg-black border-secondary text-light shadow-sm">
        <div class="card-body">
            <div class="d-flex justify-content-between align-items-center flex-wrap gap-2 mb-3">
@@ -281,9 +375,49 @@
                                        <span class="badge bg-danger">FAIL</span>
                                    {% endif %}
                                </td>
-                                <td>
+                                <td style="min-width: 260px;">
                                    <code>{{ result.case_id|default('') }}</code>
-                                    <div class="small text-secondary">{{ result.type|default('') }}</div>
+                                    <div class="small text-secondary mb-2">{{ result.type|default('') }}</div>
+
+                                    {% set casePrompt = result.prompt|default(result.details.prompt|default('')) %}
+                                    {% if casePrompt %}
+                                        <div class="small mb-2">
+                                            <span class="text-secondary">Prompt:</span><br>
+                                            <span class="text-light">{{ casePrompt }}</span>
+                                        </div>
+                                    {% endif %}
+
+                                    {% set historyRows = result.details.history|default([]) %}
+                                    {% if historyRows is not empty %}
+                                        <details class="small">
+                                            <summary class="text-info" style="cursor:pointer;">
+                                                Kontext / History anzeigen
+                                            </summary>
+                                            <div class="mt-2 ps-2 border-start border-secondary">
+                                                {% for turn in historyRows %}
+                                                    <div class="mb-2">
+                                                        <div class="text-secondary">Vorheriger Prompt:</div>
+                                                        <div class="text-light">{{ turn.prompt|default('') }}</div>
+                                                        {% if turn.answer_preview|default('') %}
+                                                            <div class="text-secondary mt-1">Antwort-Auszug:</div>
+                                                            <div class="text-secondary">{{ turn.answer_preview }}</div>
+                                                        {% endif %}
+                                                    </div>
+                                                {% endfor %}
+                                            </div>
+                                        </details>
+                                    {% endif %}
+
+                                    <button type="button"
+                                            class="btn btn-sm btn-outline-warning mt-2 js-admin-eval-prefill-case"
+                                            data-result-type="{{ result.type|default(selected_type)|e('html_attr') }}"
+                                            data-result-prompt="{{ casePrompt|default('')|e('html_attr') }}"
+                                            data-result-history="{{ historyRows|default([])|json_encode|e('html_attr') }}"
+                                            data-result-query="{{ result.details.query|default('')|e('html_attr') }}"
+                                            data-result-individual-queries="{{ result.details.individual_queries|default([])|json_encode|e('html_attr') }}"
+                                            data-result-document-ids="{{ result.details.document_ids|default([])|json_encode|e('html_attr') }}">
+                                        Als neuen Case vorbereiten
+                                    </button>
                                </td>
                                <td style="width: 120px;">
                                    {{ result.duration_ms|default(0) }} ms
@@ -461,6 +595,173 @@
                });
            }

+            const creator = document.getElementById('adminEvalCaseCreator');
+
+            function parseJsonData(value, fallback) {
+                if (!value) {
+                    return fallback;
+                }
+
+                try {
+                    return JSON.parse(value);
+                } catch (error) {
+                    return fallback;
+                }
+            }
+
+            function slugifyPrompt(prompt) {
+                const normalized = (prompt || '')
+                    .toLowerCase()
+                    .normalize('NFD')
+                    .replace(/[\u0300-\u036f]/g, '')
+                    .replace(/ä/g, 'ae')
+                    .replace(/ö/g, 'oe')
+                    .replace(/ü/g, 'ue')
+                    .replace(/ß/g, 'ss')
+                    .replace(/[^a-z0-9]+/g, '_')
+                    .replace(/^_+|_+$/g, '')
+                    .slice(0, 44);
+
+                return normalized || 'case';
+            }
+
+            function buildAssertTemplate(type, query, individualQueries, documentIds) {
+                if ((type === 'shop_query' || type === 'followup') && individualQueries.length > 0) {
+                    return {
+                        expected_individual_queries: individualQueries,
+                        expected_individual_queries_exact: true
+                    };
+                }
+
+                if ((type === 'shop_query' || type === 'followup') && query) {
+                    return {
+                        expected_query: query
+                    };
+                }
+
+                if ((type === 'retrieval' || type === 'answer_guard') && documentIds.length > 0) {
+                    return {
+                        min_results: 1,
+                        must_include_one_of_document_ids: [documentIds[0]]
+                    };
+                }
+
+                if (type === 'answer_guard') {
+                    return {
+                        max_results: 0
+                    };
+                }
+
+                return {
+                    min_results: 1
+                };
+            }
+
+            function normalizeHistoryForForm(historyRows) {
+                return historyRows
+                    .map(function (turn) {
+                        return {
+                            prompt: (turn.prompt || 'Eval-Kontext').trim(),
+                            answer: (turn.answer || turn.response || turn.answer_preview || '').trim()
+                        };
+                    })
+                    .filter(function (turn) {
+                        return turn.prompt !== '' || turn.answer !== '';
+                    });
+            }
+
+            function fillCreatorFormFromResult(button) {
+                if (!creator) {
+                    return;
+                }
+
+                const type = button.dataset.resultType || 'retrieval';
+                const prompt = button.dataset.resultPrompt || '';
+                const history = normalizeHistoryForForm(parseJsonData(button.dataset.resultHistory, []));
+                const query = button.dataset.resultQuery || '';
+                const individualQueries = parseJsonData(button.dataset.resultIndividualQueries, []);
+                const documentIds = parseJsonData(button.dataset.resultDocumentIds, []);
+                const now = new Date();
+                const suffix = String(now.getFullYear()).slice(2)
+                    + String(now.getMonth() + 1).padStart(2, '0')
+                    + String(now.getDate()).padStart(2, '0')
+                    + '_'
+                    + String(now.getHours()).padStart(2, '0')
+                    + String(now.getMinutes()).padStart(2, '0')
+                    + String(now.getSeconds()).padStart(2, '0');
+
+                const typeField = creator.querySelector('.js-admin-eval-create-type');
+                const idField = creator.querySelector('.js-admin-eval-create-id');
+                const promptField = creator.querySelector('.js-admin-eval-create-prompt');
+                const assertField = creator.querySelector('.js-admin-eval-create-assert');
+                const historyField = creator.querySelector('.js-admin-eval-create-history');
+                const contextField = creator.querySelector('.js-admin-eval-create-context');
+
+                if (typeField) {
+                    typeField.value = type;
+                }
+
+                if (idField) {
+                    idField.value = type + '_' + slugifyPrompt(prompt) + '_' + suffix;
+                }
+
+                if (promptField) {
+                    promptField.value = prompt;
+                }
+
+                if (assertField) {
+                    assertField.value = JSON.stringify(
+                        buildAssertTemplate(type, query, individualQueries, documentIds),
+                        null,
+                        2
+                    );
+                }
+
+                if (historyField) {
+                    historyField.value = history.length > 0 ? JSON.stringify(history, null, 2) : '';
+                }
+
+                if (contextField) {
+                    contextField.value = '';
+                }
+
+                creator.scrollIntoView({behavior: 'smooth', block: 'start'});
+            }
+
+            if (creator) {
+                creator.querySelectorAll('.js-admin-eval-create-clear').forEach(function (button) {
+                    button.addEventListener('click', function () {
+                        const idField = creator.querySelector('.js-admin-eval-create-id');
+                        const promptField = creator.querySelector('.js-admin-eval-create-prompt');
+                        const assertField = creator.querySelector('.js-admin-eval-create-assert');
+                        const historyField = creator.querySelector('.js-admin-eval-create-history');
+                        const contextField = creator.querySelector('.js-admin-eval-create-context');
+
+                        if (idField) {
+                            idField.value = '';
+                        }
+                        if (promptField) {
+                            promptField.value = '';
+                        }
+                        if (assertField) {
+                            assertField.value = '{\n  "min_results": 1\n}';
+                        }
+                        if (historyField) {
+                            historyField.value = '';
+                        }
+                        if (contextField) {
+                            contextField.value = '';
+                        }
+                    });
+                });
+            }
+
+            document.querySelectorAll('.js-admin-eval-prefill-case').forEach(function (button) {
+                button.addEventListener('click', function () {
+                    fillCreatorFormFromResult(button);
+                });
+            });
+
            forms.forEach(function (form) {
                syncCaseSelect(form);