add multi model

2026-05-11 20:10:55 +02:00
parent a01ca045dc
commit d497454da1
6 changed files with 271 additions and 16 deletions
--- a/config/retriex/model.yaml
+++ b/config/retriex/model.yaml
@@ -18,3 +18,10 @@ parameters:
  # Hard upper bound for generated output tokens. Prevents runaway repeated answers
  # before they can become very long streamed or blocking responses.
  retriex.llm.num_predict: 2048
  # Optional model override per existing LLM call.
  # null or an empty value keeps the active default model from ModelGenerationConfig.
  retriex.llm.call_models:
    input_normalization: null
    shop_query_optimization: null
    final_answer: null
--- a/config/services.yaml
+++ b/config/services.yaml
@@ -200,6 +200,7 @@ services:
  App\Agent\AgentRunner:
    arguments:
      $llmCallModels: '%retriex.llm.call_models%'
      $debug: '%env(bool:AI_DEBUG)%'
      $logPrompt: '%env(bool:AI_LOG_PROMPT)%'
      $logContext: '%env(bool:AI_LOG_CONTEXT)%'
--- a/patch_history/RETRIEX_PATCH_97_PER_LLM_CALL_MODEL_OVERRIDE_README.md
+++ b/patch_history/RETRIEX_PATCH_97_PER_LLM_CALL_MODEL_OVERRIDE_README.md
@@ -0,0 +1,182 @@
 # RetrieX Patch 97 - Per-LLM-Call Model Override
 ## Ziel
 Dieser Patch ergaenzt eine minimale YAML-Konfiguration, mit der fuer jeden bestehenden LLM-Call optional ein anderes Ollama-Modell angegeben werden kann.
 Der Patch aendert bewusst keine fachliche Logik:
 - keine Aenderung an Retrieval, Scoring oder Ranking
 - keine Aenderung an Shopquery-Guards oder Shop-Matching
 - keine Aenderung an PromptBuilder-Regeln
 - keine neue Admin-Pflege fuer Modellprofile
 - keine neue Routing- oder Multi-Agent-Logik
 Wenn fuer einen Call kein Modell gesetzt ist, nutzt der Call wie bisher das aktive Standardmodell aus `ModelGenerationConfig`.
 ## Neue YAML-Konfiguration
 Datei: `config/retriex/model.yaml`
 ```yaml
 retriex.llm.call_models:
  input_normalization: null
  shop_query_optimization: null
  final_answer: null
 ```
 Beispiel, um Normalisierung und Shopquery-Optimierung ueber ein schnelleres Modell laufen zu lassen:
 ```yaml
 retriex.llm.call_models:
  input_normalization: 'llama3.1'
  shop_query_optimization: 'llama3.1'
  final_answer: null
 ```
 `null` oder ein leerer Wert bedeutet: Standardmodell verwenden.
 ## Geaenderte Dateien
 - `config/retriex/model.yaml`
 - `config/services.yaml`
 - `src/Agent/AgentRunner.php`
 - `src/Infrastructure/OllamaClient.php`
 - `src/Config/RetriexEffectiveConfigProvider.php`
 ## Technische Umsetzung
 ### 1. OllamaClient unterstuetzt optionalen Modellnamen pro Call
 Die bestehenden Methoden akzeptieren nun optional einen Modellnamen:
 ```php
 public function stream(string $prompt, ?string $modelName = null): Generator
 public function generate(string $prompt, ?string $modelName = null): string
 ```
 Der Request-Payload nutzt dann:
 - den uebergebenen Modellnamen, wenn er nicht leer ist
 - sonst das bestehende Standardmodell aus `ModelGenerationConfig`
 Alle sonstigen Optionen wie Temperatur, `top_k`, `top_p`, `repeat_penalty`, `num_ctx` und `num_predict` bleiben unveraendert.
 ### 2. AgentRunner reicht nur den konfigurierten Override weiter
 Die drei bestehenden LLM-Calls wurden minimal erweitert:
 - `input_normalization`
 - `shop_query_optimization`
 - `final_answer`
 Die fachliche Verarbeitung vor und nach diesen Calls bleibt unveraendert.
 ### 3. Effective Config Dump zeigt die Werte an
 `RetriexEffectiveConfigProvider` gibt die neue Konfiguration unter `llm.call_models` aus und validiert sie grob:
 - `llm.call_models` muss eine Map sein
 - Werte muessen `null` oder String sein
 - unbekannte Call-Namen erzeugen nur eine Warnung, keinen Fehler
 ## Bewusst nicht geaendert
 - Keine separaten Modellparameter pro Call.
 - Keine getrennten Timeouts pro Call.
 - Kein JSON-Schema-Output fuer Shopquery.
 - Keine Aenderung daran, wann welcher LLM-Call ausgefuehrt wird.
 - Keine Aenderung an bestehenden Follow-up-, Accessory-, Code- oder Product-Identity-Guards.
 ## Lokale Checks
 Im Patch-Arbeitsverzeichnis ausgefuehrt:
 ```bash
 php -l src/Infrastructure/OllamaClient.php
 php -l src/Agent/AgentRunner.php
 php -l src/Config/RetriexEffectiveConfigProvider.php
 python3 - <<'PY'
 import yaml, pathlib
 for path in pathlib.Path('config/retriex').glob('*.yaml'):
    with path.open(encoding='utf-8') as f:
        yaml.safe_load(f)
 print('all retriex yaml OK')
 PY
 ```
 Nicht lokal ausfuehrbar, weil `vendor/` im ZIP nicht enthalten ist:
 ```bash
 bin/console mto:agent:config:validate
 bin/console mto:agent:regression:test
 bin/console mto:agent:config:audit-source --details
 bin/console mto:agent:config:audit-patterns --details
 ```
 ## Test nach Einspielen
 ### Default-Verhalten
 Mit der ausgelieferten Konfiguration:
 ```yaml
 retriex.llm.call_models:
  input_normalization: null
  shop_query_optimization: null
  final_answer: null
 ```
 Erwartung:
 - Alle LLM-Calls nutzen weiterhin das aktive Standardmodell.
 - Bestehende Regressionen muessen unveraendert gruen bleiben.
 ### Schnelles Modell fuer Shopquery testen
 Konfiguration:
 ```yaml
 retriex.llm.call_models:
  input_normalization: null
  shop_query_optimization: 'llama3.1'
  final_answer: null
 ```
 Erwartung:
 - Nur die Shopquery-Optimierung sendet `model: llama3.1` an Ollama.
 - Die finale Antwort nutzt weiterhin das aktive Standardmodell.
 - Shopquery-Guards und Shop-Ergebnislogik bleiben identisch.
 ### Schnelles Modell fuer Normalisierung und Shopquery testen
 Konfiguration:
 ```yaml
 retriex.llm.call_models:
  input_normalization: 'llama3.1'
  shop_query_optimization: 'llama3.1'
  final_answer: null
 ```
 Erwartung:
 - Input-Normalisierung und Shopquery-Optimierung verwenden `llama3.1`.
 - Die finale Antwort verwendet weiterhin das aktive Standardmodell.
 ### Finalantwort testweise umstellen
 Konfiguration:
 ```yaml
 retriex.llm.call_models:
  input_normalization: null
  shop_query_optimization: null
  final_answer: 'llama3.1'
 ```
 Erwartung:
 - Nur der finale Antwortstream nutzt `llama3.1`.
 - Die restliche Pipeline bleibt unveraendert.
--- a/src/Agent/AgentRunner.php
+++ b/src/Agent/AgentRunner.php
@@ -39,6 +39,7 @@ final readonly class AgentRunner
        private LoggerInterface $agentLogger,
        private AgentRunnerConfig $agentRunnerConfig,
        private LanguageCleanupConfig $languageCleanupConfig,
        private array $llmCallModels,
        private bool $debug,
        private bool $logPrompt,
        private bool $logContext,
@@ -46,6 +47,18 @@ final readonly class AgentRunner
        $this->systemMsgOn = true;
    }
    private function llmCallModel(string $callName): ?string
    {
        $modelName = $this->llmCallModels[$callName] ?? null;
        if (!is_string($modelName)) {
            return null;
        }
        $modelName = trim($modelName);
        return $modelName !== '' ? $modelName : null;
    }
    public function run(string $prompt, string $userId, bool $forceFullContext = false, string $requestContextHint = ''): Generator
    {
        $originalPrompt = trim($prompt);
@@ -973,7 +986,7 @@ final readonly class AgentRunner
        $this->thinkSuppressor->reset();
        try {
-            foreach ($this->ollamaClient->stream($normalizationPrompt) as $token) {
+            foreach ($this->ollamaClient->stream($normalizationPrompt, $this->llmCallModel('input_normalization')) as $token) {
                if (!is_string($token)) {
                    continue;
                }
@@ -1539,7 +1552,7 @@ final readonly class AgentRunner
        $this->thinkSuppressor->reset();
        try {
-            foreach ($this->ollamaClient->stream($shopPrompt) as $token) {
+            foreach ($this->ollamaClient->stream($shopPrompt, $this->llmCallModel('shop_query_optimization')) as $token) {
                if (!is_string($token)) {
                    continue;
                }
@@ -4655,7 +4668,7 @@ final readonly class AgentRunner
        $thinkingNoticeShown = true;
        try {
-            foreach ($this->ollamaClient->stream($finalPrompt) as $token) {
+            foreach ($this->ollamaClient->stream($finalPrompt, $this->llmCallModel('final_answer')) as $token) {
                if (!is_string($token)) {
                    continue;
                }
--- a/src/Config/RetriexEffectiveConfigProvider.php
+++ b/src/Config/RetriexEffectiveConfigProvider.php
@@ -49,6 +49,7 @@ final readonly class RetriexEffectiveConfigProvider
            'llm' => [
                'timeout_seconds' => $this->param('retriex.llm.timeout_seconds'),
                'num_predict' => $this->param('retriex.llm.num_predict'),
                'call_models' => $this->param('retriex.llm.call_models'),
            ],
            'retrieval' => $this->retrievalConfig(),
            'prompt' => $this->promptConfig(),
@@ -85,6 +86,7 @@ final readonly class RetriexEffectiveConfigProvider
        $this->validateRuntime($config['runtime'], $errors, $warnings);
        $this->validateIndex($config['index'], $errors, $warnings);
        $this->validateModel($config['model_generation'], $errors, $warnings);
        $this->validateLlm($config['llm'], $errors, $warnings);
        $this->validateRetrieval($config['retrieval'], $errors, $warnings);
        $this->validatePrompt($config['prompt'], $errors, $warnings);
        $this->validateAgent($config['agent'], $errors, $warnings);
@@ -1714,6 +1716,46 @@ final readonly class RetriexEffectiveConfigProvider
        }
    }
    /**
     * @param array<string, mixed> $llm
     * @param list<string> $errors
     * @param list<string> $warnings
     */
    private function validateLlm(array $llm, array &$errors, array &$warnings): void
    {
        $callModels = $llm['call_models'] ?? [];
        if (!is_array($callModels)) {
            $errors[] = 'llm.call_models must be a map.';
            return;
        }
        $knownCalls = [
            'input_normalization',
            'shop_query_optimization',
            'final_answer',
        ];
        foreach ($callModels as $callName => $modelName) {
            if (!is_string($callName) || trim($callName) === '') {
                $errors[] = 'llm.call_models contains an invalid call name.';
                continue;
            }
            if (!in_array($callName, $knownCalls, true)) {
                $warnings[] = 'llm.call_models contains an unknown call name: ' . $callName . '.';
            }
            if ($modelName !== null && !is_string($modelName)) {
                $errors[] = 'llm.call_models.' . $callName . ' must be null or a string model name.';
                continue;
            }
            if (is_string($modelName) && trim($modelName) === '') {
                $warnings[] = 'llm.call_models.' . $callName . ' is empty and will use the default model.';
            }
        }
    }
    /**
     * @param array<string, mixed> $retrieval
     * @param list<string> $errors
--- a/src/Infrastructure/OllamaClient.php
+++ b/src/Infrastructure/OllamaClient.php
@@ -17,7 +17,7 @@ final class OllamaClient
    private const LOW_SPEED_LIMIT_BYTES = 1;
    private const LOW_SPEED_TIME_SECONDS = 45;
    private ?ModelGenerationConfig $cachedConfig = null;
-    private $config = null;
+    private ?ModelGenerationConfig $config = null;
    public function __construct(
        private string $apiUrl,
@@ -29,33 +29,35 @@ final class OllamaClient
    /**
     * Public Streaming API
     */
-    public function stream(string $prompt): Generator
+    public function stream(string $prompt, ?string $modelName = null): Generator
    {
        $this->config = $this->getConfig();
        if ($this->config->isStream()) {
-            yield from $this->streamInternal($prompt);
+            yield from $this->streamInternal($prompt, $modelName);
            return;
        }
-        // Fallback: Blocking generate → Generator-kompatibel ausgeben
+        // Fallback: Blocking generate with Generator-compatible output
-        yield $this->generateInternal($prompt);
+        yield $this->generateInternal($prompt, $modelName);
    }
    /**
     * Public Blocking API
     */
-    public function generate(string $prompt): string
+    public function generate(string $prompt, ?string $modelName = null): string
    {
-        return $this->generateInternal($prompt);
+        $this->config = $this->getConfig();
        return $this->generateInternal($prompt, $modelName);
    }
    /**
     * Internal streaming transport
     */
-    private function streamInternal(string $prompt): Generator
+    private function streamInternal(string $prompt, ?string $modelName = null): Generator
    {
-        $payload = $this->buildPayload($prompt, true);
+        $payload = $this->buildPayload($prompt, true, $modelName);
        $buffer = '';
        $done = false;
@@ -137,9 +139,9 @@ final class OllamaClient
    /**
     * Internal blocking transport
     */
-    private function generateInternal(string $prompt): string
+    private function generateInternal(string $prompt, ?string $modelName = null): string
    {
-        $payload = $this->buildPayload($prompt, false);
+        $payload = $this->buildPayload($prompt, false, $modelName);
        $ch = curl_init($this->apiUrl);
        if ($ch === false) {
@@ -173,10 +175,18 @@ final class OllamaClient
    /**
     * Central Payload Builder (DRY)
     */
-    private function buildPayload(string $prompt, bool $stream): string
+    private function buildPayload(string $prompt, bool $stream, ?string $modelName = null): string
    {
        $config = $this->getConfig();
        $this->config = $config;
        $effectiveModelName = trim((string) $modelName);
        if ($effectiveModelName === '') {
            $effectiveModelName = $config->getModelName();
        }
        return json_encode([
-            'model' => $this->config->getModelName(),
+            'model' => $effectiveModelName,
            'prompt' => $prompt,
            'stream' => $stream,
            'options' => $this->buildOptions()