MtoRagSystem/CONFIG_PARAMS.md at 734134c20919ed85871223032a9ed2c5b70a058e

Files

team 1 da374edcf4 new config

2026-05-05 09:33:35 +02:00

39 KiB

Raw Blame History

1. `config/retriex/agent.yaml`

YAML-Parameter	Bewirkt
`retriex.agent.config.commerce_history_budget_chars`	Begrenzt, wie viel Chatverlauf für Commerce-/Shop-Kontext in die Query-Auflösung einfließt.
`product_search_knowledge_chunk_limit`	Begrenzt RAG-Chunks bei normalen produktnahen Shop-/Wissensfragen.
`advisory_product_search_knowledge_chunk_limit`	Begrenzt RAG-Chunks bei beratenden Produktauswahlfragen, z. B. „welches Gerät ist geeignet“.
`optimized_shop_query_prefix_pattern`	Entfernt LLM-Ausgabepräfixe wie `query:` oder `keywords:` aus optimierten Shop-Suchqueries.
`optimized_shop_query_trim_characters`	Trimmt unerwünschte Zeichen am Rand optimierter Shop-Queries.
`input_normalization.enabled`	Schaltet die Vor-Normalisierung der Nutzereingabe ein/aus.
`input_normalization.max_input_chars`	Maximale Eingabelänge, die zur Normalisierung geschickt wird.
`input_normalization.max_output_chars`	Maximale akzeptierte Länge der Normalisierungsantwort.
`input_normalization.max_added_tokens`	Verhindert, dass die Normalisierung zu viele neue Wörter hinzufügt.
`input_normalization.max_length_ratio_percent`	Guardrail gegen aufgeblasene Normalisierungsantworten.
`input_normalization.heartbeat_message`	Statusmeldung während der Eingabeoptimierung.
`input_normalization.output_prefix_pattern`	Entfernt Präfixe wie `normalisiert:` aus der Normalisierungsantwort.
`input_normalization.placeholder_outputs`	Erkennt ungültige Platzhalterantworten wie „normalized user input“.
`input_normalization.skip_patterns`	Überspringt Normalisierung bei URLs, Codeblöcken usw.
`input_normalization.prompt.*`	Steuert den Prompt für die LLM-basierte Eingabenormalisierung.
`input_normalization.fuzzy_routing.*`	Steuert Typo-Toleranz für Routingbegriffe wie Shop, Preis, Zubehör, Messgerät.
`follow_up_context.strong_reference_patterns`	Erkennt referenzielle Folgefragen wie „mit welchem Indikator“, „dieser Wert“, „womit“.
`follow_up_context.explicit_commercial_signal_terms`	Erkennt kommerzielle Folgefragen wie Preis, Shop, kaufen, Artikelnummer.
`follow_up_context.commercial_table_follow_up.*`	Erkennt Folgefragen nach Preis-/Shop-Tabellen und baut daraus Shop-Kontextqueries.
`follow_up_context.history_*_pattern`	Extrahiert relevante Vorfragen aus dem Chatverlauf.
`follow_up_context.context_labels.*`	Textbausteine für den intern erzeugten Follow-up-Kontext.
`follow_up_context.reference_anchor.*`	Extrahiert technische Anker wie Testomat-Modell oder Härtewert aus vorherigen Antworten.
`messages.*`	User-/Stream-Statusmeldungen und Fehlertexte im AgentRunner.
`rag_evidence_guard.cleanup_profile`	Wählt das Sprachbereinigungsprofil für RAG-Evidence-Prüfung.
`rag_evidence_guard.stop_terms`	Entfernt irrelevante Wörter aus Evidence-Vergleichen.
`rag_evidence_guard.aggregate_query_patterns`	Erkennt aggregierende Fragen wie „wie viele Geräte“.
`rag_evidence_guard.aggregate_evidence_terms`	Tokens, die bei Aggregatfragen als belastbare Zählinformation gelten.
`rag_evidence_guard.aggregate_answer_evidence_patterns`	Prüft, ob die Antwort wirklich eine belegte Aggregat-/Zählaussage enthält.
`rag_evidence_guard.synonyms`	Fachliche Synonyme für Evidence-Abgleich, z. B. Redox/ORP, Salinität/Salzgehalt.
`no_llm_fallback.max_shop_results`	Begrenzt Shop-Produkte in Fallback-Antworten ohne LLM.
`no_llm_fallback.messages.*`	Vorgefertigte Sicherheits-/Fallbackantworten, wenn LLM, RAG oder Shopdaten fehlen.
`no_llm_fallback.product_fields.*`	Textformatierung für Produktzeilen ohne LLM.
`no_llm_fallback.product_roles.*`	Unterscheidet in Fallbacks Hauptgerät vs. Zubehör.
`production_ui.stage_labels.*`	Statusphasen im Frontend, z. B. „Shop wird durchsucht“.
`production_ui.confidence_labels.*`	Labels für Beleglage/Confidence im UI.
`production_ui.text.*`	UI-Texte für Statuskarten, Shop-Ergebnisse, Metadaten, Hinweise.
`production_ui.templates.*`	Formatvorlagen für Zähler, Hinweise, Relevanztexte.
`production_ui.shop_results.max_cards`	Maximale Anzahl sichtbarer Shopkarten im UI.
`production_ui.follow_up_actions.*`	Folgeaktions-Chips wie „Im Shop suchen“, „Preis anzeigen“.
`source_labels.*`	Quellenlabels wie RAG-Wissen, Chatverlauf, Shopsystem.
`html.*`	HTML-Templates für Badges, Fehler, Think-/Info-Ausgaben.
`shop_prompt.*`	Prompt, Regeln und Kontextlogik für die Shopware-Suchquery-Optimierung.
`shop_prompt.current_input_preservation.*`	Schützt wichtige Begriffe aus der aktuellen Nutzereingabe vor Verlust, z. B. pH/Redox/ORP.
`shop_prompt.context_usage.referential_terms`	Erkennt „suche im Shop“, „dazu“, „davon“ als Kontext-Follow-up.
`shop_prompt.context_anchor_enrichment.*`	Reichert kurze Shop-Folgefragen mit Verlaufankern an.
`shop_prompt.meta_query_guard.*`	Verhindert Meta-Queries wie „suche im Shop“ ohne konkreten Produkt-/Themenanker.
`shop_prompt.language_preservation.*`	Bewahrt Sprache und korrigiert unerwünschte Übersetzungen in Shopqueries.

2. `config/retriex/commerce.yaml`

YAML-Parameter	Bewirkt
`retriex.commerce.enabled`	Schaltet Shop-/Commerce-Anbindung grundsätzlich ein/aus.
`retriex.commerce.max_shop_results`	Maximale Shopware-Trefferzahl.
`retriex.commerce.shop_timeout`	Timeout für Shopware-Anfragen.
`store_api_base_url`	Store-API-Basis-URL.
`sales_channel_access_key`	Store-API-Zugriffsschlüssel.
`retriex.commerce.search_repair.*`	Globale Steuerung, wann und wie viele Repair-Suchqueries nachgeschoben werden.
`retriex.commerce_query.config.cleanup_profile`	Sprachbereinigung für Commerce-Queries.
`known_brands`	Markenbegriffe, die beim Query Parsing als Produkt-/Modellkontext erhalten bleiben.
`phrases_to_remove`	Entfernt Bedienphrasen aus Shop-Suchqueries.
`filter_search_tokens`	Entfernt irrelevante Suchtokens.
`search_control_tokens`	Tokens zur Steuerung von Suchabsicht, nicht als Produktinhalt.
`search_token_corrections`	Korrigiert bekannte Tippfehler.
`search_token_canonical_map`	Vereinheitlicht Varianten, z. B. Plural/Singular oder Englisch/Deutsch.
`semantic_shop_search_tokens`	Erlaubt semantische Shop-Suche auch bei indirekter Produktsprache.
`normalization.*`	Regex-Normalisierung für Commerce-Query-Text.
`text.trim_characters`	Zeichen, die aus Suchtexten am Rand entfernt werden.
`limits.*`	Tokenlängen, Modellkontextfenster, maximale Shop-Suchtoken.
`patterns.*`	Regex-Logik für Preise, Modellnummern, Zubehörmuster, History-Kontext, Tokenisierung.
`commerce_reference_resolver.conversation_product_patterns`	Findet Produkte/Modelle im Chatverlauf.
`commerce_reference_resolver.focus_term_patterns`	Erkennt Fokusbegriffe wie Indikator, Reagenz, Zubehör.
`shop_matching.top_product_log_limit`	Begrenzt Logging/Debug-Ausgabe für Top-Shopprodukte.
`shop_matching.vocabulary_views`	Bindet zentrale `vocabulary.yaml`-Views an Shop-Matching.
`shop_matching.role_guard.*`	Steuert Gerät/Zubehör-Filterung bei Device-Queries.
`shop_matching.scores.*`	Gewichtung für Shop-Ranking: Produktnummer, Name, Hersteller, Token-Overlap, Rollenbonus/-penalty.
`shop_matching.patterns.*`	Normalisierung/Tokenisierung für Matching.
`shop_matching.price.*`	Preisformatierung und Preisnormalisierung.
`shop_matching.custom_fields.*`	Mapped Shopware-Custom-Fields auf Metadaten.
`shop_matching.text.*`	Textformatierung für Custom-Field-Ausgabe.
`shop_matching.description.*`	Beschreibungscleanup und Längenlimit.
`shop_matching.seo.relative_prefix`	URL-/SEO-Pfadbehandlung.
`shop_matching.highlight.*`	Highlighttexte für Verfügbarkeit und Produktnummer.
`shop_matching.image.missing_placeholder`	Placeholder für fehlende Produktbilder.
`shop_matching.deduplication.separator`	Key-Separator für Shop-Deduplizierung.

3. `config/retriex/governance.yaml`

YAML-Parameter	Bewirkt
`regression_baseline.*`	Definiert geschützte Regressionstokens und Pflichtmarker für bekannte stabile Fälle.
`vocabulary.protected_short_model_tokens`	Schützt kurze Modell-/Fachtokens vor falscher Cleanup-Entfernung.
`language.protected_stopword_terms`	Begriffe, die trotz Stopword-Logik nicht entfernt werden dürfen.
`language.required_cleanup_profiles`	Pflichtprofile, die in `language.yaml` existieren müssen.
`language.required_profile_terms`	Pflichtbegriffe je Cleanup-Profil, z. B. für Regression Guardrails.
`core_pattern_audit.*`	Steuert Audit auf verdächtige hardcodierte Listen/Patterns im PHP-Core.

4. `config/retriex/index.yaml`

YAML-Parameter	Bewirkt
`chunk_size`	Standardgröße für Wissenschunks beim Indexing.
`chunk_overlap`	Überlappung zwischen Chunks.
`embedding_model`	Fallback-/Metadatenmodell für Embeddings.
`embedding_dimension`	Erwartete Embedding-Dimension.
`scoring_version`	Versionierung des Scoring-/Indexformats.
`index_format`	Indexformat, aktuell NDJSON.
`vector_backend`	Vector-Backend, aktuell FAISS.

5. `config/retriex/intent.yaml`

YAML-Parameter	Bewirkt
`intent.commerce.strong_signals`	Starke Shop-/Produktabsicht.
`non_product_commerce_signals`	Kommerzsignale, die nicht automatisch Produktsuche bedeuten.
`advisory_signals`	Beratungssignale wie Empfehlung/Eignung.
`advisory_product_selection_patterns`	Muster für Produktauswahlfragen.
`price_terms`, `color_terms`, `size_*`	Preis-, Farb- und Größenintents.
`support_diagnostic_patterns`	Trennt Support-/Diagnosefragen von Shopfragen.
`explicit_commerce_intent_patterns`	Explizite Commerce-Absichten.
`technical_factual_knowledge.*`	Erkennt technische Wissensfragen, die nicht als reine Shopfrage behandelt werden sollen.
`patterns.*`	Regex für SKU, Preis, Größe, Farbe, Modellprodukte.
`labels.*`	Interne Intent-Signallabels.
`scores.*`	Gewichtung der Intent-Signale.
`intent.catalog.*`	Schwellenwerte für Katalog-/Listenintents.
`intent.light.quantity_words`	Mengen-/Listenwörter für leichte Intent-Erkennung.
`intent.light.strong_patterns`	Starke Listen-/Mengenmuster.
`intent.sales.*`	Erkennt Sales-, Vergleichs-, Einwand-, Implementierungs- und ROI-Fragen.

6. `config/retriex/language.yaml`

YAML-Parameter	Bewirkt
`words`	Legacy-/Basis-Stopwords.
`protected_terms`	Begriffe, die nie generisch entfernt werden sollen.
`normalization.ascii_transliteration`	Zentrale Umlaut-/ASCII-Normalisierung.
`normalization.word_separator_chars`	Zeichen, die als Worttrenner normalisiert werden.
`normalization.dash_equivalents`	Unicode-Dash-/Bindestrich-Normalisierung.
`stopword_groups.de_core`	Allgemeine deutsche Stopwords.
`stopword_groups.conversation`	Dialog-/Bedienwörter wie „bitte“, „mal“.
`stopword_groups.pronouns`	Pronomen für Referenz-/Cleanup-Logik.
`stopword_groups.user_instruction_terms`	Bedienphrasen-Tokens wie „zeige“, „suche“.
`stopword_groups.response_style`	Präsentations-/Antwortstilwörter.
`stopword_groups.question_terms`	Fragewörter für Cleanup.
`stopword_groups.usage_terms`	generische Nutzungs-/Anwendungswörter.
`stopword_groups.reference_fillers`	Füllwörter bei Folgefragen.
`phrase_groups.user_instruction`	Ganze Bedienphrasen, die aus Queries entfernt werden können.
`meta_term_groups.presentation`	Präsentationswörter wie Tabelle, Liste, Übersicht.
`meta_term_groups.retrieval_reference`	Meta-Wörter für Retrieval-Referenzen.
`cleanup_profiles.commerce_query`	Cleanup-Profil für Shop-/Commerce-Queries.
`cleanup_profiles.rag_evidence`	Cleanup-Profil für RAG-Evidence-Prüfung.
`cleanup_profiles.retrieval_reference_cleanup`	Cleanup-Profil für Retrieval-Referenzauflösung.
`cleanup_profiles.shop_context_fallback`	Cleanup-Profil für Shop-Follow-up-Kontextfallback.

7. `config/retriex/model.yaml`

YAML-Parameter	Bewirkt
`default_name`	Standard-LLM-Modellname.
`default_stream`	Standard-Streamingverhalten.
`default_temperature`	Kreativität/Varianz der Modellantwort.
`default_top_k`	Sampling-Top-K.
`default_top_p`	Sampling-Top-P.
`default_repeat_penalty`	Wiederholungsstrafe.
`default_num_ctx`	Standard-Kontextfenster.
`default_retrieval_max_chunks`	Standardanzahl RAG-Chunks.
`default_retrieval_vector_top_k`	Standardanzahl Vector-Kandidaten.
`guardrail_min_num_ctx`	Untergrenze für Kontextfenster.
`guardrail_max_retrieval_chunks`	Obergrenze für Chunk-Anzahl.
`guardrail_max_vector_top_k`	Obergrenze für Vector-Kandidaten.
`retriex.llm.timeout_seconds`	Timeout für LLM-Aufrufe.

8. `config/retriex/prompt.yaml`

YAML-Parameter	Bewirkt
`budget.*`	Promptbudget, Outputreserve und Sicherheitsreserve.
`shop_results.*`	Wie Shopprodukte in den LLM-Prompt geschrieben werden.
`shop_results.fields.*`	Feldlabels für Produktnummer, Preis, Hersteller, Rollenkompatibilität usw.
`technical_product_keyword_match_threshold`	Schwelle, ab wann technische Produktfrage erkannt wird.
`technical_product_keywords`	Technische Produktbegriffe für Promptlogik.
`accessory_request_keywords`	Erkennt Zubehöranfragen.
`sections.*`	Überschriften der Promptsektionen.
`conversation_context.intro_lines`	Regeln für Chatverlauf im Prompt.
`shop_search.source_line`	Quellenzeile für Shop-Suchquery.
`role_guard.*`	Gerät/Zubehör-Rollenprüfung im Prompt.
`measurement_evidence_guard.*`	Schutz gegen falsche Eignungsaussagen bei Messparametern.
`measurement_evidence_guard.rule_templates.*`	konkrete Regeltexte für Evidence-Prüfung.
`output_priority.*`	Prioritätsregeln für Antwortaufbau.
`fallback_escalation.*`	Regeln je Confidence-/Evidence-State.
`parameter_parsing.split_pattern`	Trennt mehrere Parameter wie „pH und Redox“.
`parameter_parsing.trim_characters`	Trimmt Parameterwerte.
`response_format.*`	Antwortformat-Regeln mit/ohne Shopdaten.
`language.rules`	Sprachregeln für die Modellantwort.
`fact_grounding.*`	Fact-Grounding-Regeln, besonders gegen Halluzinationen.
`retrieved_knowledge.source_line`	Quellenzeile für Dokumentwissen.
`url_content.source_line`	Quellenzeile für URL-Inhalte.
`technical_product_model_pattern`	Regex zur Erkennung technischer Produktmodelle.

9. `config/retriex/query_enrichment.yaml`

YAML-Parameter	Bewirkt
`max_expansions`	Maximale Anzahl Query-Erweiterungen.
`rules.*`	Synonym-/Erweiterungsregeln für Retrieval, z. B. Wasserhärte → Resthärte.

10. `config/retriex/retrieval.yaml`

YAML-Parameter	Bewirkt
`hard_max_chunks`	Harte Obergrenze zurückgegebener Chunks.
`hard_max_vectork`	Harte Obergrenze Vector-Kandidaten.
`hard_max_keywordk`	Harte Obergrenze Keyword-Kandidaten.
`vector_score_threshold`	Mindestscore für Vector-Treffer.
`threshold_floor`, `threshold_ceil`	Dynamischer Score-Korridor.
`list_bonus`	Bonus für Listen-/Tabellenrelevanz.
`rrf_k`	RRF-Fusionsparameter.
`keyword_topk_multiplier`	Multiplikator für Keyword-Retrieval-Kandidaten.
`keyword_score_threshold`	Mindestscore Keyword-Treffer.
`keyword_rrf_weight`	Gewichtung Keyword-RRF.
`scoped_vector_rrf_weight`	Gewichtung fokussierter Vector-Treffer.
`scoped_keyword_rrf_weight`	Gewichtung fokussierter Keyword-Treffer.
`empty_rrf_fallback_topn`	Fallback, wenn Fusion leer läuft.
`max_chunks_per_doc`	Maximalzahl Chunks pro Dokument.
`min_chunk_distance`	Mindestabstand zwischen Chunks.
`dominant_doc_*`	Logik zur Dominanz eines Dokuments in den Treffern.
`exact_document_max_chunks`	Maximalchunks bei exaktem Dokumentfokus.
`focused_product_*`	Fokuslogik für ein klar erkanntes Produkt/Gerät.
`catalog_list_shortcut_patterns`	Erkennt Katalog-/Listenfragen.
`exact_selection_*`	Präzisionslogik für Tabellen/Indikatoren/Grenzwerte.
`exact_detail_tokens`	Detailfrage-Tokens für gezielte Retrievalauswahl.
`generic_exact_selection_cleanup_profile`	Cleanup-Profil für generische exakte Auswahl.
`generic_product_tokens`	Allgemeine Produkttokens fürs Retrieval.
`important_short_model_tokens`	Geschützte kurze Modell-/Fachtokens wie pH/RX/TC.
`family_descriptor_tokens`	Produktfamilien-/Gerätebeschreibungen.
`looks_like_reagent_*`	Erkennung von Reagenz-/Indikator-Dokumenten.
`looks_like_safety_*`	Erkennung von Sicherheitsdatenblättern.
`looks_like_document_words`	Dokumenttyp-Erkennung.
`looks_like_device_words`	Geräte-/Device-Erkennung.
`retriex.retrieval.inventory`	Alias auf die effektive Retrieval-Konfiguration.

11. `config/retriex/runtime.yaml`

YAML-Parameter	Bewirkt
`retriex.root`	Projektwurzel.
`retriex.knowledge.root`	Basisverzeichnis der Wissensdaten.
`retriex.knowledge.ndjson`	Haupt-Wissensindex.
`retriex.knowledge.index_meta`	Metadaten des Wissensindex.
`retriex.knowledge.vector_index`	FAISS-Vectorindex für Chunks.
`retriex.knowledge.vector_index_meta`	Metadaten zum Chunk-Vectorindex.
`retriex.knowledge.runtime_meta`	Runtime-/Indexstatus-Datei.
`retriex.knowledge.upload`	Upload-Verzeichnis.
`retriex.knowledge.tags_ndjson`	Tag-Indexdaten.
`retriex.knowledge.vector_tags_index`	FAISS-Vectorindex für Tags.
`retriex.knowledge.vector_tags_index_meta`	Metadaten zum Tag-Vectorindex.
`retriex.locks.dir`	Lock-Verzeichnis.
`retriex.tags.rebuild_lock`	Lock-Datei für Tag-Rebuild.
`retriex.context.config.max_visible_regular_lines`	Sichtbare Kontextzeilen im Admin-/Debug-Kontext.
`retriex.context.config.max_full_lines`	Maximale vollständige Kontextzeilen.

12. `config/retriex/search_repair.yaml`

YAML-Parameter	Bewirkt
`strict_requested_accessory_code_repair`	Erzwingt präzisere Repair-Logik bei angefragtem Zubehörcode.
`prefer_prompt_anchored_model_for_requested_accessory_code`	Bevorzugt Modellanker aus Prompt/Verlauf bei Zubehörcode-Repair.
`requested_accessory_code_fallback_query_templates`	Fallback-Query-Templates für Zubehörcodes.
`requested_accessory_code_fallback_terms`	Begriffe für Zubehörcode-Erkennung.
`requested_accessory_code_context_prefix_terms`	Kontextpräfixe für Zubehörcode-Suche.
`requested_accessory_code_proximity_window`	Zeichenfenster für Nähe zwischen Modell und Zubehörcode.
`specific_model_candidate_patterns`	Regex für Modellkandidaten.
`model_candidate_exclude_terms`	Ausschlussbegriffe für falsche Modellkandidaten.
`limits.top_product_log_limit`	Debug-/Loglimit für Topprodukte.
`sanitize_trim_character_codes`	Zeichen-Codes für Query-Sanitizing.
`product_key_separator`	Separator für Produkt-Dedupe-/Keybildung.
`scores.*`	Scoring für Repair-Kandidaten, Prompt-Match, Query-Overlap, Spezifität.
`patterns.*`	Regex-Templates für Modell-, Zubehör-, Bundle- und Token-Erkennung.

13. `config/retriex/vector.yaml`

YAML-Parameter	Bewirkt
`vector.script_dir`	Verzeichnis der Python-Vector-Skripte.
`python_bin`	Python-Binary für Vector-Tools.
`control_script`	Vector-Service-Control-Skript.
`ingest_script`	Chunk-Vector-Ingest-Skript.
`search_script`	Chunk-Vector-Search-Skript.
`ingest_tags_script`	Tag-Vector-Ingest-Skript.
`search_tags_script`	Tag-Vector-Search-Skript.
`host`, `port`, `service_url`	Vector-Service-Erreichbarkeit.
`timeout`	Timeout für Vector-Prozesse.
`vector.search.*`	Score-/Limit-/HTTP-Timeout für Chunk-Vector-Suche.
`vector.tags.*`	Score-/Limit-/HTTP-Timeout für Tag-Vector-Suche.
`vector.tag_routing.*`	Tag-basierte Dokumentvorauswahl: TopK, Mindestscore, Score-Drop, Kandidatenlimit, Multi-Tag-Bonus.

14. `config/retriex/vocabulary.yaml`

YAML-Parameter	Bewirkt
`classes.device`	Zentrale Gerätebegriffe.
`classes.accessory`	Zentrale Zubehör-/Verbrauchsmaterialbegriffe.
`views.shop.device_query`	Gerätebegriffe für Shop-Queries.
`views.shop.accessory_query`	Zubehörbegriffe für Shop-Queries.
`views.shop.accessory_product`	Zubehörerkennung in Shop-Produkten.
`views.shop.device_product`	Geräteerkennung in Shop-Produkten.
`views.shop.device_focus`	Fokusbegriffe für Geräteanfragen.
`views.shop.accessory_focus`	Fokusbegriffe für Zubehöranfragen.
`views.retrieval.*`	Vocabulary-Projektionen für Retrieval-Listen wie Reagenz, Safety, Device, Dokument.
`views.search_repair.*`	Vocabulary-Projektionen für Repair-Kandidaten und Spezifitätsboost.
`views.prompt.*`	Vocabulary-Projektionen für PromptBuilder-Keywords.
`maps.shop.accessory_focus_variants`	Variantenmapping für Zubehörfokus, z. B. unterschiedliche Schreibweisen.

1. Wichtigste Stellschrauben für Antwortqualität

Datei	Parameter / Bereich	Wirkung
`config/retriex/prompt.yaml`	`retriex.prompt.config.budget.*`	Steuert Prompt-Budget, Historie, Output-Reserve und Sicherheitsreserve. Wichtig, wenn Antworten Quellen verlieren oder zu wenig Kontext bekommen.
`prompt.yaml`	`retriex.prompt.config.shop_results.max_results_in_prompt`	Anzahl der Shop-Treffer, die überhaupt ins LLM-Prompt gelangen. Sehr wichtiger Hebel für Shop-Antworten.
`prompt.yaml`	`retriex.prompt.config.shop_results.detailed_max_count`	Wie viele Shop-Treffer detailliert in den Prompt geschrieben werden.
`prompt.yaml`	`retriex.prompt.config.shop_results.header_lines`	Regeln, wie das LLM Shopdaten behandeln darf. Wichtig gegen Vermischung von Gerät/Zubehör/Preis/URL.
`prompt.yaml`	`retriex.prompt.config.technical_product_keyword_match_threshold`	Schwelle, ab wann eine Anfrage als technische Produktfrage behandelt wird.
`prompt.yaml`	`retriex.prompt.config.technical_product_keywords`	Begriffe für technische Antwortlogik.
`prompt.yaml`	`retriex.prompt.config.accessory_request_keywords`	Begriffe für Zubehör-/Indikator-/Reagenzfragen.
`prompt.yaml`	`retriex.prompt.config.role_guard.*`	Gerät-vs-Zubehör-Abgrenzung im Prompt. Sehr wichtig gegen falsche Produkttypen.
`prompt.yaml`	`retriex.prompt.config.measurement_evidence_guard.*`	Messparameter-Beweislogik, z. B. pH, Redox, freies Chlor. Wichtig gegen erfundene Eignungen.
`prompt.yaml`	`retriex.prompt.config.measurement_evidence_guard.parameters[]`	Konkrete Messparameter mit `request_terms`, `positive_terms`, `negative_context_terms`, `non_equivalent_terms`. Sehr direkter Qualitätshebel.
`prompt.yaml`	`retriex.prompt.config.output_priority.*`	Priorität der Antwort: fachliche Fakten, Shopdaten, technische Regeln.
`prompt.yaml`	`retriex.prompt.config.numeric_value_focus.*`	Verhalten bei niedrigstem/höchstem Grenzwert, exakten Zahlenwerten, Messbereichen.
`prompt.yaml`	`retriex.prompt.config.fallback_escalation.*`	Was bei unsicherer Evidenz, fehlenden Daten oder nur semantischen Treffern gesagt werden darf.
`prompt.yaml`	`retriex.prompt.config.response_format.*`	Struktur der Antwort, Shop-/Nicht-Shop-Regeln, Zubehörregeln.
`prompt.yaml`	`retriex.prompt.config.fact_grounding.*`	Regeln gegen Halluzination, falsche Kombination von Quellen und falsche Shop-/RAG-Vermischung.
`prompt.yaml`	`retriex.prompt.config.language.rules`	Sprachverhalten der Antwort.
`prompt.yaml`	`retriex.prompt.config.parameter_parsing.*`	Zerlegung von Messparametern wie pH/Redox/Chlor.
`config/retriex/model.yaml`	`retriex.model.default_temperature`	Kreativität. Für technische Antworten eher niedrig halten.
`model.yaml`	`retriex.model.default_top_k`	Sampling-Breite des LLM.
`model.yaml`	`retriex.model.default_top_p`	Nucleus-Sampling.
`model.yaml`	`retriex.model.default_repeat_penalty`	Wiederholungsverhalten.
`model.yaml`	`retriex.model.default_num_ctx`	Kontextfenster. Wichtig bei langen RAG-/Shop-Prompts.
`model.yaml`	`retriex.model.default_retrieval_max_chunks`	Default-Anzahl genutzter Chunks.
`model.yaml`	`retriex.model.default_retrieval_vector_top_k`	Default-Vektor-Kandidatenzahl.

2. Wichtigste Stellschrauben für RAG-Suchergebnisse

Datei	Parameter / Bereich	Wirkung
`config/retriex/retrieval.yaml`	`retriex.retrieval.config.hard_max_chunks`	Maximale Chunks in der finalen Auswahl. Einer der wichtigsten Antwort-/Kontexthebel.
`retrieval.yaml`	`hard_max_vectork`	Maximale Vektor-Kandidaten.
`retrieval.yaml`	`hard_max_keywordk`	Maximale Keyword-Kandidaten.
`retrieval.yaml`	`vector_score_threshold`	Mindestscore für Vektortreffer.
`retrieval.yaml`	`threshold_floor` / `threshold_ceil`	Dynamischer Score-Korridor.
`retrieval.yaml`	`list_bonus`	Bonus für Listen-/Tabellenähnliche Treffer. Wichtig für Produktlisten/Grenzwerte.
`retrieval.yaml`	`rrf_k`	Stärke des Reciprocal-Rank-Fusion-Verhaltens.
`retrieval.yaml`	`keyword_topk_multiplier`	Erweitert Keyword-Kandidatenset.
`retrieval.yaml`	`keyword_score_threshold`	Mindestscore für Keyword-Treffer.
`retrieval.yaml`	`keyword_rrf_weight`	Gewichtung Keyword-Treffer gegen Vektortreffer.
`retrieval.yaml`	`scoped_vector_rrf_weight`	Gewichtung scoped Vector Retrieval.
`retrieval.yaml`	`scoped_keyword_rrf_weight`	Gewichtung scoped Keyword Retrieval.
`retrieval.yaml`	`empty_rrf_fallback_topn`	Fallback, wenn RRF leer bleibt.
`retrieval.yaml`	`max_chunks_per_doc`	Verhindert, dass ein Dokument zu stark dominiert.
`retrieval.yaml`	`min_chunk_distance`	Abstand zwischen Chunks desselben Dokuments.
`retrieval.yaml`	`dominant_doc_window`, `dominant_doc_min_hits`, `dominant_doc_max_chunks`	Dominantes Dokument erkennen und begrenzen/gewichten.
`retrieval.yaml`	`exact_document_max_chunks`	Maximalzahl bei exakter Dokumentfokussierung.
`retrieval.yaml`	`focused_product_window`, `focused_product_min_score`, `focused_product_min_gap`, `focused_product_max_chunks`	Produktfokus-Logik. Kritisch für Testomat-/Indikator-Fälle.
`retrieval.yaml`	`catalog_list_shortcut_patterns`	Erkennung von Listen-/Katalogfragen.
`retrieval.yaml`	`exact_selection_*`	Exakte Auswahlfragen, z. B. Indikator/Grenzwert/Messbereich/Testomat.
`retrieval.yaml`	`exact_detail_tokens`	Detailfrage-Erkennung.
`retrieval.yaml`	`generic_exact_selection_cleanup_profile`	Cleanup-Profil für exakte Auswahl.
`retrieval.yaml`	`generic_product_tokens`	Generische Produktbegriffe, die beim Retrieval anders behandelt werden.
`retrieval.yaml`	`important_short_model_tokens`	Geschützte Kurzmodell-/Parameter-Tokens wie `pH`, `TH`, `RX`. Sehr wichtig.
`retrieval.yaml`	`family_descriptor_tokens`	Produktfamilien-Zusätze wie EVO/ECO/PLUS usw.
`retrieval.yaml`	`looks_like_reagent_`, `looks_like_safety_`, `looks_like_document_`, `looks_like_device_`	Dokument-/Produktrollen-Erkennung im Retrieval.
`config/retriex/vector.yaml`	`retriex.vector.search.min_score`	Mindestscore der Vektorsuche.
`vector.yaml`	`retriex.vector.search.max_limit`	Maximal abrufbare Vektortreffer.
`vector.yaml`	`retriex.vector.tags.min_score`	Mindestscore Tag-Suche.
`vector.yaml`	`retriex.vector.tags.default_limit` / `max_limit`	Anzahl Tag-Treffer.
`vector.yaml`	`retriex.vector.tag_routing.default_topk`	Top-K für Tag-Routing.
`vector.yaml`	`retriex.vector.tag_routing.min_best_score`	Mindestscore für beste Tag-Zuordnung.
`vector.yaml`	`retriex.vector.tag_routing.max_score_drop_from_best`	Wie stark schlechtere Tags noch mitgenommen werden.
`vector.yaml`	`retriex.vector.tag_routing.max_routing_tags`	Maximal verwendete Routing-Tags.
`vector.yaml`	`retriex.vector.tag_routing.max_candidate_docs`	Maximal aus Tags abgeleitete Kandidatendokumente.
`vector.yaml`	`multi_tag_bonus_per_extra_tag`, `max_multi_tag_bonus`	Bonus für mehrere passende Tags.
`config/retriex/index.yaml`	`retriex.index.chunk_size`	Chunk-Größe beim Ingest. Nur nach Reindex wirksam.
`index.yaml`	`retriex.index.chunk_overlap`	Chunk-Überlappung. Nur nach Reindex wirksam.
`index.yaml`	`retriex.index.embedding_model`	Embedding-Modell. Sehr großer Hebel, aber nur mit Reindex.
`index.yaml`	`retriex.index.embedding_dimension`	Passend zum Embedding-Modell.
`config/retriex/query_enrichment.yaml`	`retriex.query_enrichment.config.max_expansions`	Maximale Query-Erweiterungen.
`query_enrichment.yaml`	`retriex.query_enrichment.config.rules.*`	Synonym-/Erweiterungsregeln, z. B. Wasserhärte → Resthärte.

3. Shop-Suche und Shop-Ranking

Datei	Parameter / Bereich	Wirkung
`config/retriex/commerce.yaml`	`retriex.commerce.max_shop_results`	Maximale Shop-Treffer aus Shopware.
`commerce.yaml`	`retriex.commerce.search_repair.enabled`	Erweiterte Shop-Suche aktivieren/deaktivieren.
`commerce.yaml`	`retriex.commerce.search_repair.max_queries`	Anzahl Repair-Suchqueries.
`commerce.yaml`	`retriex.commerce.search_repair.min_primary_results_without_repair`	Ab wann keine Repair-Suche nötig ist.
`commerce.yaml`	`retriex.commerce_query.config.cleanup_profile`	Language-Cleanup-Profil für Shopqueries.
`commerce.yaml`	`retriex.commerce_query.config.known_brands`	Markenerkennung.
`commerce.yaml`	`phrases_to_remove`	Entfernt unnötige Phrasen aus Shopqueries.
`commerce.yaml`	`filter_search_tokens`	Entfernt irrelevante Tokens aus Shopqueries.
`commerce.yaml`	`search_control_tokens`	Tokens, die Shop-/Suchabsicht anzeigen.
`commerce.yaml`	`search_token_corrections`	Tippfehlerkorrekturen für Shopquery.
`commerce.yaml`	`search_token_canonical_map`	Vereinheitlichung von Tokens, z. B. indicators → indikator.
`commerce.yaml`	`semantic_shop_search_tokens`	Produkt-/Zubehörbegriffe für semantische Shop-Suche.
`commerce.yaml`	`limits.max_shop_search_tokens`	Maximale Tokenzahl der Shopquery.
`commerce.yaml`	`limits.direct_product_max_tokens`	Begrenzung direkter Produktsuchen.
`commerce.yaml`	`patterns.*`	Regex-Erkennung für Preis, Modell, Zubehör, Historienbezug, Messwerte.
`commerce.yaml`	`retriex.commerce_reference_resolver.config.conversation_product_patterns`	Produktanker aus dem Chatverlauf.
`commerce.yaml`	`retriex.commerce_reference_resolver.config.focus_term_patterns`	Fokusbegriffe wie Indikator, Reagenz, Zubehör, Filter.
`commerce.yaml`	`retriex.shop_matching.config.vocabulary_views.*`	Verknüpfung zu Vocabulary-Listen für Geräte-/Zubehörrollen.
`commerce.yaml`	`retriex.shop_matching.config.role_guard.*`	Zubehör bei Gerätefragen filtern oder ambigue Treffer behalten.
`commerce.yaml`	`retriex.shop_matching.config.scores.*`	Direktes Shop-Ranking: Produktnummer, Name, Hersteller, Token-Overlap, Größenmatch, Verfügbarkeit, Geräte-/Zubehörbonus/-Penalty.
`commerce.yaml`	`retriex.shop_matching.config.description.max_length`	Länge der Shopbeschreibung im Such-/Promptkontext.
`commerce.yaml`	`retriex.shop_matching.config.deduplication.separator`	Dedupe-Key-Aufbau.
`config/retriex/search_repair.yaml`	`strict_requested_accessory_code_repair`	Strenge Repair-Logik für angefragte Zubehörcodes.
`search_repair.yaml`	`prefer_prompt_anchored_model_for_requested_accessory_code`	Modellanker aus Prompt bevorzugen.
`search_repair.yaml`	`direct_product_attribute_lookup.*`	Direkte Attributsuchen wie „Anschlusskabel pH/Redox länger 20m“.
`search_repair.yaml`	`requested_accessory_code_*`	Fallback-Queries und Kontextfenster für Indikator-/Reagenz-Codes.
`search_repair.yaml`	`specific_model_candidate_patterns`	Modellkandidaten-Erkennung.
`search_repair.yaml`	`model_candidate_exclude_terms`	Ausschlussbegriffe für falsche Modellanker.
`search_repair.yaml`	`scores.*`	Gewichtung der Repair-Rankinglogik.
`search_repair.yaml`	`patterns.*`	Regex-Erkennung für Modelle, Zubehörcodes, Zubehör-/Bundle-Begriffe.
`config/retriex/agent.yaml`	`retriex.agent.config.product_search_knowledge_chunk_limit`	Anzahl Knowledge-Chunks bei Produktsuche.
`agent.yaml`	`advisory_product_search_knowledge_chunk_limit`	Knowledge-Chunks bei beratender Produktsuche.
`agent.yaml`	`commerce_history_budget_chars`	Wie viel Verlauf für Commerce-Kontext genutzt wird.
`agent.yaml`	`shop_prompt.*`	LLM-Regeln zur Erzeugung der Shop-Suchquery. Sehr wichtiger Hebel.
`agent.yaml`	`shop_prompt.current_input_preservation.*`	Bewahrt aktuelle Eingabetokens wie pH/Redox/ORP.
`agent.yaml`	`shop_prompt.product_attribute_query_cleanup.*`	Cleanup für direkte Attribut-/Zubehörsuchen.
`agent.yaml`	`shop_prompt.context_anchor_enrichment.*`	Ergänzt Shopquery aus Verlaufskontext.
`agent.yaml`	`shop_prompt.meta_query_guard.*`	Löst „suche im shop“ über Verlauf auf.
`agent.yaml`	`shop_prompt.rag_anchor_enrichment.*`	Reichert Shopquery mit RAG-Produktankern an, z. B. bei exakten Messwerten.
`agent.yaml`	`shop_prompt.language_preservation.*`	Verhindert unerwünschte Übersetzung in Shopqueries.

4. Intent- und Routing-Optimierung

Datei	Parameter / Bereich	Wirkung
`config/retriex/intent.yaml`	`retriex.intent.commerce.config.strong_signals`	Starke Shop-/Commerce-Signale.
`intent.yaml`	`non_product_commerce_signals`	Commerce-Signale ohne Produktsuche.
`intent.yaml`	`advisory_signals`	Beratungssignale.
`intent.yaml`	`advisory_product_selection_patterns`	Muster für Produktauswahlfragen.
`intent.yaml`	`price_terms`, `color_terms`, `size_*`	Preis-/Farb-/Größenfilter-Erkennung.
`intent.yaml`	`support_diagnostic_patterns`	Support-/Diagnosefragen abgrenzen.
`intent.yaml`	`explicit_commerce_intent_patterns`	Explizite Shopabsicht.
`intent.yaml`	`technical_factual_knowledge.*`	Erkennung technischer Wissensfragen, damit nicht alles in Shoplogik läuft.
`intent.yaml`	`scores.*`	Gewichtung von Commerce-/Advisory-/SKU-/Preis-/Modell-Signalen.
`intent.yaml`	`retriex.intent.catalog.config.*`	Tag-/Katalogintent-Schwellen: `min_score`, `ambiguity_delta`, Limits.
`intent.yaml`	`retriex.intent.light.config.*`	Leichte Listen-/Mengenfrage-Erkennung.
`intent.yaml`	`retriex.intent.sales.config.*`	Sales-/ROI-/Vergleichs-/Einwand-Intent.
`agent.yaml`	`input_normalization.*`	Vor-Normalisierung der Nutzereingabe.
`agent.yaml`	`input_normalization.fuzzy_routing.*`	Tippfehlerrobustes Routing für Shop-/Produkt-/Messbegriffe.
`agent.yaml`	`follow_up_context.strong_reference_patterns`	Folgefrage-Erkennung.
`agent.yaml`	`follow_up_context.explicit_commercial_signal_terms`	Folgefrage wird zu Shop-/Preis-/Commerce-Kontext.
`agent.yaml`	`follow_up_context.commercial_table_follow_up.*`	Tabellen-/Preisfolgefragen.
`agent.yaml`	`follow_up_context.reference_anchor.*`	Verlaufanker wie Testomat-Modell oder Härtewert.

5. Sprachbereinigung und Vocabulary

Datei	Parameter / Bereich	Wirkung
`config/retriex/language.yaml`	`retriex.stopwords.config.words`	Allgemeine Stopwords.
`language.yaml`	`protected_terms`	Begriffe, die niemals generisch entfernt werden dürfen. Sehr wichtig für `pH`, `RX`, `TH`, `0,02`, Testomat usw.
`language.yaml`	`normalization.*`	Umlaut-/ASCII-/Separator-/Dash-Normalisierung.
`language.yaml`	`stopword_groups.*`	Sprach-, Dialog-, Pronomen-, Frage- und Bedienwörter.
`language.yaml`	`phrase_groups.user_instruction`	Entfernt Phrasen wie „ich suche“, „zeige mir“.
`language.yaml`	`meta_term_groups.*`	Präsentations-/Meta-Begriffe wie Tabelle, Liste, Übersicht.
`language.yaml`	`cleanup_profiles.commerce_query`	Cleanup für Shopqueries.
`language.yaml`	`cleanup_profiles.rag_evidence`	Cleanup für RAG-Evidenzprüfung.
`language.yaml`	`cleanup_profiles.retrieval_reference_cleanup`	Cleanup für Retrieval-Referenzen.
`language.yaml`	`cleanup_profiles.shop_context_fallback`	Cleanup für Verlauf-Fallback bei Shop-Folgefragen.
`config/retriex/vocabulary.yaml`	`classes.device`	Zentrale Gerätebegriffe.
`vocabulary.yaml`	`classes.accessory`	Zentrale Zubehörbegriffe.
`vocabulary.yaml`	`views.shop.device_query`	Begriffe für Geräte-Shopqueries.
`vocabulary.yaml`	`views.shop.accessory_query`	Begriffe für Zubehör-Shopqueries.
`vocabulary.yaml`	`views.shop.accessory_product`	Erkennung von Zubehörprodukten.
`vocabulary.yaml`	`views.shop.device_product`	Erkennung von Geräteprodukten.
`vocabulary.yaml`	`views.shop.device_focus`	Fokus auf Geräte.
`vocabulary.yaml`	`views.shop.accessory_focus`	Fokus auf Zubehör.
`vocabulary.yaml`	`views.retrieval.*`	Retrieval-Vokabular: generische Produkttokens, Kurzmodell-Tokens, Reagenz-/Safety-/Device-Erkennung.
`vocabulary.yaml`	`views.search_repair.*`	Vocabulary für Search-Repair und direkte Produktsuchen.
`vocabulary.yaml`	`views.prompt.technical_product_keywords`	Prompt-Vocabulary für technische Fragen.
`vocabulary.yaml`	`views.prompt.accessory_request_keywords`	Prompt-Vocabulary für Zubehörfragen.
`vocabulary.yaml`	`maps.shop.accessory_focus_variants`	Varianten/Normalisierung von Zubehörfokusbegriffen.

6. Sekundär relevant, aber nicht primär zum Tuning

Datei	Parameter / Bereich	Einschätzung
`config/retriex/governance.yaml`	`retriex.governance.config.regression_baseline.*`	Nicht direkt zur Antwortoptimierung, sondern Schutz gegen Regressionen. Nur ändern, wenn Tests/Guardrails bewusst angepasst werden.
`governance.yaml`	`core_pattern_audit.*`	Developer-/Audit-Regeln, keine direkte Suchqualität.
`config/retriex/runtime.yaml`	`retriex.context.config.max_visible_regular_lines`, `max_full_lines`	Kann beeinflussen, wie viel Kontext sichtbar/ausgegeben wird, aber kein primärer Rankinghebel.
`runtime.yaml`	Pfade zu Knowledge/Index/Locks	Infrastruktur, nicht Antwortqualität.
`config/retriex/vector.yaml`	Host, Port, Script-Pfade, Timeouts	Betrieb/Performance, nicht fachliche Qualität.
`config/retriex/commerce.yaml`	`shop_timeout`, API-URL, Access-Key	Verfügbarkeit/Performance der Shopdaten, nicht Rankingqualität.
`config/retriex/agent.yaml`	`messages`, `production_ui`, `source_labels`, `html`	UX-/Anzeige-Texte, nicht fachliche Antwortoptimierung.

Empfohlene Tuning-Reihenfolge

Für bessere Suchergebnisse zuerst retrieval.yaml, vector.yaml, query_enrichment.yaml, language.yaml und vocabulary.yaml anfassen.

Für bessere Shop-Suche zuerst agent.yaml → shop_prompt.*, dann commerce.yaml → commerce_query.* / shop_matching.*, danach search_repair.yaml.

Für bessere Antwortqualität zuerst prompt.yaml → fact_grounding, measurement_evidence_guard, output_priority, numeric_value_focus, response_format, danach model.yaml.

39 KiB Raw Blame History

1. config/retriex/agent.yaml

2. config/retriex/commerce.yaml

3. config/retriex/governance.yaml

4. config/retriex/index.yaml

5. config/retriex/intent.yaml

6. config/retriex/language.yaml

7. config/retriex/model.yaml

8. config/retriex/prompt.yaml

9. config/retriex/query_enrichment.yaml

10. config/retriex/retrieval.yaml

11. config/retriex/runtime.yaml

12. config/retriex/search_repair.yaml

13. config/retriex/vector.yaml

14. config/retriex/vocabulary.yaml