Files
MtoRagSystem/config/retriex/language.yaml
team 1 ebd71ba748 p38
2026-05-04 18:46:26 +02:00

305 lines
5.4 KiB
YAML
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# Language-level retrieval configuration.
# Defaults are intentionally identical to the previous PHP list.
parameters:
retriex.stopwords.config:
words:
- mit
- der
- die
- das
- ein
- eine
- einer
- eines
- den
- dem
- des
- und
- oder
- aber
- sowie
- ich
- du
- er
- sie
- es
- wir
- ihr
- halt
- eben
- auch
- schon
- noch
- mal
- bitte
- danke
- also
- nun
- tja
- dann
- danach
- davor
- hier
- dort
- heute
- gestern
- morgen
- könnte
- kannst
- kann
- würde
- würdest
- würden
# Central language cleanup structure for RetrieX 1.5.3+.
# Legacy key `words` above remains the runtime-compatible default list.
# Cleanup profiles are the preferred home for generic language noise.
# Domain configs should only keep domain-specific overrides.
protected_terms:
- nicht
- kein
- keine
- welche
- testomat
- indikator
- indikatortyp
- ph
- rx
- redox
- orp
- th
- tc
- '0,02'
normalization:
# Generic language normalization tables. Keep these in YAML so PHP code
# executes normalization logic without owning language-specific lists.
ascii_transliteration:
ä: ae
ö: oe
ü: ue
ß: ss
word_separator_chars:
- '-'
- '/'
- '_'
dash_equivalents:
- ''
- ''
- ''
- ''
- '—'
stopword_groups:
de_core:
- der
- die
- das
- den
- dem
- des
- ein
- eine
- einer
- eines
- dieser
- einen
- einem
- und
- oder
- aber
- sowie
- mit
- für
- fuer
- von
- vom
- im
- in
- nach
- zur
- zum
- ist
- sind
- wird
- werden
- wurde
- kann
- können
- koennen
- kannst
- könnte
- koennte
- würde
- wuerde
- würden
- wuerden
conversation:
- bitte
- mal
- gerne
- gern
- auch
- noch
- nochmal
- dazu
- davon
- also
- danke
pronouns:
- ich
- mir
- mein
- meine
- meinen
- meiner
- meinem
- meines
- seine
- seinen
- seiner
- seinem
- seines
- siene
- sienen
- siener
- sienem
- sienes
user_instruction_terms:
- suche
- such
- suchen
- finde
- find
- finden
- zeige
- zeig
- gebe
- gib
- nenne
- nenn
- empfiehl
- prüfe
- pruefe
response_style:
- antwort
- kurze
- kurz
- zusätzlich
- zusaetzlich
- stattdessen
question_terms:
- welcher
- welches
- welchem
- welchen
- was
- wie
- wo
usage_terms:
- nutzen
- benutzen
- verwenden
- verwende
- nehmen
reference_fillers:
- danach
- damit
- dafür
- dafuer
- hierzu
phrase_groups:
user_instruction:
- ich suche
- suche nach
- zeige mir
- zeig mir
- gib mir
- gebe mir
- nenne mir
- habt ihr
- gibt es
- suche im shop
meta_term_groups:
presentation:
- tabelle
- tabellarisch
- liste
- übersicht
- uebersicht
- auflistung
retrieval_reference:
- vorherige
- vorheriger
- nutzerfrage
- aktuelle
- folgefrage
- frage
- antwort
- technische
- referenzanker
- referenzaufloesung
- referenzauflösung
- faktenquelle
cleanup_profiles:
commerce_query:
stopword_groups:
- de_core
- conversation
- pronouns
- user_instruction_terms
- response_style
phrase_groups:
- user_instruction
protected_term_groups:
- protected_terms
rag_evidence:
stopword_groups:
- de_core
- conversation
- user_instruction_terms
protected_term_groups:
- protected_terms
retrieval_reference_cleanup:
stopword_groups:
- de_core
- conversation
- question_terms
meta_term_groups:
- retrieval_reference
protected_term_groups:
- protected_terms
shop_context_fallback:
stopword_groups:
- de_core
- conversation
- pronouns
- user_instruction_terms
- question_terms
- usage_terms
- reference_fillers
- response_style
phrase_groups:
- user_instruction
meta_term_groups:
- presentation
protected_term_groups:
- protected_terms