Files
MtoRagSystem/config/retriex/language.yaml
team 1 a04d371ef3 p43L
2026-05-05 19:22:55 +02:00

296 lines
5.2 KiB
YAML
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# Language-level retrieval configuration.
# Defaults are intentionally identical to the previous PHP list.
parameters:
retriex.stopwords.config:
words:
- mit
- der
- die
- das
- ein
- eine
- einer
- eines
- den
- dem
- des
- und
- oder
- aber
- sowie
- ich
- du
- er
- sie
- es
- wir
- ihr
- halt
- eben
- auch
- schon
- noch
- mal
- bitte
- danke
- also
- nun
- tja
- dann
- danach
- davor
- hier
- dort
- heute
- gestern
- morgen
- könnte
- kannst
- kann
- würde
- würdest
- würden
# Central language cleanup structure for RetrieX 1.5.3+.
# Legacy key `words` above remains the runtime-compatible default list.
# Cleanup profiles are the preferred home for generic language noise.
# Domain configs should only keep domain-specific overrides.
protected_terms:
- nicht
- kein
- keine
- welche
- testomat
- indikator
- indikatortyp
- ph
- rx
- redox
- orp
- th
- tc
- '0,02'
normalization:
# Generic language normalization tables. Keep these in YAML so PHP code
# executes normalization logic without owning language-specific lists.
ascii_transliteration:
ä: ae
ö: oe
ü: ue
ß: ss
word_separator_chars:
- '-'
- '/'
- '_'
dash_equivalents:
- ''
- ''
- ''
- ''
- '—'
stopword_groups:
de_core:
- der
- die
- das
- den
- dem
- des
- ein
- eine
- einer
- eines
- dieser
- einen
- einem
- und
- oder
- aber
- sowie
- mit
- für
- fuer
- von
- vom
- im
- in
- nach
- zur
- zum
- ist
- sind
- wird
- werden
- wurde
- kann
- können
- koennen
- kannst
- könnte
- koennte
- würde
- wuerde
- würden
- wuerden
conversation:
- bitte
- mal
- gerne
- gern
- auch
- noch
- nochmal
- dazu
- davon
- also
- danke
pronouns:
- ich
- mir
- mein
- meine
- meinen
- meiner
- meinem
- meines
- seine
- seinen
- seiner
- seinem
- seines
- siene
- sienen
- siener
- sienem
- sienes
user_instruction_terms:
- suche
- such
- suchen
- finde
- find
- finden
- zeige
- zeig
- gebe
- gib
- nenne
- nenn
- empfiehl
- prüfe
- pruefe
response_style:
- antwort
- kurze
- kurz
- zusätzlich
- zusaetzlich
- stattdessen
question_terms:
- welcher
- welches
- welchem
- welchen
- was
- wie
- wo
usage_terms:
- nutzen
- benutzen
- verwenden
- verwende
- nehmen
reference_fillers:
- danach
- damit
- dafür
- dafuer
- hierzu
phrase_groups:
user_instruction:
- ich suche
- suche nach
- zeige mir
- zeig mir
- gib mir
- gebe mir
- nenne mir
- habt ihr
- gibt es
- suche im shop
meta_term_groups:
presentation:
- tabelle
- tabellarisch
- liste
- übersicht
- uebersicht
- auflistung
retrieval_reference:
- vorherige
- vorheriger
- nutzerfrage
- aktuelle
- folgefrage
- frage
- antwort
- technische
- referenzanker
- referenzaufloesung
- referenzauflösung
- faktenquelle
cleanup_profiles:
commerce_query:
stopword_groups:
- de_core
- conversation
- pronouns
- user_instruction_terms
- response_style
phrase_groups:
- user_instruction
rag_evidence:
stopword_groups:
- de_core
- conversation
- user_instruction_terms
retrieval_reference_cleanup:
stopword_groups:
- de_core
- conversation
- question_terms
meta_term_groups:
- retrieval_reference
shop_context_fallback:
stopword_groups:
- de_core
- conversation
- pronouns
- user_instruction_terms
- question_terms
- usage_terms
- reference_fillers
- response_style
phrase_groups:
- user_instruction
meta_term_groups:
- presentation