Files
MtoRagSystem/config/retriex/language.yaml
2026-05-07 18:14:30 +02:00

297 lines
5.4 KiB
YAML
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# Language-level retrieval configuration.
# Defaults are intentionally identical to the previous PHP list.
parameters:
retriex.stopwords.config:
words:
- mit
- der
- die
- das
- ein
- eine
- einer
- eines
- den
- dem
- des
- und
- oder
- aber
- sowie
- ich
- du
- er
- sie
- es
- wir
- ihr
- halt
- eben
- auch
- schon
- noch
- mal
- bitte
- danke
- also
- nun
- tja
- dann
- danach
- davor
- hier
- dort
- heute
- gestern
- morgen
- könnte
- kannst
- kann
- würde
- würdest
- würden
# Central language cleanup structure for RetrieX 1.5.3+.
# Legacy key `words` above remains the runtime-compatible default list.
# Cleanup profiles are the preferred home for generic language noise.
# Domain configs should only keep domain-specific overrides.
protected_terms: []
normalization:
# Generic language normalization tables. Keep these in YAML so PHP code
# executes normalization logic without owning language-specific lists.
ascii_transliteration:
ä: ae
ö: oe
ü: ue
ß: ss
word_separator_chars:
- '-'
- '/'
- '_'
dash_equivalents:
- ''
- ''
- ''
- ''
- '—'
stopword_groups:
de_core:
- der
- beim
- die
- das
- den
- dem
- des
- ein
- eine
- einer
- eines
- dieser
- einen
- einem
- und
- oder
- aber
- sowie
- mit
- für
- fuer
- von
- vom
- im
- in
- nach
- zur
- zum
- ist
- sind
- wird
- werden
- wurde
- kann
- können
- koennen
- kannst
- könnte
- koennte
- würde
- wuerde
- würden
- wuerden
conversation:
- bitte
- mal
- gerne
- gern
- auch
- noch
- nochmal
- dazu
- davon
- also
- danke
pronouns:
- ich
- mir
- mein
- meine
- meinen
- meiner
- meinem
- meines
- seine
- seinen
- seiner
- seinem
- seines
- siene
- sienen
- siener
- sienem
- sienes
user_instruction_terms:
- suche
- such
- suchen
- schaue
- schau
- schauen
- nachschauen
- finde
- find
- finden
- zeige
- zeig
- gebe
- gib
- nenne
- nenn
- empfiehl
- prüfe
- pruefe
response_style:
- antwort
- kurze
- kurz
- zusätzlich
- zusaetzlich
- stattdessen
question_terms:
- welcher
- welches
- welchem
- welchen
- was
- wie
- wo
usage_terms:
- nutzen
- benutzen
- verwenden
- verwende
- nehmen
reference_fillers:
- danach
- damit
- dafür
- dafuer
- hierzu
phrase_groups:
user_instruction:
- ich suche
- suche nach
- zeige mir
- zeig mir
- gib mir
- gebe mir
- nenne mir
- habt ihr
- gibt es
- suche im shop
# Reusable cleanup group sets keep common profile compositions in one place.
# Profiles may still add local group references after these shared sets.
stopword_group_sets:
de_conversation:
- de_core
- conversation
phrase_group_sets:
user_instruction:
- user_instruction
meta_term_groups:
presentation:
- tabelle
- tabellarisch
- liste
- übersicht
- uebersicht
- auflistung
retrieval_reference:
- vorherige
- vorheriger
- nutzerfrage
- aktuelle
- folgefrage
- frage
- antwort
- technische
- referenzanker
- referenzaufloesung
- referenzauflösung
- faktenquelle
cleanup_profiles:
commerce_query:
stopword_group_sets:
- de_conversation
stopword_groups:
- pronouns
- user_instruction_terms
- response_style
phrase_group_sets:
- user_instruction
rag_evidence:
stopword_group_sets:
- de_conversation
stopword_groups:
- user_instruction_terms
retrieval_reference_cleanup:
stopword_group_sets:
- de_conversation
stopword_groups:
- question_terms
meta_term_groups:
- retrieval_reference
shop_context_fallback:
stopword_group_sets:
- de_conversation
stopword_groups:
- pronouns
- user_instruction_terms
- question_terms
- usage_terms
- reference_fillers
- response_style
phrase_group_sets:
- user_instruction
meta_term_groups:
- presentation