MtoRagSystem/config/retriex/model.yaml

# Default model generation values used only when no DB value/user input overrides them.
parameters:
  retriex.model.default_name: 'mto-model'
  retriex.model.default_stream: false
  retriex.model.default_temperature: 0.7
  retriex.model.default_top_k: 20
  retriex.model.default_top_p: 0.1
  retriex.model.default_repeat_penalty: 1.15
  retriex.model.default_num_ctx:  32768
  retriex.model.default_retrieval_max_chunks: 25
  retriex.model.default_retrieval_vector_top_k: 50

  retriex.model.guardrail_min_num_ctx: 1024
  retriex.model.guardrail_max_retrieval_chunks: 200
  retriex.model.guardrail_max_vector_top_k: 200

  retriex.llm.timeout_seconds: 300
  # Hard upper bound for generated output tokens. Prevents runaway repeated answers
  # before they can become very long streamed or blocking responses.
  retriex.llm.num_predict: 2048

  # Optional model override per existing LLM call.
  # null or an empty value keeps the active default model from ModelGenerationConfig.
  retriex.llm.call_models:
    input_normalization: 'llama3.1'
    shop_query_optimization: 'llama3.1'
    final_answer: null