nixcfg/systems/x86_64-linux/halo/models.ini

version = 1

[*]
flash-attn          = on
parallel            = 1
jinja               = true
n-gpu-layers        = 99
threads             = 8
ubatch-size         = 512
cache-type-k        = bf16
cache-type-v        = bf16
mmap                = false
no-context-shift    = true
chat-template-kwargs = {"preserve_thinking": true}
fit                 = on
c                   = 131072

[Qwen3.6-27B]
hf                  = unsloth/Qwen3.6-27B-MTP-GGUF:Q6_K
spec-type           = draft-mtp
spec-draft-n-max    = 6
threads-batch       = 16
temp                = 0.6
top-p               = 0.95
top-k               = 20
min-p               = 0.0
parallel            = 2
c                   = 524288
load-on-startup     = true