feat(rag): route the fast model and use it for synthesis by default

Expose halo's [fast] MoE preset through the LiteLLM gateway and make it the rag CLI's default chat model (overridable via RAG_CHAT_MODEL), so query synthesis is quicker than the larger coder model.
2026-05-22 09:15:59 +02:00 · 2026-05-22 09:15:59 +02:00 · bc0d79db57
commit bc0d79db57
parent 2b1bba0703
2 changed files with 10 additions and 1 deletions
--- a/packages/rag/default.nix
+++ b/packages/rag/default.nix
@ -27,7 +27,7 @@ writers.writePython3Bin "rag"
    API_KEY = os.environ.get("RAG_API_KEY", "none")
    QDRANT_URL = os.environ.get("RAG_QDRANT_URL", "http://sgx:6333")
    EMBED_MODEL = os.environ.get("RAG_EMBED_MODEL", "bge-m3")
-    CHAT_MODEL = os.environ.get("RAG_CHAT_MODEL", "coder")
+    CHAT_MODEL = os.environ.get("RAG_CHAT_MODEL", "fast")
    DEFAULT_COLLECTION = os.environ.get("RAG_COLLECTION", "docs")

    client = OpenAI(base_url=API_BASE, api_key=API_KEY)