ollama-handoff

Offload cheap work from your AI agent to a local Ollama model, at zero cloud cost.

stdiocommunityinfra

Package Details

Transportstdio

OLLAMA_URL

Default:http://localhost:11434

Base URL of the Ollama server.

OLLAMA_DEFAULT_MODEL

Default:qwen2.5-coder:14b

Default model used for handoffs.

OLLAMA_NUM_CTX

Default:32768

Context window in tokens.

OLLAMA_KEEP_ALIVE

Default:30m

How long to keep the model resident in VRAM.

OLLAMA_TIMEOUT_S

Default:600

Per-request timeout in seconds.