LlamaParams

Per-model llama-server load parameters (the Model Hub “Load settings” panel). Absent fields fall back to the server’s own defaults.

Properties

optional batchSize?: number

optional cacheTypeK?: string

optional cacheTypeV?: string

optional ctxSize?: number

optional enableThinking?: boolean

Reasoning models only: false disables thinking (faster, less memory).

optional flashAttn?: boolean

optional mlock?: boolean

optional mmap?: boolean

optional nGpuLayers?: number

optional parallel?: number

optional seed?: number

optional threads?: number