Install
openclaw skills install box-kvcacheLocal KV Cache compression for LLMs using low-rank decomposition and INT8 quantization to reduce GPU memory by 2-4x during inference.
openclaw skills install box-kvcache本地大模型 KV Cache 压缩工具箱 — 基于低秩分解 + INT8 量化原理,帮助你在同等显存下跑更长的上下文、更高的并发。
适用于 Ollama、LocalAI、Text Generation WebUI 等本地 LLM 推理框架。
⚠️ 系统要求:Windows 10+ | Linux/macOS(需 Ollama)| Python 3.8+
| 要求 | 详情 |
|---|---|
| 运行时 | Ollama ≥ 0.1.0 或 llama.cpp |
| Python | 3.8+ |
| 依赖 | numpy, scipy |
| 系统工具 | PowerShell (Windows), bash (Linux/macOS) |
| 可选 | nvidia-smi (用于查看 GPU 显存) |
pip install numpy scipy
# Windows/macOS/Linux
# 详见 https://ollama.com/download
原始 KV Cache (float32) → 低秩分解 → 压缩表示 → INT8量化
↓ ↓
16GB 显存占用 ~4-6GB 显存占用
↓ ↓
└──────────── 推理结束后还原 ────────────┘
| 脚本 | 用途 |
|---|---|
check_env.py | 检测本地 LLM 环境(Ollama llama.cpp) |
quantize_kv.py | KV Cache INT8 量化工具 |
lowrank_compress.py | 低秩分解压缩工具 |
launch_compressed.py | 带压缩参数启动 Ollama |
python scripts/check_env.py
python scripts/check_env.py --verbose
python scripts/launch_compressed.py --model llama3 --context 8192 --compress
| 变量 | 说明 |
|---|---|
OLLAMA_HOST | Ollama 服务地址(默认 127.0.0.1:11434) |
OLLAMA_MODELS | 模型存放路径 |
OLLAMA_KEEP_ALIVE | 模型保留时间 |
黑匣子 @ 主人项目
Last updated: 2026-04-06