Install
openclaw skills install llm-deploy在 GPU 服务器上部署 LLM 模型服务(vLLM)。支持多服务器配置,自动检查 GPU 和端口占用,一键部署流行的开源大语言模型。
openclaw skills install llm-deploy在 GPU 服务器上快速部署 vLLM 模型服务。
创建 ~/.config/llm-deploy/servers.json:
{
"servers": {
"gpu1": {
"host": "gpu1",
"user": "lnsoft",
"gpu_count": 4,
"model_path": "/data/models/llm"
},
"my-gpu": {
"host": "192.168.1.100",
"user": "ubuntu",
"gpu_count": 2,
"model_path": "/home/ubuntu/models"
}
},
"default_server": "gpu1"
}
# 使用默认服务器
llm-deploy check
# 指定服务器
llm-deploy check --server gpu1
# 部署预设模型
llm-deploy deploy deepseek-r1-32b
# 指定端口
llm-deploy deploy deepseek-r1-32b --port 8112
check - 检查服务器状态检查 GPU 显存和端口占用情况。
llm-deploy check [--server NAME] [--port PORT]
输出示例:
✅ GPU 状态正常
- 4 × Tesla T4 (15GB)
- 显存占用: 12.6GB/卡
- 温度: 51-55°C
✅ 端口 8111 可用
deploy - 部署模型启动 vLLM 模型服务。
llm-deploy deploy <MODEL_NAME> [--server NAME] [--port PORT]
支持的模型:
deepseek-r1-32b - DeepSeek-R1-Distill-Qwen-32B-AWQllama-3-8b - Llama 3 8Bqwen-7b - Qwen 7Bmistral-7b - Mistral 7Blist - 列出可用模型llm-deploy list
ps - 查看运行中的服务llm-deploy ps [--server NAME]
stop - 停止服务llm-deploy stop [--server NAME] [--port PORT]
如果不想用封装脚本,也可以直接用原始命令:
ssh <user>@<host> nvidia-smi
ssh <user>@<host> "lsof -i :<port> 2>/dev/null || echo '端口可用'"
ssh <user>@<host> "tmux new-session -d -s vllm '
source /data/miniconda3/etc/profile.d/conda.sh && \
conda activate vllm && \
cd /data/models/llm && \
vllm serve /data/models/llm/deepseek/DeepSeek-R1-Distill-Qwen-32B-AWQ/ \
--tensor-parallel-size 4 \
--max-model-len 102400 \
--dtype half \
--port 8111 \
--served-model-name gpt-4o-mini
'"
在 ~/.config/llm-deploy/models.json 中添加:
{
"my-model": {
"name": "My Awesome Model",
"path": "/path/to/model",
"tensor_parallel_size": 2,
"max_model_len": 8192,
"dtype": "half",
"port": 8111,
"served_model_name": "my-model"
}
}
check 确认资源可用由 OpenClaw 社区贡献 🦞