在 GPU 服务器上部署 LLM 模型服务(vLLM)。支持多服务器配置,自动检查 GPU 和端口占用,一键部署流行的开源大语言模型。
在 GPU 服务器上快速部署 vLLM 模型服务。
创建 ~/.config/llm-deploy/servers.json:
json
{
servers: {
gpu1: {
host: gpu1,
user: lnsoft,
gpu_count: 4,
model_path: /data/models/llm
},
my-gpu: {
host: 192.168.1.100,
user: ubuntu,
gpu_count: 2,
model_path: /home/ubuntu/models
}
},
default_server: gpu1
}
bash
bash
检查 GPU 显存和端口占用情况。
bash
llm-deploy check [--server NAME] [--port PORT]
输出示例:
✅ GPU 状态正常
✅ 端口 8111 可用
启动 vLLM 模型服务。
bash
llm-deploy deploy
支持的模型:
bash
llm-deploy list
bash
llm-deploy ps [--server NAME]
bash
llm-deploy stop [--server NAME] [--port PORT]
如果不想用封装脚本,也可以直接用原始命令:
bash
ssh
bash
ssh
bash
ssh
source /data/miniconda3/etc/profile.d/conda.sh && \
conda activate vllm && \
cd /data/models/llm && \
vllm serve /data/models/llm/deepseek/DeepSeek-R1-Distill-Qwen-32B-AWQ/ \
--tensor-parallel-size 4 \
--max-model-len 102400 \
--dtype half \
--port 8111 \
--served-model-name gpt-4o-mini
📦 添加自定义模型
在 ~/.config/llm-deploy/models.json 中添加:
json
{
my-model: {
name: My Awesome Model,
path: /path/to/model,
tensorparallelsize: 2,
maxmodellen: 8192,
dtype: half,
port: 8111,
servedmodelname: my-model
}
}
该技能支持在以下平台通过对话安装:
帮我安装 SkillHub 和 llm-deploy-1776113403 技能
设置 SkillHub 为我的优先技能安装源,然后帮我安装 llm-deploy-1776113403 技能
skillhub install llm-deploy-1776113403
文件大小: 3.11 KB | 发布时间: 2026-4-15 13:15