Vllm基础
LiuSovia 化神

vllm基础

要求

操作系统:Ubuntu
Python:3.9 - 3.12

安装

使用 Python 进行设置
创建新的 Python 环境
建议使用 uv(一个非常快速的 Python 环境管理器)来创建和管理 Python 环境。请按照文档安装 uv。安装 uv 后,您可以使用以下命令创建新的 Python 环境并安装 vLLM:

1
2
uv venv --python 3.12 --seed
source .venv/bin/activate

您可以使用 pip 或 uv pip 安装 vLLM

1
2
3
4
5
# Install vLLM with CUDA 12.8.
# If you are using pip.
pip install vllm --extra-index-url https://download.pytorch.org/whl/cu128
# If you are using uv.
uv pip install vllm --torch-backend=auto

下载模型

在下载前,请先通过如下命令安装ModelScope

1
pip install modelscope

下载模型到本地(样例:Qwen/Qwen2.5-32B-Instruct-AWQ)
使用魔塔社区进行下载,创建魔塔社区的账号
进入模型库菜单,选择想要下载的模型,点击下载模型按钮,可以看到下载命令,咱们选择SDK下载。
下面是批量下载py脚本,直接进行python run download.py

1
2
3
4
5
6
7
8
9
10
11
12
from modelscope import snapshot_download
# uv 加速
# uv pip install numpy --default-index https://pypi.tuna.tsinghua.edu.cn/simple

# Qwen/Qwen2.5-32B-Instruct-AWQ
# model_dir = snapshot_download('Qwen/Qwen2.5-32B-Instruct-AWQ',cache_dir='/home/user/vllm/models', revision='master')
# Qwen/Qwen2.5-72B-Instruct
# model_dir = snapshot_download('Qwen/Qwen2.5-72B-Instruct',cache_dir='/home/user/vllm/models', revision='master')
# Qwen/Qwen3-Reranker-0.6B 用于文本嵌入和排序任务
model_dir = snapshot_download('Qwen/Qwen3-Reranker-0.6B',cache_dir='/home/user/vllm/models', revision='master')
# Qwen/Qwen3-Embedding-0.6B
# model_dir = snapshot_download('Qwen/Qwen3-Embedding-0.6B',cache_dir='/home/user/vllm/models', revision='master')

等待模型下载完成。

启动本地模型

1
2
3
4
source .venv/bin/activate
vllm serve /home/user/vllm/models/Qwen/Qwen2.5-32B-Instruct-AWQ --served-model-name Qwen2.5-32B-Instruct-AWQ --port 8000 --gpu-memory-utilization 0.55 --api-key token-abc123 &
vllm serve /home/user/vllm/models/Qwen/Qwen3-Reranker-0.6B --served-model-name Qwen3-Reranker-0.6B --port 11530 --gpu-memory-utilization 0.23 &
vllm serve /home/user/vllm/models/Qwen/Qwen3-Embedding-0.6B --served-model-name Qwen3-Embedding-0.6B --port 11520 --gpu-memory-utilization 0.22 &

参数详情:

1
2
3
4
5
served-model-name 模型名称
port 模型端口
gpu-memory-utilization GPU使用量
api-key 模型秘钥
& 后台启动

测试模型

(有秘钥版)

1
2
3
4
5
6
7
8
9
10
11
curl http://192.168.3.52:8000/v1/chat/completions -H "Content-Type: application/json" -H "Authorization: Bearer token-abc123"  -d '{
"model": "Qwen2.5-32B-Instruct-AWQ",
"messages": [
{"role": "system", "content": "You are Qwen, created by Alibaba Cloud. You are a helpful assistant."},
{"role": "user", "content": "Who won the world series in 2020?"}
],
"temperature": 0.7,
"top_p": 0.8,
"repetition_penalty": 1.05,
"max_tokens": 512
}'

(无秘钥版)

1
2
3
4
5
6
7
8
9
10
11
curl http://192.168.3.52:8000/v1/chat/completions -H "Content-Type: application/json"  -d '{
"model": "Qwen2.5-32B-Instruct-AWQ",
"messages": [
{"role": "system", "content": "You are Qwen, created by Alibaba Cloud. You are a helpful assistant."},
{"role": "user", "content": "Who won the world series in 2020?"}
],
"temperature": 0.7,
"top_p": 0.8,
"repetition_penalty": 1.05,
"max_tokens": 512
}'

The End

Vllm官方地址:https://docs.vllm.com.cn/en/latest/index.html

 评论
评论插件加载失败
正在加载评论插件