vllm基础

要求

操作系统：Ubuntu
Python：3.9 - 3.12

安装

使用 Python 进行设置
创建新的 Python 环境
建议使用 uv（一个非常快速的 Python 环境管理器）来创建和管理 Python 环境。请按照文档安装 uv。安装 uv 后，您可以使用以下命令创建新的 Python 环境并安装 vLLM：

1 2	uv venv --python 3.12 --seed source .venv/bin/activate

您可以使用 pip 或 uv pip 安装 vLLM

# Install vLLM with CUDA 12.8.
# If you are using pip.
pip install vllm --extra-index-url https://download.pytorch.org/whl/cu128
# If you are using uv.
uv pip install vllm --torch-backend=auto

下载模型

在下载前，请先通过如下命令安装ModelScope

1	pip install modelscope

下载模型到本地（样例:Qwen/Qwen2.5-32B-Instruct-AWQ）
使用魔塔社区进行下载，创建魔塔社区的账号
进入模型库菜单，选择想要下载的模型，点击下载模型按钮，可以看到下载命令，咱们选择SDK下载。
下面是批量下载py脚本，直接进行python run download.py

from modelscope import snapshot_download
# uv 加速
# uv pip install numpy --default-index https://pypi.tuna.tsinghua.edu.cn/simple

# Qwen/Qwen2.5-32B-Instruct-AWQ
# model_dir = snapshot_download('Qwen/Qwen2.5-32B-Instruct-AWQ',cache_dir='/home/user/vllm/models', revision='master')
# Qwen/Qwen2.5-72B-Instruct
# model_dir = snapshot_download('Qwen/Qwen2.5-72B-Instruct',cache_dir='/home/user/vllm/models', revision='master')
# Qwen/Qwen3-Reranker-0.6B 用于文本嵌入和排序任务
model_dir = snapshot_download('Qwen/Qwen3-Reranker-0.6B',cache_dir='/home/user/vllm/models', revision='master')
# Qwen/Qwen3-Embedding-0.6B
# model_dir = snapshot_download('Qwen/Qwen3-Embedding-0.6B',cache_dir='/home/user/vllm/models', revision='master')

等待模型下载完成。

启动本地模型

source .venv/bin/activate
vllm serve /home/user/vllm/models/Qwen/Qwen2.5-32B-Instruct-AWQ --served-model-name Qwen2.5-32B-Instruct-AWQ --port 8000 --gpu-memory-utilization 0.55 --api-key token-abc123 &
vllm serve /home/user/vllm/models/Qwen/Qwen3-Reranker-0.6B --served-model-name Qwen3-Reranker-0.6B --port 11530 --gpu-memory-utilization 0.23 &
vllm serve /home/user/vllm/models/Qwen/Qwen3-Embedding-0.6B --served-model-name Qwen3-Embedding-0.6B --port 11520 --gpu-memory-utilization 0.22 &

参数详情:

served-model-name 模型名称
port 模型端口
gpu-memory-utilization GPU使用量
api-key 模型秘钥
& 后台启动

测试模型

(有秘钥版)

curl http://192.168.3.52:8000/v1/chat/completions -H "Content-Type: application/json" -H "Authorization: Bearer token-abc123"  -d '{
  "model": "Qwen2.5-32B-Instruct-AWQ",
  "messages": [
    {"role": "system", "content": "You are Qwen, created by Alibaba Cloud. You are a helpful assistant."},
    {"role": "user", "content": "Who won the world series in 2020?"}
  ],
  "temperature": 0.7,
  "top_p": 0.8,
  "repetition_penalty": 1.05,
  "max_tokens": 512
}'

(无秘钥版)

curl http://192.168.3.52:8000/v1/chat/completions -H "Content-Type: application/json"  -d '{
  "model": "Qwen2.5-32B-Instruct-AWQ",
  "messages": [
    {"role": "system", "content": "You are Qwen, created by Alibaba Cloud. You are a helpful assistant."},
    {"role": "user", "content": "Who won the world series in 2020?"}
  ],
  "temperature": 0.7,
  "top_p": 0.8,
  "repetition_penalty": 1.05,
  "max_tokens": 512
}'

The End

Vllm官方地址:https://docs.vllm.com.cn/en/latest/index.html