基于VLLM的压测

1. 传统深度学习 9

1.1 基础概念 5

1.1.1 训练基础 1

loss、梯度、参数、优化器 2026-05-30

1.1.2 模型训练流程 1

深度学习模型完整流程 2026-05-30

1.1.3 激活函数 1

激活函数理解 2026-05-30

1.1.4 正则化 1

正则化技术 2026-05-30

1.1.5 知识蒸馏 1

知识蒸馏——黑盒_白盒 2026-05-30

1.2 序列模型 3

1.2.1 RNN / LSTM 1

RNN、LSTM学习 2026-05-30

1.2.2 xLSTM 2

xLSTM-mLSTM 2026-05-30
xLSTM算法 2026-05-30

1.3 工程实践 1

1.3.1 PyTorch 1

pytorch维度转换 2026-05-30

4. 强化学习与对齐 6

4.1 偏好优化 1

4.1.1 DPO 1

DPO（todo） 2026-05-30

4.2 策略优化 3

4.2.1 GRPO 1

GRPO（todo） 2026-05-30

4.2.2 PPO 2

PPO 2026-05-30
PPO 2026-05-30

4.3 价值学习 2

4.3.1 Q-learning 2

Q-learning 2026-05-30
Q-learning 2026-05-30

6. 热点问题分析 1

6.1 模型输出异常 1

6.1.1 输出异常分析 1

MM模型无法输出`嘉祺`的解析 2026-05-30

7. 算法与面试 1

7.1 算法面试 1

7.1.1 算法面试 1

算法面试问题 2026-05-30

基于VLLM的压测

日期 2026-05-30

分类 2. 大模型技术 /2.5 推理与部署 /2.5.5 推理压测

标签

正文

VLLM部署

启动方法：

CUDA_VISIBLE_DEVICES=1 vllm serve /home/worker/models/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B –port 10001 –host 0.0.0.0 –dtype half –max-model-len 11000 –max-num-batched-tokens 11000 –max-num-seqs 8 –gpu-memory-utilization 0.9 –disable-log-requests –served-model-name ds-qwen3-8b

使用Github的VLLM项目进行压测

VLLM项目中自带 benchmark。

GPT给的最小可行方案（基于随机文本）：

python benchmarks/benchmark_serving.py –model ds-qwen3-8b –host 127.0.0.1 –port 10001 –tokenizer /home/worker/models/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B –dataset-name random –random-input-len 512 –random-output-len 512 –num-prompts 100 –max-concurrency 8 –seed 42

============ Serving Benchmark Result ============

Successful requests: 100

Maximum request concurrency: 8

Benchmark duration (s): 114.51

Total input tokens: 50999

Total generated tokens: 34814

Request throughput (req/s): 0.87

Output token throughput (tok/s): 304.02

Total Token throughput (tok/s): 749.37

—————Time to First Token—————-

Mean TTFT (ms): 201.15

Median TTFT (ms): 160.06

P99 TTFT (ms): 815.86

—–Time per Output Token (excl. 1st token)——

Mean TPOT (ms): 25.16

Median TPOT (ms): 25.14

P99 TPOT (ms): 27.87

—————Inter-token Latency—————-

Mean ITL (ms): 25.03

Median ITL (ms): 22.88

P99 ITL (ms): 138.59

==================================================

✅ 基本请求统计

Successful requests含义：压测过程中成功完成的请求数（未超时、未报错）。作用：反映服务稳定性，成功率过低说明接口或硬件负载能力不足。
Maximum request concurrency含义：本次测试设置的最大并发请求数，即同时发出的请求数量上限。作用：模拟真实场景的并发压力，数值越高，服务端压力越大。
Benchmark duration (s)含义：整个测试运行的时间（单位：秒）。作用：用于计算吞吐量、性能曲线。

✅ Token统计相关

Total input tokens含义：所有请求的输入文本（Prompt）Token 总数。作用：衡量输入负载大小，影响内存和推理速度。
Total generated tokens含义：所有请求生成的输出 Token 总数。作用：衡量模型输出负载，是 GPU 解码阶段性能的关键指标。

✅ 吞吐量指标

Request throughput (req/s)含义：每秒成功处理的请求数。计算：Successful requests / Benchmark duration作用：评估整体请求处理能力。
Output token throughput (tok/s)含义：每秒生成的 输出 Token 数（即模型解码速度）。计算：Total generated tokens / Benchmark duration作用：反映 输出速度，是最关键指标之一。
Total Token throughput (tok/s)含义：每秒处理的 Token 总数（包括输入和输出）。计算：(Total input tokens + Total generated tokens) / Benchmark duration作用：衡量整体 Token 处理效率。

✅ 延迟指标

TTFT (Time To First Token)

Mean TTFT (ms)含义：平均首 Token 延迟，即请求发出到生成第一个 Token 的时间。作用：评估 首响应速度，影响用户体验。
Median TTFT (ms)含义：首 Token 延迟的中位数，比平均值更抗异常值影响。作用：更准确反映大多数请求的真实延迟。
P99 TTFT (ms)含义：99% 请求的首 Token 延迟不超过该值（极端场景）。作用：衡量 最差性能（长尾问题）。

TPOT (Time per Output Token)

Mean TPOT (ms)含义：平均每个输出 Token（不包括首 Token）生成所需时间。作用：衡量模型的 解码速度。
Median TPOT (ms)含义：每个 Token 输出延迟的中位数。作用：反映典型解码性能。
P99 TPOT (ms)含义：99% 请求的每个输出 Token 延迟不超过该值。作用：检查极端情况下的性能。

ITL (Inter-token Latency)

Mean ITL (ms)含义：连续两个 Token 之间的平均延迟（比 TPOT 更直接表示流式生成速度）。作用：衡量 模型生成平滑度，影响流式输出体验。
Median ITL (ms)含义：Token 间延迟的中位数。作用：真实体验的参考指标。
P99 ITL (ms)含义：99% 请求的 Token 间延迟不超过该值。作用：反映长尾 Token 生成速度问题。

niuteng5618's blog

基于VLLM的压测

本文目录

正文

VLLM部署

使用Github的VLLM项目进行压测

✅ 基本请求统计

✅ Token统计相关

✅ 吞吐量指标

✅ 延迟指标

TTFT (Time To First Token)

TPOT (Time per Output Token)

ITL (Inter-token Latency)