SGlang确定性推理解决方案-启动命令

1. 传统深度学习 9

1.1 基础概念 5

1.1.1 训练基础 1

loss、梯度、参数、优化器 2026-05-30

1.1.2 模型训练流程 1

深度学习模型完整流程 2026-05-30

1.1.3 激活函数 1

激活函数理解 2026-05-30

1.1.4 正则化 1

正则化技术 2026-05-30

1.1.5 知识蒸馏 1

知识蒸馏——黑盒_白盒 2026-05-30

1.2 序列模型 3

1.2.1 RNN / LSTM 1

RNN、LSTM学习 2026-05-30

1.2.2 xLSTM 2

xLSTM-mLSTM 2026-05-30
xLSTM算法 2026-05-30

1.3 工程实践 1

1.3.1 PyTorch 1

pytorch维度转换 2026-05-30

4. 强化学习与对齐 6

4.1 偏好优化 1

4.1.1 DPO 1

DPO（todo） 2026-05-30

4.2 策略优化 3

4.2.1 GRPO 1

GRPO（todo） 2026-05-30

4.2.2 PPO 2

PPO 2026-05-30
PPO 2026-05-30

4.3 价值学习 2

4.3.1 Q-learning 2

Q-learning 2026-05-30
Q-learning 2026-05-30

6. 热点问题分析 1

6.1 模型输出异常 1

6.1.1 输出异常分析 1

MM模型无法输出`嘉祺`的解析 2026-05-30

7. 算法与面试 1

7.1 算法面试 1

7.1.1 算法面试 1

算法面试问题 2026-05-30

SGlang确定性推理解决方案-启动命令

日期 2026-05-30

分类 2. 大模型技术 /2.5 推理与部署 /2.5.1 确定性推理

标签

正文

services:

qwen3-8B:

image: lmsysorg/sglang:v0.5.5.post3-cu129-amd64

container_name: Qwen3-8B-Med

ipc: "host"

volumes:

  - /root/.cache/huggingface/hub:/root/.cache/huggingface/hub

  - /data/models/qwen3-8B:/data/model

  - /data/workspace/qx/medllm/output/lora/v10-20251129-045958/checkpoint-5400:/data/lora

restart: always

shm_size: '96gb'

network_mode: "host"

environment:

  - NCCL_DEBUG=TRACE

  - NCCL_IGNORE_DISABLED_P2P=1

command: [

  "python3", "-m", "sglang.launch_server",

  "--model-path", "/data/model",

  "--reasoning-parser", "qwen3",

#   "--context-length", "40960",

  "--served-model-name", "Qwen3-8B-Med",

  "--host","0.0.0.0",

  "--port", "10170",

  "--tp", "1",

  "--dp", "4",

  "--tool-call-parser", "deepseekv3",

#   "--allow-auto-truncate",

#   "--enable-dp-attention",

#   "--enable-mixed-chunk",

  "--enable-lora",

  "--lora-paths","lora0=/data/lora",

  "--max-loras-per-batch","1",

  # "--disable-radix-cache",

  "--enable-deterministic-inference",

  # "--attention-backend","torch_native",

  #"--mem-fraction-static", "0.7",

  #"--speculative-num-steps", "3" ,

  #"--speculative-eagle-topk", "1",

  #"--speculative-num-draft-tokens", "4",

  #"--speculative-algo", "NEXTN",

]

healthcheck:

  test: ["CMD", "curl", "-f", "[http://localhost:30000/health"]](http://localhost:30000/health"])

  interval: 60s                                 

  timeout: 10s                                            

  retries: 3                                            

  start_period: 240s                                       

deploy:

  resources:

    reservations:

      devices:

        - driver: nvidia

          device_ids: ['0','1','2','3'] # '0','1','2','3','4','5','6','7'

          capabilities: [gpu]