PD 分离架构是一种先进的大模型推理优化技术,其核心思想是将 LLM 推理过程中的两个关键计算阶段——Prefill(预填充)和Decode(解码)——分别部署在不同的计算节点上。这种架构设计能够有效解决传统单体部署模式下的资源瓶颈问题,显著提升推理系统的整体吞吐量和资源利用率。
采用 PD 分离架构的主要优势包括:
- 资源优化:Prefill 阶段计算密集,Decode 阶段访存密集,分离部署可针对性优化资源配置
- 吞吐量提升:支持多请求并行处理,大幅提升系统并发能力
- 弹性扩展:可根据实际负载动态调整 Prefill 和 Decode 节点数量
- 延迟优化:通过流水线并行机制,有效降低端到端推理延迟
本文档详细介绍了在沐曦曦云 C 系列硬件平台上,使用沐曦自研 MXMACA 软件栈和 SGLang 框架进行大语言模型(LLM)PD(Prefill-Decode,预填充 - 解码)分离推理部署与测试的完整流程。
| 分类 |
模型名称 |
| DeepSeek |
DeepSeek-R1 |
| DeepSeek-V3.1 |
| DeepSeek-V3.2 |
| GLM |
GLM-5 |
| GLM-5.1 |
| MiniMax |
MiniMax-2.5 |
| Qwen |
Qwen3.5-397B-A17B |
| MiMo |
MiMo-V2-Flash |
| 名称 |
版本 |
| GPU支持型号 |
曦云C500/C550/C588 |
| CPU支持架构 |
X86 |
| MXMACA版本 |
3.2及以上 |
| SGLang版本 |
v0.5.7 |
PD 分离部署时,Prefill 实例与 Decode 实例需遵循特定的配比规则。为便于后续说明,PD 分离配比采用以下格式表示:
xPm yDn:表示 x 个 Prefill 实例(每个实例占用 m 个节点)和 y 个 Decode 实例(每个实例占用 n 个节点)。每个节点默认配置 8 张GPU。
最低配置要求如下:
| 模型名称 |
模型精度 |
GPU型号 |
Prefill配置 |
Decode配置 |
总节点数 |
- DeepSeek-R1
- DeepSeek-V3.1
- DeepSeek-V3.2
|
W8A8 |
C500/C550 |
1P2 |
1D4 |
6 |
| C588 |
1P1 |
1D2 |
3 |
| 模型名称 |
模型精度 |
GPU型号 |
Prefill配置 |
Decode配置 |
总节点数 |
|
|
W8A8 |
C500/C550 |
1P2 |
1D4 |
6 |
| C588 |
1P1 |
1D2 |
3 |
| 模型名称 |
模型精度 |
GPU型号 |
Prefill配置 |
Decode配置 |
总节点数 |
| MiniMax-2.5 |
W8A8 |
C500/C550 |
1P1 |
1D2 |
3 |
| C588 |
1P1 |
1D1 |
2 |
| 模型名称 |
模型精度 |
GPU型号 |
Prefill配置 |
Decode配置 |
总节点数 |
| Qwen3.5-397B-A17B |
W8A8 |
C500/C550 |
1P1 |
1D2 |
3 |
| C588 |
1P1 |
1D1 |
2 |
| 模型名称 |
模型精度 |
GPU型号 |
Prefill配置 |
Decode配置 |
总节点数 |
| MiMo-V2-Flash |
W8A8 |
C500/C550 |
1P1 |
1D2 |
3 |
| C588 |
1P1 |
1D1 |
2 |