沐曦PD分离架构方案

概述

PD 分离架构是一种先进的大模型推理优化技术，其核心思想是将 LLM 推理过程中的两个关键计算阶段——Prefill（预填充）和Decode（解码）——分别部署在不同的计算节点上。这种架构设计能够有效解决传统单体部署模式下的资源瓶颈问题，显著提升推理系统的整体吞吐量和资源利用率。

采用 PD 分离架构的主要优势包括：

资源优化：Prefill 阶段计算密集，Decode 阶段访存密集，分离部署可针对性优化资源配置
吞吐量提升：支持多请求并行处理，大幅提升系统并发能力
弹性扩展：可根据实际负载动态调整 Prefill 和 Decode 节点数量
延迟优化：通过流水线并行机制，有效降低端到端推理延迟

本文档详细介绍了在沐曦曦云 C 系列硬件平台上，使用沐曦自研 MXMACA 软件栈和 SGLang 框架进行大语言模型（LLM）PD（Prefill-Decode，预填充 - 解码）分离推理部署与测试的完整流程。

支持模型

分类	模型名称
DeepSeek	DeepSeek-R1
	DeepSeek-V3.1
	DeepSeek-V3.2
GLM	GLM-5
GLM	GLM-5.1
MiniMax	MiniMax-2.5
Qwen	Qwen3.5-397B-A17B
MiMo	MiMo-V2-Flash

版本配套说明

名称	版本
GPU支持型号	曦云C500/C550/C588
CPU支持架构	X86
MXMACA版本	3.2及以上
SGLang版本	v0.5.7

PD分离配置说明

PD 分离部署时，Prefill 实例与 Decode 实例需遵循特定的配比规则。为便于后续说明，PD 分离配比采用以下格式表示：

xPm yDn：表示 x 个 Prefill 实例（每个实例占用 m 个节点）和 y 个 Decode 实例（每个实例占用 n 个节点）。每个节点默认配置 8 张GPU。

最低配置要求如下：

DeepSeek

模型名称	模型精度	GPU型号	Prefill配置	Decode配置	总节点数
DeepSeek-R1 DeepSeek-V3.1 DeepSeek-V3.2	W8A8	C500/C550	1P2	1D4	6
DeepSeek-R1 DeepSeek-V3.1 DeepSeek-V3.2	W8A8	C588	1P1	1D2	3

GLM

模型名称	模型精度	GPU型号	Prefill配置	Decode配置	总节点数
GLM-5 GLM-5.1	W8A8	C500/C550	1P2	1D4	6
GLM-5 GLM-5.1	W8A8	C588	1P1	1D2	3

MiniMax

模型名称	模型精度	GPU型号	Prefill配置	Decode配置	总节点数
MiniMax-2.5	W8A8	C500/C550	1P1	1D2	3
MiniMax-2.5	W8A8	C588	1P1	1D1	2

Qwen

模型名称	模型精度	GPU型号	Prefill配置	Decode配置	总节点数
Qwen3.5-397B-A17B	W8A8	C500/C550	1P1	1D2	3
Qwen3.5-397B-A17B	W8A8	C588	1P1	1D1	2

MiMo

模型名称	模型精度	GPU型号	Prefill配置	Decode配置	总节点数
MiMo-V2-Flash	W8A8	C500/C550	1P1	1D2	3
MiMo-V2-Flash	W8A8	C588	1P1	1D1	2

部署文档

名称	链接
DeepSeek	DeepSeek
GLM	GLM
MiniMax	MiniMax
Qwen	Qwen
MiMo	MiMo

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

沐曦PD分离架构方案

概述

支持模型

版本配套说明

PD分离配置说明

DeepSeek

GLM

MiniMax

Qwen

MiMo

部署文档

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
DeepSeek		DeepSeek
GLM		GLM
MiMo		MiMo
MiniMax		MiniMax
Qwen		Qwen
README.md		README.md

Folders and files

Latest commit

History

Repository files navigation

沐曦PD分离架构方案

概述

支持模型

版本配套说明

PD分离配置说明

DeepSeek

GLM

MiniMax

Qwen

MiMo

部署文档

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Packages