Skip to content

MetaX-MACA/AIModels

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

11 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

沐曦PD分离架构方案

概述

PD 分离架构是一种先进的大模型推理优化技术,其核心思想是将 LLM 推理过程中的两个关键计算阶段——Prefill(预填充)和Decode(解码)——分别部署在不同的计算节点上。这种架构设计能够有效解决传统单体部署模式下的资源瓶颈问题,显著提升推理系统的整体吞吐量和资源利用率。

采用 PD 分离架构的主要优势包括:

  • 资源优化:Prefill 阶段计算密集,Decode 阶段访存密集,分离部署可针对性优化资源配置
  • 吞吐量提升:支持多请求并行处理,大幅提升系统并发能力
  • 弹性扩展:可根据实际负载动态调整 Prefill 和 Decode 节点数量
  • 延迟优化:通过流水线并行机制,有效降低端到端推理延迟

本文档详细介绍了在沐曦曦云 C 系列硬件平台上,使用沐曦自研 MXMACA 软件栈和 SGLang 框架进行大语言模型(LLM)PD(Prefill-Decode,预填充 - 解码)分离推理部署与测试的完整流程。

支持模型

分类 模型名称
DeepSeek DeepSeek-R1
DeepSeek-V3.1
DeepSeek-V3.2
GLM GLM-5
GLM-5.1
MiniMax MiniMax-2.5
Qwen Qwen3.5-397B-A17B
MiMo MiMo-V2-Flash

版本配套说明

名称 版本
GPU支持型号 曦云C500/C550/C588
CPU支持架构 X86
MXMACA版本 3.2及以上
SGLang版本 v0.5.7

PD分离配置说明

PD 分离部署时,Prefill 实例与 Decode 实例需遵循特定的配比规则。为便于后续说明,PD 分离配比采用以下格式表示:

xPm yDn:表示 x 个 Prefill 实例(每个实例占用 m 个节点)和 y 个 Decode 实例(每个实例占用 n 个节点)。每个节点默认配置 8 张GPU。

最低配置要求如下:

DeepSeek

模型名称 模型精度 GPU型号 Prefill配置 Decode配置 总节点数
  • DeepSeek-R1
  • DeepSeek-V3.1
  • DeepSeek-V3.2
W8A8 C500/C550 1P2 1D4 6
C588 1P1 1D2 3

GLM

模型名称 模型精度 GPU型号 Prefill配置 Decode配置 总节点数
  • GLM-5
  • GLM-5.1
W8A8 C500/C550 1P2 1D4 6
C588 1P1 1D2 3

MiniMax

模型名称 模型精度 GPU型号 Prefill配置 Decode配置 总节点数
MiniMax-2.5 W8A8 C500/C550 1P1 1D2 3
C588 1P1 1D1 2

Qwen

模型名称 模型精度 GPU型号 Prefill配置 Decode配置 总节点数
Qwen3.5-397B-A17B W8A8 C500/C550 1P1 1D2 3
C588 1P1 1D1 2

MiMo

模型名称 模型精度 GPU型号 Prefill配置 Decode配置 总节点数
MiMo-V2-Flash W8A8 C500/C550 1P1 1D2 3
C588 1P1 1D1 2

部署文档

名称 链接
DeepSeek DeepSeek
GLM GLM
MiniMax MiniMax
Qwen Qwen
MiMo MiMo

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Packages

 
 
 

Contributors