DeepSeek開源第四彈:并行優(yōu)化策略3項(xiàng)齊開快訊

TechWeb.com.cn 2025-02-27 18:02
分享到:
導(dǎo)讀

//github.com/deepseek-ai/profile-data 一、DualPipe DualPipe是DeepSeek-V3技術(shù)報(bào)告中提出的一種創(chuàng)新雙向流水線并行算法,//github.com/deepseek-ai/DualPipe https,一種用于V3/R1模型訓(xùn)練中實(shí)現(xiàn)計(jì)算與通信重疊的雙向流水線并行算法 EPLB。

【TechWeb】2月27日消息,DeepSeek開源周第四日,DeepSeek開源了并行優(yōu)化策略(Optimized Parallelism Strategies),一次開源了3項(xiàng):

DualPipe:一種用于V3/R1模型訓(xùn)練中實(shí)現(xiàn)計(jì)算與通信重疊的雙向流水線并行算法

EPLB:一個(gè)針對V3/R1的專家并行負(fù)載均衡工具

Profile-data:訓(xùn)練和推理框架的分析數(shù)據(jù)

GitHub地址:

https://github.com/deepseek-ai/DualPipe

https://github.com/deepseek-ai/eplb

https://github.com/deepseek-ai/profile-data

一、DualPipe

DualPipe是DeepSeek-V3技術(shù)報(bào)告中提出的一種創(chuàng)新雙向流水線并行算法。

它能夠?qū)崿F(xiàn)前向與后向計(jì)算和通信階段的完全重疊,同時(shí)有效減少流水線氣泡(空閑時(shí)間)。

DeepSeek展示了在8個(gè)流水線并行階段和20個(gè)micro-batches情況下,DualPipe在兩個(gè)方向上的調(diào)度示例。(來自DeepSeek-V3技術(shù)報(bào)告)

反向方向的微批次與前向方向?qū)ΨQ,為了簡化圖示,這里省略了反向方向的批次 ID。圖中由同一個(gè)黑色邊框包圍的兩個(gè)單元格具有相互重疊的計(jì)算和通信。

流水線氣泡與內(nèi)存使用比較

表中,

并行 流水線 DualPipe 通信 計(jì)算
分享到:

1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會明確標(biāo)注作者和來源;
2.TMT觀察網(wǎng)的原創(chuàng)文章,請轉(zhuǎn)載時(shí)務(wù)必注明文章作者和"來源:TMT觀察網(wǎng)",不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任;
3.作者投稿可能會經(jīng)TMT觀察網(wǎng)編輯修改或補(bǔ)充。