9月11日消息,摩爾線程正式發(fā)布并開(kāi)源大模型分布式訓(xùn)練仿真工具SimuMax v1.0,在顯存和性能仿真精度上實(shí)現(xiàn)了突破性提升,同時(shí)引入多項(xiàng)關(guān)鍵功能,進(jìn)一步增強(qiáng)了模型兼容性、靈活性。
SimuMax是一款專為大語(yǔ)言模型(LLM)分布式訓(xùn)練負(fù)載設(shè)計(jì)的仿真模擬工具,可為從單卡到萬(wàn)卡集群提供仿真支持。
它無(wú)需實(shí)際執(zhí)行完整訓(xùn)練過(guò)程,即可高精度模擬訓(xùn)練中的顯存使用和性能表現(xiàn),幫助用戶提前了解訓(xùn)練效率,優(yōu)化計(jì)算效能。
基于靜態(tài)分析模型,摩爾線程自研的SimuMax通過(guò)結(jié)合成本模型、內(nèi)存模型和屋頂模型,實(shí)現(xiàn)對(duì)訓(xùn)練過(guò)程的精準(zhǔn)仿真。
該工具支持多種主流分布式并行策略與優(yōu)化技術(shù),適用于以下多種應(yīng)用場(chǎng)景:
1、并行策略:
數(shù)據(jù)并行(DP)、張量并行(TP)、序列并行(SP)、流水線并行(PP)、專家并行(EP)
2、優(yōu)化技術(shù):
ZeRO-1、完整重計(jì)算、選擇性重計(jì)算、融合內(nèi)核等。
3、適用對(duì)象:
希望尋找最優(yōu)訓(xùn)練策略以提升效率的用戶;
從事框架或大模型算法開(kāi)發(fā)的工程師,用于優(yōu)化與調(diào)試;
芯片制造商,用于性能預(yù)測(cè)與硬件設(shè)計(jì)輔助。
SimuMax 1.0最顯著的更新在于其仿真精度的大幅提升,為用戶提供更可靠的分析結(jié)果。
針對(duì)Dense和MoE(混合專家)模型,顯存估計(jì)誤差穩(wěn)定控制在1%以內(nèi)。
經(jīng)測(cè)試,在多個(gè)主流GPU上,目前最優(yōu)性能估計(jì)誤差持續(xù)低于4%。
此外,SimuMax 1.0還引入了多項(xiàng)新特性,支持更廣泛的模型結(jié)構(gòu)和高效率訓(xùn)練需求:
MLA支持:
新增對(duì)MLA模型架構(gòu)的支持;
流水線并行(PP)增強(qiáng):
支持對(duì)首階段和末階段層的細(xì)粒度控制,優(yōu)化模型分片策略;
MoE靈活性提升:
在混合專家(MoE)模型中支持自定義Dense層,為模型設(shè)計(jì)提供了更大的靈活性。
Megatron兼容:
提供簡(jiǎn)化的模型遷移流程,可輕松轉(zhuǎn)換和分析基于Megatron框架的模型,提升與現(xiàn)有生態(tài)的互操作性。
重計(jì)算策略優(yōu)化:
實(shí)現(xiàn)更細(xì)粒度的選擇性重計(jì)算,支持更精準(zhǔn)的內(nèi)存和計(jì)算資源權(quán)衡。
全面的效率分析:
新增對(duì)不同張量形狀與內(nèi)存布局下計(jì)算效率與利用率的評(píng)估功能。