9月11日消息,摩爾線程正式發(fā)布并開源大模型分布式訓(xùn)練仿真工具SimuMax v1.0,在顯存和性能仿真精度上實現(xiàn)了突破性提升,同時引入多項關(guān)鍵功能,進一步增強了模型兼容性、靈活性。
SimuMax是一款專為大語言模型(LLM)分布式訓(xùn)練負載設(shè)計的仿真模擬工具,可為從單卡到萬卡集群提供仿真支持。
它無需實際執(zhí)行完整訓(xùn)練過程,即可高精度模擬訓(xùn)練中的顯存使用和性能表現(xiàn),幫助用戶提前了解訓(xùn)練效率,優(yōu)化計算效能。
基于靜態(tài)分析模型,摩爾線程自研的SimuMax通過結(jié)合成本模型、內(nèi)存模型和屋頂模型,實現(xiàn)對訓(xùn)練過程的精準(zhǔn)仿真。

該工具支持多種主流分布式并行策略與優(yōu)化技術(shù),適用于以下多種應(yīng)用場景:
1、并行策略:
數(shù)據(jù)并行(DP)、張量并行(TP)、序列并行(SP)、流水線并行(PP)、專家并行(EP)
2、優(yōu)化技術(shù):
ZeRO-1、完整重計算、選擇性重計算、融合內(nèi)核等。
3、適用對象:
希望尋找最優(yōu)訓(xùn)練策略以提升效率的用戶;
從事框架或大模型算法開發(fā)的工程師,用于優(yōu)化與調(diào)試;
芯片制造商,用于性能預(yù)測與硬件設(shè)計輔助。
SimuMax 1.0最顯著的更新在于其仿真精度的大幅提升,為用戶提供更可靠的分析結(jié)果。
針對Dense和MoE(混合專家)模型,顯存估計誤差穩(wěn)定控制在1%以內(nèi)。
經(jīng)測試,在多個主流GPU上,目前最優(yōu)性能估計誤差持續(xù)低于4%。

此外,SimuMax 1.0還引入了多項新特性,支持更廣泛的模型結(jié)構(gòu)和高效率訓(xùn)練需求:
MLA支持:
新增對MLA模型架構(gòu)的支持;
流水線并行(PP)增強:
支持對首階段和末階段層的細粒度控制,優(yōu)化模型分片策略;
MoE靈活性提升:
在混合專家(MoE)模型中支持自定義Dense層,為模型設(shè)計提供了更大的靈活性。
Megatron兼容:
提供簡化的模型遷移流程,可輕松轉(zhuǎn)換和分析基于Megatron框架的模型,提升與現(xiàn)有生態(tài)的互操作性。
重計算策略優(yōu)化:
實現(xiàn)更細粒度的選擇性重計算,支持更精準(zhǔn)的內(nèi)存和計算資源權(quán)衡。
全面的效率分析:
新增對不同張量形狀與內(nèi)存布局下計算效率與利用率的評估功能。


