近日,DeepSeek宣布其新一代模型DeepSeek-V3.1采用了UE8M0 FP8 Scale參數(shù)精度,并明確指出該精度標(biāo)準(zhǔn)是針對(duì)即將發(fā)布的下一代國(guó)產(chǎn)芯片設(shè)計(jì)。這一消息迅速在資本市場(chǎng)引發(fā)強(qiáng)烈反應(yīng),寒武紀(jì)等芯片類上市企業(yè)股價(jià)集體拉升。
不過(guò),在近兩日舉辦的2025算力大會(huì)上,據(jù)《科創(chuàng)板日?qǐng)?bào)》記者的現(xiàn)場(chǎng)采訪和觀察來(lái)看,大家在聚焦國(guó)產(chǎn)算力時(shí),DeepSeek的FP8精度標(biāo)準(zhǔn)雖被討論,但業(yè)內(nèi)人士的情緒顯然沒(méi)有資本市場(chǎng)那么高亢。技術(shù)派更關(guān)注FP8在模型訓(xùn)練、推理及生態(tài)標(biāo)準(zhǔn)化上的實(shí)際價(jià)值與挑戰(zhàn)。
FP8是什么,有哪些提升?
在AI訓(xùn)練與推理過(guò)程中,為提升計(jì)算效率,數(shù)值精度的降低是一個(gè)常見(jiàn)的技術(shù)路徑。
摩爾線程AI Infra總監(jiān)陳志向《科創(chuàng)板日?qǐng)?bào)》記者稱,過(guò)去,大模型訓(xùn)練推理普遍使用FP32(32位浮點(diǎn)數(shù)),隨后逐步過(guò)渡到FP16(16位浮點(diǎn)數(shù))混合精度,以減少存儲(chǔ)和通信開(kāi)銷,F(xiàn)P8則進(jìn)一步將數(shù)據(jù)寬度壓縮至8位。
“FP8最直接的優(yōu)勢(shì)是算力效率翻倍,另一個(gè)好處是降低降低訓(xùn)練和推理過(guò)程中網(wǎng)絡(luò)帶寬的通信量?!标愔痉Q,比如原本傳輸一個(gè)FP32數(shù)值需4字節(jié),現(xiàn)在僅需FP8僅需要1字節(jié),雖然網(wǎng)絡(luò)物理帶寬本身未必?cái)U(kuò)大,但單位時(shí)間內(nèi)可傳輸信息是增加的,同時(shí)也讓存儲(chǔ)要求降低。這意味著在相同功耗下,AI芯片可訓(xùn)練更大的模型或縮短訓(xùn)練時(shí)間。
不過(guò),F(xiàn)P8也不是萬(wàn)能的。
在2025算力大會(huì)現(xiàn)場(chǎng),另一名不愿具名的國(guó)產(chǎn)芯片廠商從業(yè)人員告訴《科創(chuàng)板日?qǐng)?bào)》記者,用類似FP8低精度訓(xùn)練推理雖然快,但也容易因數(shù)值范圍太小導(dǎo)致計(jì)算出錯(cuò)。而且,不同計(jì)算對(duì)精度要求不同,像矩陣乘法這類操作對(duì)精度不敏感,可以用較低的精度(如FP8)計(jì)算;而像累加或某些函數(shù)則需要較高精度。因此,業(yè)內(nèi)通常采用“混合精度訓(xùn)練”,根據(jù)計(jì)算類型動(dòng)態(tài)選擇不同的精度,兼顧效率與準(zhǔn)確。
Deepseek能否推動(dòng)新標(biāo)準(zhǔn)
DeepSeek-V3.1使用UE8M0 FP8 Scale 的參數(shù)精度,被視為國(guó)產(chǎn)AI芯片即將邁入新階段的信號(hào)。受此刺激,寒武紀(jì)等芯片類上市公司股價(jià)大幅上漲,但產(chǎn)業(yè)界人士態(tài)度更為審慎。
在業(yè)內(nèi)看來(lái),DeepSeek此舉無(wú)疑給了國(guó)內(nèi)算力廠商的機(jī)會(huì),F(xiàn)P8代表了算力優(yōu)化的正確方向,大模型訓(xùn)練推理不只是堆砌硬件,但它也并非“靈丹妙藥”,更需要關(guān)注的是實(shí)際落地效果。此外DeepSeek的這一動(dòng)作,后續(xù)是否會(huì)成為大模型訓(xùn)練與推理的新標(biāo)準(zhǔn)。
在陳志看來(lái),大模型對(duì)精度的容忍度越來(lái)越高,從FP32到FP16,再到FP8,是整個(gè)行業(yè)逐步驗(yàn)證過(guò)的路徑。DeepSeek這次驗(yàn)證了FP8在大規(guī)模模型上的可行性,未來(lái)在FP8這一標(biāo)準(zhǔn)乃至更高精度上去做研究或者做訓(xùn)練也是一個(gè)很重要的方向。
當(dāng)然,這一趨勢(shì)也意味著,國(guó)產(chǎn)算力生態(tài)需要同步升級(jí),包括芯片、框架、算力平臺(tái)到應(yīng)用層的閉環(huán)適配。
陳志表示,精度標(biāo)準(zhǔn)一旦變化,上下游廠商也需要聯(lián)動(dòng)優(yōu)化。摩爾線程已提前布局FP8研究,既是技術(shù)儲(chǔ)備,也是為了在生態(tài)調(diào)整中占據(jù)主動(dòng)。
他進(jìn)一步說(shuō)到,大模型訓(xùn)練推理的核心瓶頸不僅是算力規(guī)模,還包括能耗、穩(wěn)定性和集群利用,“國(guó)內(nèi)萬(wàn)卡規(guī)模集群已有部署,但還要向大智算集群演進(jìn),解決效率與容錯(cuò)問(wèn)題,確保集群可靠性。簡(jiǎn)單‘堆卡’并不能完全滿足需求,提高單卡效率與集群調(diào)度優(yōu)化同樣關(guān)鍵”。