123,123,123

DeepSeek引爆国产芯片 FP8能否引领行业新标准？

日期： 2025-08-25

來源：财联社

關鍵詞： Deepseek AI芯片算力 GPU

近日，DeepSeek宣布其新一代模型DeepSeek-V3.1采用了UE8M0 FP8 Scale參數(shù)精度，并明確指出該精度標準是針對即將發(fā)布的下一代國產芯片設計。這一消息迅速在資本市場引發(fā)強烈反應，寒武紀等芯片類上市企業(yè)股價集體拉升。

不過，在近兩日舉辦的2025算力大會上，據《科創(chuàng)板日報》記者的現(xiàn)場采訪和觀察來看，大家在聚焦國產算力時，DeepSeek的FP8精度標準雖被討論，但業(yè)內人士的情緒顯然沒有資本市場那么高亢。技術派更關注FP8在模型訓練、推理及生態(tài)標準化上的實際價值與挑戰(zhàn)。

FP8是什么，有哪些提升？

在AI訓練與推理過程中，為提升計算效率，數(shù)值精度的降低是一個常見的技術路徑。

摩爾線程AI Infra總監(jiān)陳志向《科創(chuàng)板日報》記者稱，過去，大模型訓練推理普遍使用FP32（32位浮點數(shù)），隨后逐步過渡到FP16（16位浮點數(shù)）混合精度，以減少存儲和通信開銷，F(xiàn)P8則進一步將數(shù)據寬度壓縮至8位。

“FP8最直接的優(yōu)勢是算力效率翻倍，另一個好處是降低降低訓練和推理過程中網絡帶寬的通信量?！标愔痉Q，比如原本傳輸一個FP32數(shù)值需4字節(jié)，現(xiàn)在僅需FP8僅需要1字節(jié)，雖然網絡物理帶寬本身未必擴大，但單位時間內可傳輸信息是增加的，同時也讓存儲要求降低。這意味著在相同功耗下，AI芯片可訓練更大的模型或縮短訓練時間。

不過，F(xiàn)P8也不是萬能的。

在2025算力大會現(xiàn)場，另一名不愿具名的國產芯片廠商從業(yè)人員告訴《科創(chuàng)板日報》記者，用類似FP8低精度訓練推理雖然快，但也容易因數(shù)值范圍太小導致計算出錯。而且，不同計算對精度要求不同，像矩陣乘法這類操作對精度不敏感，可以用較低的精度（如FP8）計算；而像累加或某些函數(shù)則需要較高精度。因此，業(yè)內通常采用“混合精度訓練”，根據計算類型動態(tài)選擇不同的精度，兼顧效率與準確。

Deepseek能否推動新標準

DeepSeek-V3.1使用UE8M0 FP8 Scale 的參數(shù)精度，被視為國產AI芯片即將邁入新階段的信號。受此刺激，寒武紀等芯片類上市公司股價大幅上漲，但產業(yè)界人士態(tài)度更為審慎。

在業(yè)內看來，DeepSeek此舉無疑給了國內算力廠商的機會，F(xiàn)P8代表了算力優(yōu)化的正確方向，大模型訓練推理不只是堆砌硬件，但它也并非“靈丹妙藥”，更需要關注的是實際落地效果。此外DeepSeek的這一動作，后續(xù)是否會成為大模型訓練與推理的新標準。

在陳志看來，大模型對精度的容忍度越來越高，從FP32到FP16，再到FP8，是整個行業(yè)逐步驗證過的路徑。DeepSeek這次驗證了FP8在大規(guī)模模型上的可行性，未來在FP8這一標準乃至更高精度上去做研究或者做訓練也是一個很重要的方向。

當然，這一趨勢也意味著，國產算力生態(tài)需要同步升級，包括芯片、框架、算力平臺到應用層的閉環(huán)適配。

陳志表示，精度標準一旦變化，上下游廠商也需要聯(lián)動優(yōu)化。摩爾線程已提前布局FP8研究，既是技術儲備，也是為了在生態(tài)調整中占據主動。

他進一步說到，大模型訓練推理的核心瓶頸不僅是算力規(guī)模，還包括能耗、穩(wěn)定性和集群利用，“國內萬卡規(guī)模集群已有部署，但還要向大智算集群演進，解決效率與容錯問題，確保集群可靠性。簡單‘堆卡’并不能完全滿足需求，提高單卡效率與集群調度優(yōu)化同樣關鍵”。

Magazine.Subscription.jpg

版權聲明：本站內容除特別聲明的原創(chuàng)文章之外，轉載內容只為傳遞更多信息，并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內容無法一一聯(lián)系確認版權者。如涉及作品內容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經濟損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

DeepSeek引爆国产芯片 FP8能否引领行业新标准？

日期： 2025-08-25

來源：财联社

相關內容