《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 业界动态 > DeepSeek新论文剧透V4新框架

DeepSeek新论文剧透V4新框架

用闲置网卡加速智能体推理性能,打破PD分离瓶颈
2026-02-27
來源:IT之家
關(guān)鍵詞: Deepseek AI大模型 DualPath

近日,DeepSeek北大、清華在ArXiv上發(fā)表了一篇論文,發(fā)布了一個(gè)全新的針對(duì)智能體的推理框架:DualPath。

format,f_avif.avif (1).jpg

而且就跟前幾天曝出的算力話題相關(guān)。

DualPath 的核心在于解決 Agent 長文本推理場景下的 I/O 瓶頸,通過優(yōu)化從外部存儲(chǔ)加載 KV-Cache 的速度,確保計(jì)算資源不被存儲(chǔ)讀取拖累。

它改變了傳統(tǒng)的存儲(chǔ)至預(yù)填充引擎(Storage-to-Prefill)單路徑加載模式,引入了存儲(chǔ)至解碼引擎(Storage-to-Decode)的第二條路徑。

通過利用解碼引擎閑置的存儲(chǔ)網(wǎng)卡(SNIC)帶寬讀取緩存,并配合高速計(jì)算網(wǎng)絡(luò)(RDMA)將其傳輸至預(yù)填充引擎,DualPath 實(shí)現(xiàn)了集群存儲(chǔ)帶寬的全局池化與動(dòng)態(tài)負(fù)載均衡。

在 660B 規(guī)模的生產(chǎn)級(jí)模型的實(shí)測中,DualPath 表現(xiàn)驚人:

離線推理吞吐量提高了 1.87 倍,在線服務(wù)吞吐量平均提升 1.96 倍。

format,f_avif.avif (2).jpg

在高負(fù)載下,首字延遲(TTFT)大幅優(yōu)化,而 Token 間的生成速度(TPOT)幾乎不受任何干擾。

接下來,我們一起來看。

雙路徑加載 (Dual-Path Loading)

總的來說,DualPath 是一個(gè)專門為智能體系統(tǒng)設(shè)計(jì)的推理框架,它的核心洞見是 ——

KV-Cache 的加載不必以預(yù)填充為中心。

在以往的理解中,誰負(fù)責(zé)計(jì)算誰就去搬數(shù)據(jù)。但 DualPath 認(rèn)為,緩存可以先加載到解碼引擎中,再通過高性能 RDMA 網(wǎng)絡(luò)傳輸至預(yù)填充引擎。

通過在兩條路徑間動(dòng)態(tài)選擇,DualPath 重新分配了網(wǎng)絡(luò)負(fù)載,緩解了預(yù)填充側(cè)的帶寬壓力。

那么,為什么要費(fèi)這么大勁去“繞路”?

之所以這樣做,是因?yàn)樵诋?dāng)前的智能體應(yīng)用中,對(duì)話輪數(shù)多且上下文長,KV-Cache 命中率通常高達(dá) 95% 以上。

這意味著,每一輪對(duì)話都要搬運(yùn)海量的“舊記憶”,推理性能的瓶頸已經(jīng)從“計(jì)算”轉(zhuǎn)移到了“搬運(yùn)”上。

format,f_avif.avif (3).jpg

在現(xiàn)有的預(yù)填充-解碼分離(PD-disaggregated)架構(gòu)中,所有的加載任務(wù)都擁擠在預(yù)填充引擎(PE)的存儲(chǔ)網(wǎng)卡上,導(dǎo)致帶寬瞬間飽和;

與此同時(shí),解碼引擎(DE)的存儲(chǔ)網(wǎng)卡卻在閑置,造成了嚴(yán)重的資源錯(cuò)配。

format,f_avif.avif (4).jpg

更進(jìn)一步的,當(dāng)前 GPU 算力的增長遠(yuǎn)快于網(wǎng)絡(luò)帶寬和 HBM 容量的增長,也加劇了 I/O 限制。

正如英偉達(dá)首席科學(xué)家 Bill Dally、谷歌架構(gòu)師 Jeff Dean 等大佬反復(fù)強(qiáng)調(diào)的:計(jì)算是免費(fèi)的,但數(shù)據(jù)移動(dòng)是昂貴的。

針對(duì)這些問題,DualPath 構(gòu)建了創(chuàng)新的雙路徑模型:

format,f_avif.avif (5).jpg

路徑 A(傳統(tǒng)):存儲(chǔ) → PE,緩存直接讀入預(yù)填充引擎。

路徑 B(新增):存儲(chǔ) → DE → PE,緩存先讀入解碼引擎的緩沖池,再通過 RDMA 傳輸給預(yù)填充引擎。

在架構(gòu)組成上:

推理引擎:每個(gè)引擎管理一塊 GPU,嚴(yán)格區(qū)分為預(yù)填充(PE)和解碼(DE)。

流量管理器:負(fù)責(zé) H2D/D2H 拷貝、引擎間傳輸以及 SNIC 存儲(chǔ)讀寫。

中央調(diào)度器:擔(dān)任“大腦”角色,實(shí)時(shí)決策每一條請(qǐng)求該走哪條路,從而實(shí)現(xiàn)全局帶寬的最大化利用。

核心技術(shù)方案:存儲(chǔ)至解碼路徑

如上所述,DualPath 推理系統(tǒng)的核心在于打破了傳統(tǒng)的“存儲(chǔ)至預(yù)填充”單路徑模式,創(chuàng)新性地引入了“存儲(chǔ)至解碼”路徑。

該設(shè)計(jì)允許 KV-Cache 先加載至解碼引擎(DE),再通過高帶寬計(jì)算網(wǎng)絡(luò)(RDMA)無損傳輸給預(yù)填充引擎(PE)。

通過在兩條路徑間動(dòng)態(tài)分配負(fù)載,系統(tǒng)將集群中原本閑置的解碼側(cè)存儲(chǔ)網(wǎng)卡(SNIC)帶寬徹底釋放,構(gòu)建起一個(gè)全局可調(diào)度的存儲(chǔ) I/O 資源池。

具體來說,為了支持層級(jí)流式處理,DualPath 在 PE 和 DE 上均分配了少量 DRAM 緩沖區(qū)(PE / DE Buffer),并針對(duì)不同階段設(shè)計(jì)了精細(xì)的數(shù)據(jù)流:

PE 讀取路徑:命中 Token 的 KV-Cache 從存儲(chǔ)讀入 PE 緩沖區(qū)。在每層計(jì)算前,該層緩存?zhèn)鬏斨?PE HBM,與計(jì)算過程重疊執(zhí)行。計(jì)算完成后,全量 KV-Cache 傳回 DE 緩沖區(qū)以形成完整上下文。

DE 讀取路徑: KV-Cache 直接進(jìn)入 DE 緩沖區(qū)。在 PE 預(yù)填充期間,對(duì)應(yīng)層的緩存跨節(jié)點(diǎn)傳輸至 PE HBM(計(jì)算重疊)。計(jì)算結(jié)束后,PE 僅需傳回新生成的 KV-Cache 片段與 DE 原有緩存合并。

解碼與持久化: DE 緩沖區(qū)接收完整 KV-Cache 后啟動(dòng)解碼,執(zhí)行 H2D 拷貝并隨后釋放 CPU 內(nèi)存。雖然引入緩沖增加了 DRAM 壓力,但能顯著降低 GPU 顯存占用并優(yōu)化首字延遲(TTFT)。生成過程中,每累積滿一個(gè) Block(如 64 Token)即觸發(fā)異步持久化。

但就像前面提到的,“繞路”加載會(huì)帶來新問題:比如搬運(yùn)緩存的流量撞上了模型計(jì)算的通信,怎么辦?

對(duì)此,DualPath 給出了兩套優(yōu)化方案:

首先是以計(jì)算網(wǎng)卡(CNIC)為中心的流量管理,強(qiáng)制所有流量通過配對(duì)的 CNIC 走 GPUDirect RDMA 路徑。

在 InfiniBand 或 RoCE 網(wǎng)絡(luò)中,利用虛擬層(VL / TC)技術(shù),將推理通信設(shè)為“最高優(yōu)先級(jí)”并預(yù)留 99% 帶寬,讓緩存搬運(yùn)只能在間隙中“蹭”帶寬,確?;ゲ桓蓴_。

其次是自適應(yīng)請(qǐng)求調(diào)度器:調(diào)度器會(huì)盯著每個(gè)節(jié)點(diǎn)的磁盤隊(duì)列長度和 Token 數(shù)。系統(tǒng)會(huì)優(yōu)先將任務(wù)分配給 I/O 壓力較小且計(jì)算負(fù)載較輕的節(jié)點(diǎn),從根本上避免單側(cè)網(wǎng)卡或單點(diǎn)計(jì)算資源的擁塞。

在實(shí)驗(yàn)階段,DualPath 在 DeepSeek-V3、Qwen 等模型上進(jìn)行了測試,場景覆蓋了離線 Rollout 和在線服務(wù)。

如開頭所說,在離線推理中,DualPath 將端到端吞吐量提高了高達(dá) 1.87 倍,在線服務(wù)吞吐量平均提升 1.96 倍,顯著降低了首字延遲(TTFT),且保持了極其穩(wěn)定的 Token 間延遲(TBT)。

總的來說,DualPath 證明了通過重新思考數(shù)據(jù)加載路徑可以有效突破當(dāng)前大模型推理的 I/O 墻。

它成功利用了解碼引擎原本被浪費(fèi)的 I/O 帶寬,配合自適應(yīng)調(diào)度和嚴(yán)謹(jǐn)?shù)牧髁扛綦x機(jī)制,在不增加硬件成本的前提下,大幅提升了智能體 LLM 推理系統(tǒng)的效率。

2.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。