123,123

DeepSeek新论文剧透V4新框架

用闲置网卡加速智能体推理性能，打破PD分离瓶颈

日期： 2026-02-27

來(lái)源：IT之家

關(guān)鍵詞： Deepseek AI大模型 DualPath

近日，DeepSeek與北大、清華在ArXiv上發(fā)表了一篇論文，發(fā)布了一個(gè)全新的針對(duì)智能體的推理框架：DualPath。

format,f_avif.avif (1).jpg

而且就跟前幾天曝出的算力話(huà)題相關(guān)。

DualPath 的核心在于解決 Agent 長(zhǎng)文本推理場(chǎng)景下的 I/O 瓶頸，通過(guò)優(yōu)化從外部存儲(chǔ)加載 KV-Cache 的速度，確保計(jì)算資源不被存儲(chǔ)讀取拖累。

它改變了傳統(tǒng)的存儲(chǔ)至預(yù)填充引擎（Storage-to-Prefill）單路徑加載模式，引入了存儲(chǔ)至解碼引擎（Storage-to-Decode）的第二條路徑。

通過(guò)利用解碼引擎閑置的存儲(chǔ)網(wǎng)卡（SNIC）帶寬讀取緩存，并配合高速計(jì)算網(wǎng)絡(luò)（RDMA）將其傳輸至預(yù)填充引擎，DualPath 實(shí)現(xiàn)了集群存儲(chǔ)帶寬的全局池化與動(dòng)態(tài)負(fù)載均衡。

在 660B 規(guī)模的生產(chǎn)級(jí)模型的實(shí)測(cè)中，DualPath 表現(xiàn)驚人：

離線(xiàn)推理吞吐量提高了 1.87 倍，在線(xiàn)服務(wù)吞吐量平均提升 1.96 倍。

format,f_avif.avif (2).jpg

在高負(fù)載下，首字延遲（TTFT）大幅優(yōu)化，而 Token 間的生成速度（TPOT）幾乎不受任何干擾。

接下來(lái)，我們一起來(lái)看。

雙路徑加載 (Dual-Path Loading)

總的來(lái)說(shuō)，DualPath 是一個(gè)專(zhuān)門(mén)為智能體系統(tǒng)設(shè)計(jì)的推理框架，它的核心洞見(jiàn)是 ——

KV-Cache 的加載不必以預(yù)填充為中心。

在以往的理解中，誰(shuí)負(fù)責(zé)計(jì)算誰(shuí)就去搬數(shù)據(jù)。但 DualPath 認(rèn)為，緩存可以先加載到解碼引擎中，再通過(guò)高性能 RDMA 網(wǎng)絡(luò)傳輸至預(yù)填充引擎。

通過(guò)在兩條路徑間動(dòng)態(tài)選擇，DualPath 重新分配了網(wǎng)絡(luò)負(fù)載，緩解了預(yù)填充側(cè)的帶寬壓力。

那么，為什么要費(fèi)這么大勁去“繞路”？

之所以這樣做，是因?yàn)樵诋?dāng)前的智能體應(yīng)用中，對(duì)話(huà)輪數(shù)多且上下文長(zhǎng)，KV-Cache 命中率通常高達(dá) 95% 以上。

這意味著，每一輪對(duì)話(huà)都要搬運(yùn)海量的“舊記憶”，推理性能的瓶頸已經(jīng)從“計(jì)算”轉(zhuǎn)移到了“搬運(yùn)”上。

format,f_avif.avif (3).jpg

在現(xiàn)有的預(yù)填充-解碼分離（PD-disaggregated）架構(gòu)中，所有的加載任務(wù)都擁擠在預(yù)填充引擎（PE）的存儲(chǔ)網(wǎng)卡上，導(dǎo)致帶寬瞬間飽和；

與此同時(shí)，解碼引擎（DE）的存儲(chǔ)網(wǎng)卡卻在閑置，造成了嚴(yán)重的資源錯(cuò)配。

format,f_avif.avif (4).jpg

更進(jìn)一步的，當(dāng)前 GPU 算力的增長(zhǎng)遠(yuǎn)快于網(wǎng)絡(luò)帶寬和 HBM 容量的增長(zhǎng)，也加劇了 I/O 限制。

正如英偉達(dá)首席科學(xué)家 Bill Dally、谷歌架構(gòu)師 Jeff Dean 等大佬反復(fù)強(qiáng)調(diào)的：計(jì)算是免費(fèi)的，但數(shù)據(jù)移動(dòng)是昂貴的。

針對(duì)這些問(wèn)題，DualPath 構(gòu)建了創(chuàng)新的雙路徑模型：

format,f_avif.avif (5).jpg

路徑 A（傳統(tǒng)）：存儲(chǔ) → PE，緩存直接讀入預(yù)填充引擎。

路徑 B（新增）：存儲(chǔ) → DE → PE，緩存先讀入解碼引擎的緩沖池，再通過(guò) RDMA 傳輸給預(yù)填充引擎。

在架構(gòu)組成上：

推理引擎：每個(gè)引擎管理一塊 GPU，嚴(yán)格區(qū)分為預(yù)填充（PE）和解碼（DE）。

流量管理器：負(fù)責(zé) H2D/D2H 拷貝、引擎間傳輸以及 SNIC 存儲(chǔ)讀寫(xiě)。

中央調(diào)度器：擔(dān)任“大腦”角色，實(shí)時(shí)決策每一條請(qǐng)求該走哪條路，從而實(shí)現(xiàn)全局帶寬的最大化利用。

核心技術(shù)方案：存儲(chǔ)至解碼路徑

如上所述，DualPath 推理系統(tǒng)的核心在于打破了傳統(tǒng)的“存儲(chǔ)至預(yù)填充”單路徑模式，創(chuàng)新性地引入了“存儲(chǔ)至解碼”路徑。

該設(shè)計(jì)允許 KV-Cache 先加載至解碼引擎（DE），再通過(guò)高帶寬計(jì)算網(wǎng)絡(luò)（RDMA）無(wú)損傳輸給預(yù)填充引擎（PE）。

通過(guò)在兩條路徑間動(dòng)態(tài)分配負(fù)載，系統(tǒng)將集群中原本閑置的解碼側(cè)存儲(chǔ)網(wǎng)卡（SNIC）帶寬徹底釋放，構(gòu)建起一個(gè)全局可調(diào)度的存儲(chǔ) I/O 資源池。

具體來(lái)說(shuō)，為了支持層級(jí)流式處理，DualPath 在 PE 和 DE 上均分配了少量 DRAM 緩沖區(qū)（PE / DE Buffer），并針對(duì)不同階段設(shè)計(jì)了精細(xì)的數(shù)據(jù)流：

PE 讀取路徑：命中 Token 的 KV-Cache 從存儲(chǔ)讀入 PE 緩沖區(qū)。在每層計(jì)算前，該層緩存?zhèn)鬏斨?PE HBM，與計(jì)算過(guò)程重疊執(zhí)行。計(jì)算完成后，全量 KV-Cache 傳回 DE 緩沖區(qū)以形成完整上下文。

DE 讀取路徑： KV-Cache 直接進(jìn)入 DE 緩沖區(qū)。在 PE 預(yù)填充期間，對(duì)應(yīng)層的緩存跨節(jié)點(diǎn)傳輸至 PE HBM（計(jì)算重疊）。計(jì)算結(jié)束后，PE 僅需傳回新生成的 KV-Cache 片段與 DE 原有緩存合并。

解碼與持久化： DE 緩沖區(qū)接收完整 KV-Cache 后啟動(dòng)解碼，執(zhí)行 H2D 拷貝并隨后釋放 CPU 內(nèi)存。雖然引入緩沖增加了 DRAM 壓力，但能顯著降低 GPU 顯存占用并優(yōu)化首字延遲（TTFT）。生成過(guò)程中，每累積滿(mǎn)一個(gè) Block（如 64 Token）即觸發(fā)異步持久化。

但就像前面提到的，“繞路”加載會(huì)帶來(lái)新問(wèn)題：比如搬運(yùn)緩存的流量撞上了模型計(jì)算的通信，怎么辦？

對(duì)此，DualPath 給出了兩套優(yōu)化方案：

首先是以計(jì)算網(wǎng)卡（CNIC）為中心的流量管理，強(qiáng)制所有流量通過(guò)配對(duì)的 CNIC 走 GPUDirect RDMA 路徑。

在 InfiniBand 或 RoCE 網(wǎng)絡(luò)中，利用虛擬層（VL / TC）技術(shù)，將推理通信設(shè)為“最高優(yōu)先級(jí)”并預(yù)留 99% 帶寬，讓緩存搬運(yùn)只能在間隙中“蹭”帶寬，確?；ゲ桓蓴_。

其次是自適應(yīng)請(qǐng)求調(diào)度器：調(diào)度器會(huì)盯著每個(gè)節(jié)點(diǎn)的磁盤(pán)隊(duì)列長(zhǎng)度和 Token 數(shù)。系統(tǒng)會(huì)優(yōu)先將任務(wù)分配給 I/O 壓力較小且計(jì)算負(fù)載較輕的節(jié)點(diǎn)，從根本上避免單側(cè)網(wǎng)卡或單點(diǎn)計(jì)算資源的擁塞。

在實(shí)驗(yàn)階段，DualPath 在 DeepSeek-V3、Qwen 等模型上進(jìn)行了測(cè)試，場(chǎng)景覆蓋了離線(xiàn) Rollout 和在線(xiàn)服務(wù)。

如開(kāi)頭所說(shuō)，在離線(xiàn)推理中，DualPath 將端到端吞吐量提高了高達(dá) 1.87 倍，在線(xiàn)服務(wù)吞吐量平均提升 1.96 倍，顯著降低了首字延遲（TTFT），且保持了極其穩(wěn)定的 Token 間延遲（TBT）。

總的來(lái)說(shuō)，DualPath 證明了通過(guò)重新思考數(shù)據(jù)加載路徑可以有效突破當(dāng)前大模型推理的 I/O 墻。

它成功利用了解碼引擎原本被浪費(fèi)的 I/O 帶寬，配合自適應(yīng)調(diào)度和嚴(yán)謹(jǐn)?shù)牧髁扛綦x機(jī)制，在不增加硬件成本的前提下，大幅提升了智能體 LLM 推理系統(tǒng)的效率。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話(huà)通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話(huà)：010-82306118；郵箱：aet@chinaaet.com。

DeepSeek新论文剧透V4新框架

日期： 2026-02-27

來(lái)源：IT之家

相關(guān)內(nèi)容