《電子技術(shù)應用》
您所在的位置:首頁 > 人工智能 > 业界动态 > 英伟达Blackwell架构将AI推理成本压缩至十分之一

英伟达Blackwell架构将AI推理成本压缩至十分之一

2026-02-13
來源:IT之家
關(guān)鍵詞: 英伟达 Blackwell AI芯片 AI推理

英偉達2月12日發(fā)布博文,宣布在AI推理領(lǐng)域的“token經(jīng)濟學”(Tokenomics)方面,其 Blackwell 架構(gòu)取得里程碑式進展。

英偉達在博文中指出,通過推行“極致軟硬件協(xié)同設(shè)計”策略,優(yōu)化硬件在處理復雜 AI 推理負載時的效率,解決了隨著模型參數(shù)膨脹帶來的算力成本激增問題。數(shù)據(jù)顯示相比上一代 Hopper 架構(gòu),Blackwell 平臺將單位 Token 生成成本降低至十分之一。

format,f_avif.avif (1).jpg

行業(yè)落地方面,包括 Baseten、DeepInfra、Fireworks AI 及 Together AI 在內(nèi)的多家推理服務提供商已開始利用 Blackwell 平臺托管開源模型。

援引博文介紹,英偉達指出,通過結(jié)合開源前沿智能模型、Blackwell 的硬件優(yōu)勢以及各廠商自研的優(yōu)化推理棧,這些企業(yè)成功實現(xiàn)了跨行業(yè)的成本縮減。

format,f_avif.avif (2).jpg

例如,專注于多智能體(Multi-agent)工作流的 Sentient Labs 反饋,其成本效率相比 Hopper 時代提升了 25% 至 50%;而游戲領(lǐng)域的 Latitude 等公司也借此實現(xiàn)了更低的延遲和更可靠的響應。

format,f_avif.avif (3).jpg

Blackwell 的高效能核心在于其旗艦級系統(tǒng) GB200 NVL72。該系統(tǒng)采用 72 個芯片互聯(lián)的配置,并配備了高達 30TB 的高速共享內(nèi)存。這種設(shè)計完美契合了當前主流的“混合專家(MoE)”架構(gòu)需求,能夠?qū)?Token 批次高效地拆分并分散到各個 GPU 上并行處理。

format,f_avif.avif (4).jpg

在 Blackwell 大獲成功的同時,英偉達已將目光投向下一代代號為“Vera Rubin”的平臺。據(jù)悉,Rubin 架構(gòu)計劃通過引入針對預填充(Prefill)階段的 CPX 等專用機制,進一步推高基礎(chǔ)設(shè)施的效率天花板。

2.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。