123,123,123

AMD发布CDNA 4架构

HBM3E加持，聚焦提升AI负载能力

日期： 2025-06-19

來源：IT之家

關(guān)鍵詞： AMD CDNA4架构 HBM

6 月 19 日消息，科技媒體 chipsandcheese 昨日（6 月 18 日）發(fā)布博文，報道稱 AMD 正式發(fā)布 CDNA 4 架構(gòu)，在保持在通用向量運算領(lǐng)域的優(yōu)勢外，主要聚焦提升低精度數(shù)據(jù)類型的矩陣乘法性能，以強化人工智能（AI）工作負(fù)載處理能力。

CDNA 4 延續(xù)了 CDNA 3 的模塊化設(shè)計，采用類似 CPU 的芯粒（chiplet）布局。每個計算芯片單元（XCD）搭載 CDNA 計算單元（CU），通過四塊基底芯片整合八塊 XCD，形成包含 256MB 內(nèi)存?zhèn)染彺娴耐暾?GPU 架構(gòu)。

與 CDNA 3 的 MI300X 相比，CDNA 4 的 MI355X 通過減少單 XCD 的 CU 數(shù)量并關(guān)閉部分單元以提升良率，但憑借更高時鐘頻率縮小了性能差距。

在低精度矩陣運算這個 AI 關(guān)鍵指標(biāo)中，CDNA 4 的每 CU 矩陣吞吐量翻倍，其 FP6 精度性能與英偉達 B200 的流式多處理器（SM）持平。

但在 8 位與 16 位數(shù)據(jù)類型中，英偉達仍保持單周期吞吐量優(yōu)勢。然而，AMD 憑借更高的 CU 數(shù)量與頻率，維持了通用向量運算（如 FP32）的絕對領(lǐng)先，單 CU 仍提供 128 條 FP32 運算管線，整體性能遠(yuǎn)超英偉達 Blackwell 架構(gòu)。

CDNA 4 的核心改進之一是提升本地數(shù)據(jù)共享（LDS）的容量與帶寬。LDS 容量從 64KB 增至 160KB，讀取帶寬翻倍至每周期 256 字節(jié)，并新增“轉(zhuǎn)置讀取”指令，優(yōu)化矩陣乘法的內(nèi)存訪問效率。

盡管英偉達的共享內(nèi)存（Shared Memory）在單核容量與緩存靈活性上更優(yōu)（最高 228KB 可分配為共享內(nèi)存或 L1 緩存），但 AMD 通過 40MB 全 GPU LDS 容量（B200 僅約 33MB）彌補了核心級存儲的不足。

顯存方面，MI355X 升級至 HBM3E 技術(shù)，總帶寬達 8TB/s，容量 288GB，顯著超越英偉達 B200 的 7.7TB/s 與 180GB。這一優(yōu)勢在大數(shù)據(jù)量運算中尤為重要，尤其當(dāng) AI 模型超出顯存容量時，AMD 的架構(gòu)可減少數(shù)據(jù)交換延遲。

該媒體認(rèn)為 AMD 的 CDNA 4 延續(xù)了 CDNA 3 的“保守進化”路線，類似 Zen 3 到 Zen 4 的迭代邏輯，通過優(yōu)化而非顛覆性創(chuàng)新鞏固優(yōu)勢。其策略聚焦于擴大計算規(guī)模與顯存帶寬，同時針對性補足 AI 短板。

該媒體認(rèn)為在提升性能方面，AMD 和英偉達的路徑差異顯著：AMD 依賴“大芯片 + 大緩存”模式，而英偉達更注重顯存帶寬與單核效率。

Magazine.Subscription.jpg

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

AMD发布CDNA 4架构

日期： 2025-06-19

來源：IT之家

相關(guān)內(nèi)容