123,123

Gen-Z 终“认输”，并入CXL

日期： 2021-11-15

來(lái)源：半导体行业观察

關(guān)鍵詞： Gen-Z CXL

　　據(jù)報(bào)道，Gen-Z 互連背后的推動(dòng)者正在認(rèn)輸。資料顯示，制造商 AMD、架構(gòu)設(shè)計(jì)公司ARM、兩家服務(wù)器供應(yīng)商戴爾和 HPE、內(nèi)存制造商美光和 FPGA 專家賽靈思自 2016 年以來(lái)一直在開(kāi)發(fā) Gen-Z，以便通過(guò)協(xié)議處理器、PCI- Express 內(nèi)存和加速器進(jìn)行通信。

　　然而，Gen-Z 聯(lián)盟缺少兩個(gè)重要的名字：英特爾和英偉達(dá)。雖然英偉達(dá)最終在 2020 年 8 月加入該聯(lián)盟。但英特爾推出了相互競(jìng)爭(zhēng)的互連 Compute Express Link （CXL），改聯(lián)盟的支持者有阿里巴巴、思科、戴爾 EMC、Facebook、谷歌、HPE、華為和微軟。

　　當(dāng) AMD、ARM、IBM、Nvidia 和 Xilinx 于 2019 年夏末加入Gen-Z聯(lián)盟時(shí)，我們能明顯察覺(jué)到它們將面臨困難時(shí)期。兩個(gè)財(cái)團(tuán)隨后相互合作——但自 2020 年 5 月以來(lái)沒(méi)有發(fā)布任何新聞稿，Gen-Z也沉默了?，F(xiàn)在，Gen-Z 想要完全停止自己的開(kāi)發(fā)，將這個(gè)領(lǐng)域留給 CXL。

　　Gen-Z 并入 CXL

　　從CXL支持者提供的消息可以看到，GenZ的做法是希望將所有規(guī)格和資產(chǎn)轉(zhuǎn)移到CXL聯(lián)盟，但這仍需要各方的同意。值得一提的是，行業(yè)內(nèi)仍有 CCIX 和 OpenCAPI與之競(jìng)爭(zhēng)，但行業(yè)正在朝著 CXL 方向發(fā)展。

　　AMD 的 Infinity Fabric 專門用于將其自己的 Eypc 處理器與 Instinct 加速器耦合，就像 Nvidia 的 NV-Link 與 IBM 的 Power CPU 及其自己的 GPU 加速器（如 A100）一樣。

　　英特爾即將推出的用于服務(wù)器的處理器系列 Sapphire Rapids 是第一代能夠處理 CXL，它在第一次迭代中基于 PCI Express 5.0，但希望快速切換到 PCIe 6.0 以獲得更高的傳輸速率。AMD 緊隨其后的是 CPU 系列 Epyc 7004，別名 Genoa。三星已經(jīng)宣布 CXL 內(nèi)存擴(kuò)展器為 PCIe DRAM。

　　前情提要：CXL與GEN-Z聯(lián)手

　　從某種角度看，再現(xiàn)上世紀(jì)80年代末和90年代初的總線大戰(zhàn)會(huì)很有趣。供應(yīng)商之間為爭(zhēng)奪他們所控制的標(biāo)準(zhǔn)而進(jìn)行的斗爭(zhēng)最終導(dǎo)致了PCI-X和PCI-Express總線的創(chuàng)建，這些總線以及分支InfiniBand interconnect在服務(wù)器領(lǐng)域占據(jù)了20年的主導(dǎo)地位，以及分支InfiniBand interconnect，它最初是作為一個(gè)通用的交換結(jié)構(gòu)來(lái)連接高帶寬和低延遲的所有東西。這可能要比其他情況下花費(fèi)更長(zhǎng)的時(shí)間——改寫(xiě)歷史是很困難的。

　　但我們可以告訴你的是，我們?cè)谶^(guò)去幾個(gè)月里討論過(guò)，那些經(jīng)歷過(guò)總線戰(zhàn)爭(zhēng)的勇士們已經(jīng)從他們創(chuàng)造的歷史中吸取了教訓(xùn)，他們不愿意在運(yùn)輸和協(xié)議方面進(jìn)行曠日持久的戰(zhàn)斗，這些協(xié)議為混合計(jì)算引擎提供了內(nèi)存一致性。原因是我們沒(méi)有時(shí)間聽(tīng)這些廢話，而且隨著全球經(jīng)濟(jì)很可能陷入衰退，我們更沒(méi)有時(shí)間聽(tīng)這些鬼話和自我膨脹。

　　這就是為什么我們?cè)谕恢苡谌ツ?月在圣何塞舉辦了下一次I/O平臺(tái)活動(dòng)，這是一個(gè)愉快的巧合，而不是計(jì)劃，所有關(guān)鍵一致性工作的成員——英特爾的Compute Express Link（CXL）、IBM的Concordent Accelerator Interface（CAPI）和OpenCAPI superset，Xilinx的Accelerators緩存一致性互連（CCIX）和AMD的Infinity Fabric、Nvidia的NVLink互連和Hewlett-Packard Enterprise的Gen-Z互連，以及戴爾早期大力支持的，所有這些都支持Intel的CXL協(xié)議互連，它本身就是PCI Express 5.0的超集，用于連接處理器和加速器并共享它們的內(nèi)存。我們同時(shí)在這里做了一個(gè)非常深入的研究，這又是一個(gè)巧合。稱之為調(diào)和收斂。

　　CXL和它的連貫內(nèi)存互連被設(shè)計(jì)成將處理器與它們的加速器和系統(tǒng)內(nèi)的內(nèi)存類存儲(chǔ)連接起來(lái)，Gen-Z最初被設(shè)計(jì)成一個(gè)內(nèi)存結(jié)構(gòu)，可以有許多不同的計(jì)算引擎掛在它上面，共享各種各樣的內(nèi)存。沒(méi)有規(guī)定說(shuō)CXL不能擴(kuò)展到服務(wù)器的金屬外殼之外，以在一個(gè)、兩個(gè)或三個(gè)機(jī)架上的多個(gè)服務(wù)器節(jié)點(diǎn)上提供一致的內(nèi)存訪問(wèn)（例如，就像GigaIO正在進(jìn)行的PCI-Express交換互連一樣）。同樣，也沒(méi)有規(guī)定Gen-Z不能用作服務(wù)器節(jié)點(diǎn)中的協(xié)議。嗯，根據(jù)經(jīng)濟(jì)學(xué)原理，CXL可能比Gen-Z更便宜，這主要是由于硅光子學(xué)涉及到長(zhǎng)距離的相干性。（我們還深入研究了HPE在2019年9月編寫(xiě)的Gen-Z交換芯片，并且還審查了Gen-Z聯(lián)盟正在原型化以創(chuàng)建池主內(nèi)存的Gen-Z內(nèi)存服務(wù)器。）

　　不過(guò)，根據(jù)Gen-Z聯(lián)盟主席、戴爾服務(wù)器架構(gòu)和技術(shù)主管Kurtis Bowman與CXL聯(lián)盟主席、英特爾技術(shù)項(xiàng)目主管Jim Pappas簽署的一份諒解備忘錄，這兩個(gè)可能交戰(zhàn)的陣營(yíng)已經(jīng)埋下了仇恨。他們已經(jīng)決定完全不使用任何hatchets，并努力使CXL和Gen-Z能夠在適當(dāng)?shù)牡胤交ゲ僮骱突ミB。具體來(lái)說(shuō)，他們已經(jīng)成立了一個(gè)聯(lián)合工作組來(lái)解決這些分歧，努力使這些技術(shù)保持一致。（仔細(xì)想想，這似乎是合理的。）

　　“你可能見(jiàn)過(guò)這樣的場(chǎng)景，兩條鐵軌從兩個(gè)不同的地方連接過(guò)來(lái)，但是他們錯(cuò)過(guò)了，”Pappas表示：“這個(gè)工作小組的任務(wù)是確?；疖囓壍肋B接在一起?！?/p>

　　Bowman和Pappas在過(guò)去的幾個(gè)月里都和我們討論過(guò)使用CXL作為服務(wù)器內(nèi)部Gen-Z織物的潛在安裝點(diǎn)，我們懷疑這就是他們?nèi)绾畏指頖en-Z硅的方法，直到Gen-Z硅大量生產(chǎn)出來(lái)。HPE Gen-Z芯片組的高帶寬硅光子學(xué)將是Cadillac版本的連接服務(wù)器到內(nèi)存（要么是原始的、聚合的內(nèi)存，要么是加速器或協(xié)處理器內(nèi)部的內(nèi)存），而CXL端口將是Chevy版本，具有更短的距離和更低的帶寬。

　　Pappas解釋說(shuō)：“兩種方案的DNA中都有記憶?！笔褂肅XL，你觸及的范圍有限，因?yàn)樗旧鲜荘CI-Express。但有了Gen-Z，您就有了更大的距離——機(jī)架、行甚至數(shù)據(jù)中心。但歸根結(jié)底，你有一個(gè)連貫的CPU接口，即CXL，然后Gen-Z讓你把所有的接口都帶到更遠(yuǎn)的地方，讓它工作?！?/p>

　　目前還沒(méi)有嘗試合并傳輸或協(xié)議的說(shuō)法，但從長(zhǎng)遠(yuǎn)來(lái)看，如果CXL最終成為運(yùn)行在各種硅光子學(xué)傳輸（包括但不限于Gen-Z）上的協(xié)議，我們不會(huì)感到驚訝。在某種程度上，PCI Express將不是系統(tǒng)總線，因此CXL不能無(wú)限期地綁定到該總線。但是，這是很多很多年以后的事了。

　　在CXL和Gen-Z的工作方式上存在一些差異，需要協(xié)調(diào)，以便它們能夠正確地相互交談。

　　Bowman解釋說(shuō)：”CXL是一個(gè)真正的硬件一致性設(shè)計(jì)，應(yīng)用軟件根本不需要意識(shí)到這一點(diǎn)?！啊盙en-Z沒(méi)有內(nèi)置的硬件一致性，因此它正在尋找一個(gè)軟件一致性模型，并使用原子等技術(shù)來(lái)實(shí)現(xiàn)這一點(diǎn)。如果您的應(yīng)用程序想要跨越一個(gè)大的內(nèi)存空間并共享特定的區(qū)域，則必須編寫(xiě)軟件才能利用這一點(diǎn)。我們無(wú)法在硬件中實(shí)現(xiàn)Gen-Z一致性的原因是，連接到內(nèi)存的機(jī)器之間的snoop循環(huán)將消耗大部分結(jié)構(gòu)帶寬。你可以兩全其美。如果您需要硬件一致性互連，CXL是一種方法，如果您需要一種結(jié)構(gòu)來(lái)共享機(jī)架內(nèi)或跨行的資源，那么Gen-Z是一種方法。但這種一致性將在軟件中實(shí)現(xiàn)?！?/p>

　　我們面臨的問(wèn)題是，誰(shuí)將成為CXL和Gen-Z的開(kāi)路先鋒。當(dāng)然，答案之一是微軟及其龐大的Azure公共云。微軟公司Azure云的杰出工程師Leendert van Doorn是CXL和Gen-Z聯(lián)合體的董事會(huì)成員，他分享了一些他對(duì)這將如何工作的想法。

　　”我把CXL看作是一個(gè)本地的節(jié)點(diǎn)互連，“van Doorn說(shuō)?！币坏┠汩_(kāi)始考慮分解（disaggregation）——特別是在機(jī)架級(jí)別上——你就需要去做別的事情，因?yàn)镻CI Express 5.0沒(méi)有擴(kuò)展到那么遠(yuǎn)。是的，您可以構(gòu)建重定時(shí)器，而且有些人過(guò)去曾經(jīng)構(gòu)建過(guò)基于PCI Express的結(jié)構(gòu)，但他們遇到了一些挑戰(zhàn)。這些都是Gen-Z已經(jīng)解決和解決的挑戰(zhàn)，我們現(xiàn)在討論的實(shí)際上是CXL和Gen-Z之間的接口?，F(xiàn)在，我們是否會(huì)看到在一個(gè)具有CXL的節(jié)點(diǎn)內(nèi)以較小的規(guī)模進(jìn)行分解？是的，當(dāng)然。我們期待看到。但是，當(dāng)您可以將其擴(kuò)展到機(jī)架上或希望跨整個(gè)機(jī)器行進(jìn)行擴(kuò)展時(shí)，真正的分解收益就會(huì)發(fā)揮作用。那就是您需要研究另一種結(jié)構(gòu)（fabric）技術(shù)的時(shí)候了?！?/p>

　　那么，微軟如何在其基礎(chǔ)設(shè)施中利用CXL和Gen-Z呢？van Doorn給出了一些提示，這些提示與我們一直以來(lái)的想法是一致的。例如，我們有基于機(jī)架的flash模塊在NVM-Express上共享數(shù)據(jù)到一個(gè)服務(wù)器機(jī)架，我們可以有基于機(jī)架的主內(nèi)存（持久的或動(dòng)態(tài)的，我們不關(guān)心）在Gen-Z上共享數(shù)據(jù)。

　　”我的服務(wù)器大約50%的成本是內(nèi)存，“van Doorn說(shuō)。因此，如果我能更有效地使用這些內(nèi)存，并在系統(tǒng)之間共享它們，就會(huì)有巨大的好處。所以你可以想象系統(tǒng)在節(jié)點(diǎn)上有一定量的內(nèi)存，然后在服務(wù)器之間共享另一塊內(nèi)存，根據(jù)需要從池中取出?！?/p>

　　一切都會(huì)歸結(jié)為延遲。van Doorn說(shuō)，DRAM內(nèi)存訪問(wèn)在節(jié)點(diǎn)內(nèi)部大約80納秒，而通過(guò)快速NUMA互連，對(duì)遠(yuǎn)程存儲(chǔ)器的典型訪問(wèn)大約為135納秒。雖然操作系統(tǒng)內(nèi)核可以在一定程度上屏蔽這種影響，但它們是顯而易見(jiàn)的。這就是為什么機(jī)架外的主內(nèi)存池（即使使用Gen-Z）將更具挑戰(zhàn)性，因?yàn)樗鼈儗⒃黾宇~外的延遲-根據(jù)范圍的不同，從數(shù)百納秒到毫秒不等。但是，對(duì)于其他持久性介質(zhì)（其固有速度比主存儲(chǔ)器慢），由于該介質(zhì)增加了設(shè)備延遲，使用Gen-Z這樣的協(xié)議跨越許多機(jī)架、行甚至更遠(yuǎn)，因?yàn)镚en-Z結(jié)構(gòu)互連將比設(shè)備快得多。而且Gen-Z的延遲比以太網(wǎng)或InfiniBand要低得多，從長(zhǎng)遠(yuǎn)來(lái)看，這應(yīng)該是row和數(shù)據(jù)中心級(jí)存儲(chǔ)互連的首選結(jié)構(gòu)。不管怎樣，這就是理論。

　　最后，延遲和可替換性的相互作用將發(fā)揮出來(lái)，我們認(rèn)為，一旦這些協(xié)議得到強(qiáng)化，設(shè)備出現(xiàn)，人們將試圖在服務(wù)器節(jié)點(diǎn)中放置盡可能少的內(nèi)存和存儲(chǔ)，以擺脫并創(chuàng)建可組合池來(lái)擴(kuò)展它。這將是最好的經(jīng)濟(jì)和技術(shù)意義。

　　另一個(gè)問(wèn)題是，CXL和Gen-Z何時(shí)會(huì)成為數(shù)據(jù)中心基礎(chǔ)設(shè)施的常規(guī)部分？Gen-Z開(kāi)發(fā)工具現(xiàn)在已經(jīng)可供聯(lián)盟成員使用，Bowman說(shuō)早期的采用者將在2022年上線，到2023年到2024年將成為主流。根據(jù)Pappas的說(shuō)法，對(duì)于CXL，硅即將投入使用，它將在2020年進(jìn)行調(diào)試，通常在那之后的一年才會(huì)投入系統(tǒng)。

　　Compute Express Link 標(biāo)準(zhǔn)介紹

　　Compute Express Link （CXL）是一種開(kāi)放式互連新標(biāo)準(zhǔn)，面向 CPU 和專用加速器的密集型工作負(fù)載，這些負(fù)載都需要在主機(jī)和設(shè)備之間實(shí)現(xiàn)高效穩(wěn)定的存儲(chǔ)器訪問(wèn)。最近宣布成立了一個(gè)支持該新標(biāo)準(zhǔn)的聯(lián)盟，同時(shí)發(fā)布了 CXL 1.0 規(guī)范。本文介紹了片上系統(tǒng) （SoC）設(shè)計(jì)人員需要了解的一些 CXL 關(guān)鍵特性，以確定這種新的互連技術(shù)在其 AI、機(jī)器學(xué)習(xí)和云計(jì)算應(yīng)用程序設(shè)計(jì)中的最佳使用和實(shí)現(xiàn)方式。

　　PCI Express （PCIe）已經(jīng)存在多年，最近完成的 PCIe 基礎(chǔ)規(guī)范 5.0 版本現(xiàn)在能夠以高達(dá) 32GT/s 的速度實(shí)現(xiàn) CPU 和外設(shè)的互連。然而，在具有大型共享內(nèi)存池和許多需要高帶寬設(shè)備的環(huán)境中，PCIe 受到了一些限制。PCIe 沒(méi)有指定支持一致性的機(jī)制，并且不能高效地管理隔離的內(nèi)存池，因?yàn)槊總€(gè) PCIe 層級(jí)都要共享一個(gè) 64 位地址空間。此外，PCIe 鏈路的延遲可能過(guò)高，無(wú)法高效管理系統(tǒng)中多個(gè)設(shè)備的共享內(nèi)存。

　　CXL 標(biāo)準(zhǔn)通過(guò)提供利用 PCIe 5.0 物理層和電氣元件的接口來(lái)消除其中一些限制，同時(shí)提供極低延遲路徑，用于主機(jī)處理器和需要共享內(nèi)存資源的設(shè)備（如加速器和內(nèi)存擴(kuò)展器）之間進(jìn)行內(nèi)存訪問(wèn)和一致緩存。支持的 CXL 標(biāo)準(zhǔn)模式主要圍繞采用 x16 通道配置并以 32GT/s 運(yùn)行的 PCIe 5.0 PHY（表 1）。x8 和 x4 通道配置也支持 32GT/s，以支持分叉。任何比 x4 通道窄或比 32GT/s 慢的模式都被稱為降級(jí)模式，這類模式在目標(biāo)應(yīng)用中顯然不常見(jiàn)。雖然 CXL 可以為許多應(yīng)用帶來(lái)立竿見(jiàn)影的性能優(yōu)勢(shì)，但是某些設(shè)備不需要與主機(jī)進(jìn)行密切交互，而是主要需要在處理大型數(shù)據(jù)對(duì)象或連續(xù)流時(shí)發(fā)出工作提交和完成事件的信號(hào)。對(duì)于此類設(shè)備，在加速接口使用 PCIe 就很合適，而 CXL 沒(méi)有明顯優(yōu)勢(shì)。

　　CXL 標(biāo)準(zhǔn)定義了 3 個(gè)協(xié)議，這些協(xié)議在通過(guò)標(biāo)準(zhǔn) PCIe 5.0 PHY 以 32 GT/s 傳輸之前一起動(dòng)態(tài)復(fù)用：

　　CXL.io 協(xié)議本質(zhì)上是經(jīng)過(guò)一定改進(jìn)的 PCIe 5.0 協(xié)議，用于初始化、鏈接、設(shè)備發(fā)現(xiàn)和列舉以及寄存器訪問(wèn)。它為 I/O 設(shè)備提供了非一致的加載/存儲(chǔ)接口。

　　CXL.cache 協(xié)議定義了主機(jī)和設(shè)備之間的交互，允許連接的 CXL 設(shè)備使用請(qǐng)求和響應(yīng)方法以極低的延遲高效地緩存主機(jī)內(nèi)存。

　　CXL.mem 協(xié)議提供了主機(jī)處理器，可以使用加載和存儲(chǔ)命令訪問(wèn)設(shè)備連接的內(nèi)存，此時(shí)主機(jī) CPU 充當(dāng)主設(shè)備，CXL 設(shè)備充當(dāng)從屬設(shè)備，并且可以支持易失性和持久性存儲(chǔ)器架構(gòu)。

　　三個(gè)協(xié)議產(chǎn)生的數(shù)據(jù)都通過(guò)仲裁和多路復(fù)用（ARB/MUX）模塊一起動(dòng)態(tài)復(fù)用，然后被移交到 PCIe 5.0 PHY，進(jìn)而以 32GT/s 的速度進(jìn)行傳輸。ARB/MUX 在 CXL 鏈路層（CXL.io 和 CXL.cache/mem）發(fā)出的請(qǐng)求之間進(jìn)行仲裁，并根據(jù)仲裁結(jié)果復(fù)用數(shù)據(jù)，仲裁結(jié)果使用加權(quán)循環(huán)仲裁，權(quán)重由主機(jī)設(shè)置。ARB/MUX 還處理鏈路層發(fā)出的功耗狀態(tài)轉(zhuǎn)換請(qǐng)求，向物理層創(chuàng)建實(shí)現(xiàn)有序降耗操作的單個(gè)請(qǐng)求。

　　CXL 通過(guò)固定寬度的 528 位微片傳輸數(shù)據(jù)，該微片由四個(gè) 16 字節(jié)時(shí)隙組成，并添加了兩個(gè)字節(jié) CRC：（4 x 16 + 2 = 66 字節(jié)= 528 位）。插槽采用多種格式定義，可專用于 CXL.cache 協(xié)議或 CXL.mem 協(xié)議。片頭定義了插槽格式，并攜帶允許事務(wù)層將數(shù)據(jù)正確路由到預(yù)期協(xié)議的信息。

　　由于 CXL 使用 PCIe 5.0 PHY 和電氣元件，它可以有效地插入到任何可以通過(guò) Flex Bus 使用 PCIe 5.0 的系統(tǒng)中。Flex Bus 是一個(gè)靈活的高速端口，可以靜態(tài)配置為支持 PCIe 或 CXL。圖 2 舉例顯示了 Flex Bus 鏈路。這種方法使 CXL 系統(tǒng)能夠利用 PCIe 重定時(shí)器；但是，目前 CXL 僅定義為直連 CPU 鏈路，因此無(wú)法利用 PCIe 交換機(jī)。隨著標(biāo)準(zhǔn)的逐步完善，交換功能可能會(huì)被添加到標(biāo)準(zhǔn)中；如果是這樣，則需要?jiǎng)?chuàng)建新的 CXL 交換機(jī)。

電子技術(shù)圖片.png

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

Gen-Z 终“认输”，并入CXL

日期： 2021-11-15

來(lái)源：半导体行业观察

相關(guān)內(nèi)容