2025年10月9日,英特爾預(yù)覽了首款采用英特爾Intel 18A制程節(jié)點(diǎn)的至強(qiáng)服務(wù)器處理器——至強(qiáng)6+(代號(hào)Clearwater Forest),預(yù)計(jì)將于2026年上半年推出。
這是英特爾迄今最高效的服務(wù)器處理器,最多有288個(gè)新一代Darkmont E核(能效核),擁有更大的緩存、更快的能效核和更大的內(nèi)存帶寬,密度、吞吐量和功率效率方面均有顯著提升,最大TDP為300-500W。
就在上周,英特爾在亞利桑那州向媒體詳細(xì)講解了Clearwater Forest的技術(shù)細(xì)節(jié)。
與上一代至強(qiáng)6700E相比,Clearwater Forest的E核數(shù)量翻倍,每核心每周期指令數(shù)(IPC)提升17%,擁有超過5倍的末級(jí)緩存(576MB),增加4個(gè)內(nèi)存通道、2個(gè)UPI鏈接,DDR5帶寬高達(dá)8000MT/s。
英特爾希望以更具成本效益的方式,將服務(wù)器CPU引入新一代制程技術(shù)。Clearwater Forest采用Intel 18A制程(1.8nm級(jí))和Foveros Direct 3D封裝,是英特爾首款采用3D架構(gòu)的至強(qiáng)處理器。
上層的12個(gè)計(jì)算tile采用Intel 18A制程;中間3個(gè)基礎(chǔ)tile采用Intel 3,2個(gè)I/O tile采用Intel 7。
下面仍用EMIB 2.5D技術(shù)封裝粘合(緩存和互連結(jié)構(gòu)分布在底部)。
Intel 18A通過RibbonFET晶體管和PowerVia背面供電兩大創(chuàng)新技術(shù)來顯著提升能效與性能。RibbonFET是全環(huán)繞柵極(GAA)晶體管架構(gòu),采用由柵極完全環(huán)繞、垂直堆疊的帶狀溝道,實(shí)現(xiàn)了更好的電流控制能力,并提供更強(qiáng)的驅(qū)動(dòng)電流。這種新型晶體管技術(shù)能夠在實(shí)現(xiàn)晶體管進(jìn)一步微縮的同時(shí)減少漏電問題發(fā)生,提高晶體管密度、能效、最小電壓(Vmin)操作和靜電性能,還實(shí)現(xiàn)了更高的靈活性。
PowerVia背面供電技術(shù)解決了傳統(tǒng)設(shè)計(jì)中混合信號(hào)線和電源線會(huì)爭奪空間資源、造成擁塞的問題,將電源線移到晶體管背面,所有信號(hào)布線在正面,實(shí)現(xiàn)兩者分離。這種創(chuàng)新帶來單元利用率和密度提升多達(dá)10%,性能提升4%。
Foveros Direct 3D封裝可將采用不同工藝節(jié)點(diǎn)、不同功能的芯片模塊垂直堆疊,bump pitch間距僅為9μm,通過銅與銅直接鍵合,能高效地在頂層與底層之間完成所有信號(hào)處理任務(wù),實(shí)現(xiàn)更高互連帶寬和更低功耗。
聚焦到SoC架構(gòu)來看,左右兩側(cè)是I/O tile,中間有3個(gè)基礎(chǔ)tile,每個(gè)基礎(chǔ)tile上堆疊了4個(gè)計(jì)算tile(藍(lán)色區(qū)域)。
Clearwater Forest的I/O tile架構(gòu)復(fù)用至強(qiáng)6設(shè)計(jì),每tile有8個(gè)加速器、48個(gè)PCIe 5.0通道、32個(gè)CXL 2.0通道、96個(gè)UPI 2.0通道。
每個(gè)基礎(chǔ)tile有192MB末級(jí)緩存、4個(gè)DDR5內(nèi)存通道,每個(gè)計(jì)算tile有48MB末級(jí)緩存。
從下圖可以看到,每個(gè)計(jì)算tile有6個(gè)模塊,每個(gè)模塊包含4個(gè)Darkmont E核、4MB共享L2緩存,因此每個(gè)計(jì)算tile有24個(gè)E核。
每個(gè)基礎(chǔ)die上有4個(gè)計(jì)算tile,共有96個(gè)E核。整個(gè)封裝里有3個(gè)基礎(chǔ)tile,總計(jì)288個(gè)Darkmont E核。
與同樣基于E核的Sierra Forest相比,新一代Darkmont E核有以下特點(diǎn):
大64KB指令集緩存
精準(zhǔn)&增強(qiáng)分支預(yù)測,提升約30%(提高整體準(zhǔn)確性)
多50%的指令集帶寬(3 x 32bit)
3 x 3-wide無序解碼器
每個(gè)周期可以同時(shí)處理8條指令,最多可按序完成并退出16條指令(提供數(shù)據(jù)并行)
處理器亂序執(zhí)行窗口的大小為416(發(fā)現(xiàn)數(shù)據(jù)并行)
執(zhí)行端口數(shù)量增加到26個(gè)(執(zhí)行數(shù)據(jù)并行)
Darkmont E核在前端、亂序執(zhí)行核心、后端執(zhí)行端口三個(gè)階段均有優(yōu)化,使IPC顯著增長。
前端負(fù)責(zé)指令的預(yù)處理工作,包括指令預(yù)取、跳轉(zhuǎn)預(yù)測和譯碼等環(huán)節(jié);亂序執(zhí)行核心負(fù)責(zé)指令的調(diào)度和并行執(zhí)行;在后端,執(zhí)行端口負(fù)責(zé)指令的最終執(zhí)行。
內(nèi)存子系統(tǒng)中,L2未命中緩沖區(qū)的大小翻倍,使其能夠存儲(chǔ)128個(gè)未命中數(shù)據(jù)。
與Crestmont E核對(duì)比,Darkmont E核的每瓦性能曲線更高。至強(qiáng)6+的性能可達(dá)到至強(qiáng)6780E性能的1.9倍,能效提升23%。
跟288核的Sierra Forest相比,Clearwater Forest性能可提升17%,每瓦性能可提升30%。
一座已運(yùn)營5年的數(shù)據(jù)中心,擁有基于第二代至強(qiáng)的70個(gè)機(jī)架、1400臺(tái)服務(wù)器。實(shí)現(xiàn)相同性能,改用Clearwater Forest只需20個(gè)機(jī)架、180臺(tái)服務(wù)器,服務(wù)器整合率達(dá)到8:1,可節(jié)省750kW的功耗、提供3.5倍的每瓦性能。
隨著下游任務(wù)日趨多元,數(shù)據(jù)中心需要具備更高的靈活性。延續(xù)至強(qiáng)6的分離式模塊化設(shè)計(jì),英特爾至強(qiáng)6+在更先進(jìn)的制程節(jié)點(diǎn)上打造出更小的計(jì)算單元,以更精巧的尺寸設(shè)計(jì)出更具成本效益的芯片,同時(shí)提升能效和性能表現(xiàn),這為數(shù)據(jù)中心服務(wù)器帶來了頗具競爭力的新選擇。