国产精一区二区_午夜视频99_免费白白视频_中文字幕一区免费

三大處理器巨頭迎戰(zhàn)“內(nèi)存墻”

半導體行業(yè)觀察
+ 關注
2022-11-15 10:08
467次閱讀

源:內(nèi)容由半導體行業(yè)觀察(ID:icbank)編譯自The Register,謝謝。

在最近推出的96 核 Epyc Genoa CPU 的發(fā)布會期間,AMD 談到了現(xiàn)代計算面臨的最大挑戰(zhàn)之一。在過去的幾年里,處理器變得更強大的速度已經(jīng)超過了為這些內(nèi)核提供數(shù)據(jù)的內(nèi)存子系統(tǒng)的速度。

“任何使用非常大內(nèi)存占用的東西都需要大量帶寬來驅(qū)動內(nèi)核,”Gartner分析師蒂姆哈維告訴The Register。“如果你隨機訪問這些數(shù)據(jù),那么你會丟失很多緩存,因此能夠非常快速地提取數(shù)據(jù)將非常有用。”

這絕不是一個新現(xiàn)象,尤其是在高性能計算 (HPC) 工作負載中。The Next Platform一段時間以來一直在跟蹤計算能力與內(nèi)存帶寬的增長比例。

但是,雖然轉(zhuǎn)向 DDR5 4,800MTps DIMM 將使帶寬比最快的 DDR4 提高 50%,但這本身并不足以滿足AMD 的 96 核 Epycs。AMD 工程師不得不通過增加內(nèi)存控制器的數(shù)量來彌補差異,從而將通道增加到 12 個。結合更快的 DDR5,Genoa 提供的內(nèi)存帶寬是 Milan 的兩倍多。

該方法并非沒有妥協(xié)。其一,添加更多通道需要為內(nèi)存控制器分配更多芯片空間。還必須考慮一些信號注意事項,以支持連接到這些通道的更多 DIMM。然后是將所有這些 DIMM 物理安裝到傳統(tǒng)機箱中的挑戰(zhàn),尤其是在雙插槽配置中。

正因如此,AMD 至少在接下來的幾代產(chǎn)品中很可能會保持在 12 通道,轉(zhuǎn)而依靠提高 DDR5 內(nèi)存速度來提升帶寬。

美光預計內(nèi)存速度在 DDR5 的生命周期內(nèi)可達到 8,800MTps。在 12 通道系統(tǒng)中,內(nèi)存帶寬約為 840GBps。

“DDR5 的性能會隨著時間的推移而提高,但我們?nèi)匀粫诳捎脙?nèi)核和內(nèi)存帶寬之間存在巨大差異,并且很難滿足它們的需求,”Harvey 說。

傲騰繼續(xù)存在

雖然 AMD 解決該問題的方法包括將更多內(nèi)存控制器物理地塞入其芯片中,并將更快的 DDR5 內(nèi)存塞入系統(tǒng)中,但英特爾對Xeon Max CPU采取了不同的方法,它將為美國能源部長期延遲的 Aurora 超級計算機提供動力。

這些芯片以前稱為 Sapphire Rapids HBM,在 56 核第四代 Xeon 可擴展處理器中封裝了 64GB 的 HBM2e 內(nèi)存,能夠提供 1TBps 的帶寬。

雖然技術上你可以完全脫離 HBM 運行芯片,但對于那些需要大量內(nèi)存來處理大型自然語言模型的人來說,英特爾支持兩種配置的分層內(nèi)存,這讓人聯(lián)想到其最近被裁掉的Optane業(yè)務部門。

在英特爾的 HBM 平面模式下,任何外部 DDR5 都充當可單獨訪問的內(nèi)存池。同時在緩存模式下,HBM 更像是 DDR5 的 4 級緩存。

盡管后者對于某些用例可能具有吸引力,因為它是透明的并且不需要任何軟件更改,但 Harvey 認為,如果它的行為類似于英特爾的 Optane 持久內(nèi)存,則 HBM 可能得不到充分利用。

“大多數(shù)時候,CPU 擅長在指令級別進行緩存;它們不太擅長在應用程序級別進行緩存,”他補充說,在平面模式下運行芯片可能很有希望,盡管這需要軟件供應商的特殊考慮。

“如果你有一個大的 HBM 緩存有效地用于主內(nèi)存,那么操作系統(tǒng)供應商,虛擬機管理程序供應商將比 CPU 更好地管理它,”他說。“CPU 看不到指令級別,而管理程序知道我將要在這個應用程序和那個應用程序之間切換,因此我可以將該應用程序預加載到 HBM 中。”

合封裝 LPDDR

為了為其第一個數(shù)據(jù)中心 CPU 實現(xiàn)類似的高帶寬,Nvidia 還將內(nèi)存轉(zhuǎn)移到了 CPU 上。但與 Intel 的 Xeon Max 不同,Nvidia 并不依賴昂貴的低容量 HBM 內(nèi)存,而是使用 LPDDR5x 模塊。

每個Grace Superchip都融合了兩個 Grace CPU 芯片——每個芯片都有 72 個 Arm Neoverse V2 內(nèi)核——通過芯片制造商的 900GB/s NVLink-C2C 互連連接。這些芯片的兩側(cè)是成排的 LPDDR5 內(nèi)存模塊,可提供 TB 的帶寬和容量。

雖然很難確定,但我們最好的猜測是每個 Grace CPU die 都連接到八個 64GB LPDDR5x 內(nèi)存模塊,運行速度大約為 8,533MTps。這將為兩個 CPU 芯片中的每一個計算出 546GBps 的帶寬。

蘋果實際上采用了類似的方法,盡管使用速度較慢的 LPDDR5 6,400MTps 內(nèi)存,以在今年早些時候在 Mac Studio 中推出的M1 Ultra 處理器上實現(xiàn) 800GBps 的內(nèi)存帶寬。然而,Apple 這樣做的原因與每核內(nèi)存帶寬的關系不大,而與為芯片的集成 GPU 供電有關。

對于 Nvidia 而言,與使用 HBM 之類的方法相比,該方法提供了一些明顯的優(yōu)勢,最大的優(yōu)勢在于容量和成本。美光等供應商提供的 HBM2e 容量最高可達 16GB。這意味著您需要四倍于 LPDDR 的模塊。

但根據(jù)哈維的說法,即使是這種方法也不是沒有妥協(xié)。將內(nèi)存靠近 CPU 封裝上意味著您放棄了靈活性。如果你需要超過 1TB 的系統(tǒng)內(nèi)存,你不能只是添加更多的 DIMM 到組合中——至少不是 Nvidia 的實現(xiàn)方式。

然而,對于英偉達這些芯片的目標市場來說,這可能仍然有意義,Harvey 解釋說。“Nvidia 非常專注于具有特定需求的 AI/ML 工作負載,而英特爾則更專注于通用工作負載。”

CXL 還不是答案

AMD 的 Genoa 和英特爾的第 4 代 Xeon 可擴展處理器都增加了對 CXL 1.1 互連標準的支持。

Astera Labs和三星等公司早期實施該技術將允許新穎的內(nèi)存配置,包括內(nèi)存擴展和內(nèi)存分層。

然而,目前,這些設備可用的帶寬有限,這意味著它們在解決 CPU 和內(nèi)存性能不匹配方面的作用有限。

AMD 的實施具有專用于 CXL 設備的 64 條通道。但是,由于這些通道的分叉方式,CXL 設備一次只能訪問其中的四個通道。由于 CXL 1.1 基于 PCIe 5.0,這意味著每個設備的帶寬限制為 16GBps。

“隨著時間的推移,它可能會為內(nèi)存帶寬打開一些東西,但我認為最初的實現(xiàn)可能不夠快,”Harvey 說。

隨著未來幾代 PCIe 的出現(xiàn),這種情況可能會改變。互連技術的帶寬通常會在每一代之后加倍。因此,通過 PCIe Gen 7.0,單個 CXL 4x 設備將擁有接近 64GBps 的可用帶寬。

就目前而言,Harvey 認為 CXL 對于內(nèi)存需求量大的應用程序最有價值,這些應用程序不一定對帶寬或分層內(nèi)存配置敏感。

本文來自微信公眾號“半導體行業(yè)觀察”(ID:icbank),36氪經(jīng)授權發(fā)布。

0
消息通知
咨詢?nèi)腭v
商務合作