国产精一区二区_午夜视频99_免费白白视频_中文字幕一区免费

站在百億億次巔峰之前,Top500超算的過去、現在與未來

科技云報道
+ 關注
2021-12-29 18:58
581次閱讀

日前,ISC大會如期公布了2021上半年度的TOP500超算排行榜。

毫無意外,算力為445PFlops的日本理化學研究所富岳(Fugaku)超算繼續蟬聯榜首,而二三四名也與上屆和上上屆榜單一樣,被橡樹嶺國家實驗室的Summit(美國)、勞倫斯利弗莫爾國家實驗室是的Sierra(美國)、國家超算中心無錫的神威太湖之光(中國)分別收入囊中。

站在百億億次巔峰之前,Top500超算的過去、現在與未來

作為2020年6月建成的新一代超算,富岳(Fugaku)的制造商為日本富士通,CPU為其自研的A64FX系列處理器。

CPU采用ARM架構設計,48核心,主頻2.2GHz;整個超算包含158,976個單路節點,總計核心數量也達到了恐怖的7,603,848個。

不同于絕大多數超算所采用的集群架構設計,富岳(Fugaku)采用了MPP架構設計,整臺超算以單一主機形態來執行并行任務。

顯然,這樣的設計對超大規模的單一任務有著更高的友好度,卻也會給多任務并行帶來管理方面的挑戰。

由于MPP架構中的所有CPU和內存都在一個統一架構內,因此,對于MPP架構對互聯架構的性能和效率都有著更高的要求。

為此,富士通也采用了專門研發的TofuInterconnect D技術來進行超算內部節點間的互聯。

受疫情等因素的影響,全球絕大部分的頂級新建超算工程均出現了或多或少的延遲;這也使得原本計劃在2020年底或本屆TOP500榜單中出現的各國新一代百億億次超算推遲到了今年年底或更晚的榜單。

雖然大型超算的興建工程大受影響,但“中小型”超算由于規模相對較小,因此進度影響相對有限。

本次TOP500共有48臺新上榜超算,排名大多集中在50-250名左右。而在更令人關注的TOP10排名當中,新晉超算則只有來自HPE的Perlmutter一臺。

受到這些新晉“中小型”超算的影響,本次TOP500榜單的合計算力達到2786.1PFlops,相對上一屆的2428.8PFlops提升15%。

由于本屆TOP500榜單的確“乏善可陳”,因此我們也將對比范圍從一年擴大至5年。那么,下面就讓我們來看看5年中,人類的頂尖算力發生了怎樣的變化。

01、國家對比

站在百億億次巔峰之前,Top500超算的過去、現在與未來

2016年中,中國超算數量首次超越美國,成為全球超算第一大國。5年后,中美在超算數量上的差距進一步增大,從5年前的3臺擴大為目前的66臺。

與此同時,歐盟和日本超算數量穩中有升。值得注意的是,即便不將英國計算在內,歐盟與美國的超算數量差距也在以肉眼可見的速度縮小。

不過,另一方面,我們也應該注意到,無論是5年前還是現在,在TOP10的頂級榜單中,美國都能占據4-6席,而中國則僅能保持1-2席。

這證明中國雖然能夠在數量上超越美國,但在前沿領域,兩國仍存在明顯差距。

02、處理器品牌及架構對比

站在百億億次巔峰之前,Top500超算的過去、現在與未來

無論是5年前還是現在,IntelXeon系列處理器仍舊是超算構建最主流的選擇。不過伴隨近幾代AMD Zen系列架構的強勢發展,越來越多企業和機構也開始選擇使用AMD EPYC霄龍系列產品。

這也使得AMD在TOP500中的份額從5年前的13臺發展成為現在的48臺,占比接近10%。

另外一個值得注意的趨勢則是IBM Power系列處理器在超算領域中的衰落。雖然我們仍能再TOP10當中看到Summit、Sierra這樣的頂級產品,但從23臺到8臺的占比也足以證明IBM和Power的式微。

預計,IBM Power系列產品仍將長期盤踞在TOP50這樣的“高端”排行榜中,但在更看重性價比的50名開外,用戶的確有著更具性價比的多種選擇。

第三,5年間,ARM架構已經取代Sparc,在超算領域嶄露頭角。

目前,TOP500當中已經有5臺采用Fujisu A64FX系列處理器的超算和一臺采用ThunderX2系列處理器的產品;相比之下,Sparc架構已經在今年的TOP500榜單中徹底消失(讓我們為Sun舉杯,緬懷這位老友)。

值得一提的是,在中歐日的百億億次計劃當中,都有ARM的身影。

03、架構對比

站在百億億次巔峰之前,Top500超算的過去、現在與未來

近幾年,伴隨AI等應用的強勢崛起,異構算力成了最火爆的概念。

隨之而來的便是NVIDIA暴漲的市值和以Intel為代表的各大半導體巨頭紛紛殺入GPU(或協處理器)領域。

雖然在HPC領域,GPU的通用計算(GPGPU)的應用更早,但我們仍能發現,5年間,異構超算的數量從94臺增長至146臺。

而且,在更尖端的2021年中TOP50榜單中,異構超算的數量更是達到29臺,占比接近60%。5年前,這一數量僅為14臺,占比僅為28%。

當然,在所有加速器當中,NVIDIA仍舊是絕對的主流。但我們仍能偶爾看到國防科大Matrix-2000、NEC矢量引擎或曙光Deep Computing Processor這樣的“異類”,而這讓我們興奮不已。

04、互聯網絡

站在百億億次巔峰之前,Top500超算的過去、現在與未來

互聯架構是超算的另一大組成部分,而從上圖的對比中我們也能夠發現,從商用網絡中脫穎而出的以太網在5年間也取得了不小的進步。

在2021年中的榜單當中,使用以太網進行互聯的超算數量已經達到247臺,無限接近50%。與之相對應的則是Infiniband這種傳統高性能網絡和各類定制網絡占比的降低。

造成這種現象的原因在于以太網性能的不斷提升、價格不斷降低;最新一代以太網交換機和網卡還包含了RDMA、智能網絡編排等重要功能,這就使得以太網在于傳統Infiniband的對比中更具吸引力。

出于同樣的原因,各類定制型網絡的占比也在持續降低。

一方面,在面對以太網時,定制型網絡幾無性價比可言;另一方面,定制型網絡通常與特殊的超算架構相綁定,這也限制了其發展和用途。

未來,定制網絡并不會消失,但也只會出現在高精尖科研或國防等注重自主和保密的狹窄領域內。

另一個值得注意的點便是OmniPath。這是英特爾在之前兩代至強可擴展處理器當中新加入的特性。

由于將很多網絡特性集成在了CPU內部,OmniPath能夠為采用特定至強處理器的同構超算帶來超高的處理器互聯性能。

但由于需要采購特定的處理器型號、主板型號并搭配專用的交換機,OmniPath終究沒能被更廣泛的市場所接受。

而單靠超算用戶顯然也無法支撐龐大的各類產品研發和制造成本。所以Intel最終取消了OmniPath產品線,這也就使得目前榜單中使用該互聯架構成為了這一技術的絕唱。伴隨榜單的持續更新,OmniPath的名字在TOP500之中會逐漸消失。

05、超算架構對比

站在百億億次巔峰之前,Top500超算的過去、現在與未來

Cluster(集群)與MPP是當代超算常見的兩種架構。在集群架構中,各個節點相對獨立,任務在各類節點中相對獨立的進行計算;而在MPP架構中,各個節點中的CPU和內存則緊密相連,作為一個整體來執行任務。

相比于應用更廣泛的集群架構,MPP更易于執行那些對內存和計算資源有著超大規模需求的任務。

當然,在這種結構之下,超算對于互聯架構有著更苛刻的帶寬和延遲需求,這使得MPP大多只能使用定制網絡進行互聯。

而即便使用以太網,也只有CRAY的Slingshot-10這樣的超高性能以太網才能一戰。

另外,MPP架構也有自己天生的缺點——無法使用異構算力。

在2021年上榜的41臺MPP架構超算中,除了排名第5的Perlmutter帶有GPU結構之外,其余40臺MPP架構超算均為同構超算。

當然,在Perlmutter當中,CPU僅作為任務調度和為節點提供GPU所需的PCI-E Lane通道之用,核心算力仍來自于其搭載的6159個NVIDIA A100 GPU。當然,能夠在MPP架構上成熟實踐這一操作的,目前來看,也只有HPE CRAY一家,別無分店。

在這些功能和架構限制之下,MPP架構超算占比逐漸降低也就順理成章了。

06、制造商

站在百億億次巔峰之前,Top500超算的過去、現在與未來

相對于商用市場,超算的市場規模并不大;但由于需要承接來自國家、科研機構和頂尖企業的需求,超算仍舊各大硬件制造商“不蒸饅頭爭口氣”的頂尖競技場。

由于收購了IBM的服務器制造業務,5年間,聯想在TOP500超算市場的份額快速提升,從84臺躍遷至184臺,進步明顯。提升第二明顯的則是浪潮,5年間,TOP500上榜數量從20提升至58。

榜單中最大的輸家當屬HPE,TOP500上榜數量從127降至40。即便完成了對CRAY和SGI等傳統超算專業品牌的收購,市場份額持續流失也是不爭的事實。

TOP500榜單中超算制造商此消彼長的背后,既有中國品牌的不斷砥礪前行的進取之心,也有國家科研和經濟高速發展所帶來的巨大紅利;愿這一趨勢能夠長久保持。

07、關于百億億次

站在百億億次巔峰之前,Top500超算的過去、現在與未來

說明:2016榜單中算力33.9PFlops,排名第二的天河2號與2021榜單中算力33.5PFlops,排名第9的天河2A雖有血緣關系,但由于加速器從之前的Xeon Phi更換為Matrix 2000,因此,并不能認為他們是同一臺超算。特此說明。

在5年跨度的兩張TOP10榜單的對比中,我們可以看到4-5倍的算力增長,也能看到富岳超算的強勁實力。

而在百億億次算力即將出現的2021年終榜單中,第一梯隊算力將與第二梯隊產生更加明顯的差距。

接下來讓我們看看全球各大主要經濟體的百億億次計劃。

中國:

天河三號:將采用新一代飛騰系列處理器(ARM架構),并安裝Matrix 2000+系列加速器(眾核架構),預計將采用新一代TH Express-3互聯架構。原型機已經完成部署。

神威E級:將采用于神威太湖之光上首次部署的申威SW26010處理器(260核,眾核架構,預計仍采用DEC Alpha的派生指令級),但預計會在制造工藝上進行升級。神威E級將在處理器數量、加速器數量和節點數量上進行翻倍處理,至少達到8萬個節點規模。原型機已經完成部署。

曙光E級:將采用x86架構的海光處理器(32核心)和曙光DeepComputing Processor,互聯架構預計采用500Gb 6D Torus網絡,原型機已經完成部署(原型機采用200Gb 6D Torus互聯)。

美國:

Aurora:由Intel和HPE CRAY共同研發制造,用戶為美國能源部阿貢實驗室。新超算將包含Intel的全套產品,包括但不限于第三代至強可擴展處理器(IceLake架構,10nm工藝)、Xe系列加速卡、Optane內存以及OneAPI軟件等等。系統將采用HPE CRAY的Shasta架構及管理軟件,預計將使用Slingshot-10或后續產品作為互聯架構。

Frontier:由AMD和HPE CRAY共同研發制造,用戶同樣為美國能源部。新超算預計將采用第三代AMDEPYC處理器和最新一代Radeon Instinct計算卡,算力將達到1.5exaFlops(150億億次),每節點采用1CPU+4GPU的結構,計算環境則為HPE CRAY的ROCm,互聯架構也很有可能采用HPE CRAY 的Slingshot-10或后續產品。

El Capitan:由AMD和HPE CRAY共同研發制造,用戶為美國能源部勞倫斯利弗莫爾實驗室。計將采用第四代AMDEPYC處理器和最新一代Radeon Instinct計算卡,算力將達到2exaFlops(200億億次),預計2023年建成。

歐盟:

EPI項目:The EuropeanProcessor Initiative,由歐盟28個成員國共同出資,計劃包含ARM和RISC-V兩種架構的通用處理器。

采用ARM架構的RHEA SoC將包含72個ArmNeoverse Zeus內核,Mesh網格式布局,2.5D封裝,集成HBM和網絡互連模塊,使用臺積電6nm工藝制造。

采用RISC-V架構的EPAC1.0測試芯片目前已經流片,并計劃于2021年Q4推出。計劃中,每個處理器將包含四個VPU(矢量處理器)以及EXTOLL超高速片上網絡和SerDes互連技術。芯片預計將采用Chiplets封裝。

同時,由RISC-V架構多位創始人聯合創辦的SiFive公司也在競標歐洲百億億次超算項目,其處理器產品同樣采用RISC-V架構。

日本:

Post-K(后“京”):作為日本超算“京”的后續產品,Post-K將采用目前已經成功部署的富士通A64FX處理器。Post-K計算節點原型已經開發完成,I/O及計算節點有48個核心外加4個輔助核心。

系統結構每個節點使用1個CPU,采用水冷散熱, 384個節點組成一個機架。按照這一結構,預計Post-K將會有更夸張、更龐大的節點數量和核心數量。

作為一張榜單,2021年中的TOP500的確讓人提不起興趣,但2021與2016的兩張榜單對比當中,我們也的確能夠看到超算發展的各種趨勢。

站在百億億次的大門之前,我們既對未來充滿期待,也應該為那些致力于挑戰人類算力巔峰的科學家和工程師們鼓掌加油。

面對無盡的未知,算力就是照亮前路的聚光燈。

本文來自微信公眾號“科技云報道”(ID:ITCloud-BD),作者:科技云報道,36氪經授權發布。

[免責聲明]

原文標題: 站在百億億次巔峰之前,Top500超算的過去、現在與未來

本文由作者原創發布于36氪企服點評;未經許可,禁止轉載。

0
相關話題
企服洞察
相關文章
最新文章
查看更多
關注 36氪企服點評 公眾號
打開微信掃一掃
為您推送企服點評最新內容
消息通知
咨詢入駐
商務合作