站在百億億次巔峰之前，Top500超算的過去、現(xiàn)在與未來

科技云報道

+ 關(guān)注

2021-12-29 18:58

600次閱讀

日前，ISC大會如期公布了2021上半年度的TOP500超算排行榜。

毫無意外，算力為445PFlops的日本理化學(xué)研究所富岳（Fugaku）超算繼續(xù)蟬聯(lián)榜首，而二三四名也與上屆和上上屆榜單一樣，被橡樹嶺國家實驗室的Summit（美國）、勞倫斯利弗莫爾國家實驗室是的Sierra（美國）、國家超算中心無錫的神威太湖之光（中國）分別收入囊中。

站在百億億次巔峰之前，Top500超算的過去、現(xiàn)在與未來

作為2020年6月建成的新一代超算，富岳（Fugaku）的制造商為日本富士通，CPU為其自研的A64FX系列處理器。

CPU采用ARM架構(gòu)設(shè)計，48核心，主頻2.2GHz；整個超算包含158,976個單路節(jié)點，總計核心數(shù)量也達(dá)到了恐怖的7,603,848個。

不同于絕大多數(shù)超算所采用的集群架構(gòu)設(shè)計，富岳（Fugaku）采用了MPP架構(gòu)設(shè)計，整臺超算以單一主機(jī)形態(tài)來執(zhí)行并行任務(wù)。

顯然，這樣的設(shè)計對超大規(guī)模的單一任務(wù)有著更高的友好度，卻也會給多任務(wù)并行帶來管理方面的挑戰(zhàn)。

由于MPP架構(gòu)中的所有CPU和內(nèi)存都在一個統(tǒng)一架構(gòu)內(nèi)，因此，對于MPP架構(gòu)對互聯(lián)架構(gòu)的性能和效率都有著更高的要求。

為此，富士通也采用了專門研發(fā)的TofuInterconnect D技術(shù)來進(jìn)行超算內(nèi)部節(jié)點間的互聯(lián)。

受疫情等因素的影響，全球絕大部分的頂級新建超算工程均出現(xiàn)了或多或少的延遲；這也使得原本計劃在2020年底或本屆TOP500榜單中出現(xiàn)的各國新一代百億億次超算推遲到了今年年底或更晚的榜單。

雖然大型超算的興建工程大受影響，但“中小型”超算由于規(guī)模相對較小，因此進(jìn)度影響相對有限。

本次TOP500共有48臺新上榜超算，排名大多集中在50-250名左右。而在更令人關(guān)注的TOP10排名當(dāng)中，新晉超算則只有來自HPE的Perlmutter一臺。

受到這些新晉“中小型”超算的影響，本次TOP500榜單的合計算力達(dá)到2786.1PFlops，相對上一屆的2428.8PFlops提升15%。

由于本屆TOP500榜單的確“乏善可陳”，因此我們也將對比范圍從一年擴(kuò)大至5年。那么，下面就讓我們來看看5年中，人類的頂尖算力發(fā)生了怎樣的變化。

01 中想過去看今朝，圖說Top500

01、國家對比

站在百億億次巔峰之前，Top500超算的過去、現(xiàn)在與未來

2016年中，中國超算數(shù)量首次超越美國，成為全球超算第一大國。5年后，中美在超算數(shù)量上的差距進(jìn)一步增大，從5年前的3臺擴(kuò)大為目前的66臺。

與此同時，歐盟和日本超算數(shù)量穩(wěn)中有升。值得注意的是，即便不將英國計算在內(nèi)，歐盟與美國的超算數(shù)量差距也在以肉眼可見的速度縮小。

不過，另一方面，我們也應(yīng)該注意到，無論是5年前還是現(xiàn)在，在TOP10的頂級榜單中，美國都能占據(jù)4-6席，而中國則僅能保持1-2席。

這證明中國雖然能夠在數(shù)量上超越美國，但在前沿領(lǐng)域，兩國仍存在明顯差距。

02、處理器品牌及架構(gòu)對比

站在百億億次巔峰之前，Top500超算的過去、現(xiàn)在與未來

無論是5年前還是現(xiàn)在，IntelXeon系列處理器仍舊是超算構(gòu)建最主流的選擇。不過伴隨近幾代AMD Zen系列架構(gòu)的強(qiáng)勢發(fā)展，越來越多企業(yè)和機(jī)構(gòu)也開始選擇使用AMD EPYC霄龍系列產(chǎn)品。

這也使得AMD在TOP500中的份額從5年前的13臺發(fā)展成為現(xiàn)在的48臺，占比接近10%。

另外一個值得注意的趨勢則是IBM Power系列處理器在超算領(lǐng)域中的衰落。雖然我們?nèi)阅茉賂OP10當(dāng)中看到Summit、Sierra這樣的頂級產(chǎn)品，但從23臺到8臺的占比也足以證明IBM和Power的式微。

預(yù)計，IBM Power系列產(chǎn)品仍將長期盤踞在TOP50這樣的“高端”排行榜中，但在更看重性價比的50名開外，用戶的確有著更具性價比的多種選擇。

第三，5年間，ARM架構(gòu)已經(jīng)取代Sparc，在超算領(lǐng)域嶄露頭角。

目前，TOP500當(dāng)中已經(jīng)有5臺采用Fujisu A64FX系列處理器的超算和一臺采用ThunderX2系列處理器的產(chǎn)品；相比之下，Sparc架構(gòu)已經(jīng)在今年的TOP500榜單中徹底消失（讓我們?yōu)镾un舉杯，緬懷這位老友）。

值得一提的是，在中歐日的百億億次計劃當(dāng)中，都有ARM的身影。

03、架構(gòu)對比

站在百億億次巔峰之前，Top500超算的過去、現(xiàn)在與未來

近幾年，伴隨AI等應(yīng)用的強(qiáng)勢崛起，異構(gòu)算力成了最火爆的概念。

隨之而來的便是NVIDIA暴漲的市值和以Intel為代表的各大半導(dǎo)體巨頭紛紛殺入GPU（或協(xié)處理器）領(lǐng)域。

雖然在HPC領(lǐng)域，GPU的通用計算（GPGPU）的應(yīng)用更早，但我們?nèi)阅馨l(fā)現(xiàn)，5年間，異構(gòu)超算的數(shù)量從94臺增長至146臺。

而且，在更尖端的2021年中TOP50榜單中，異構(gòu)超算的數(shù)量更是達(dá)到29臺，占比接近60%。5年前，這一數(shù)量僅為14臺，占比僅為28%。

當(dāng)然，在所有加速器當(dāng)中，NVIDIA仍舊是絕對的主流。但我們?nèi)阅芘紶柨吹絿揽拼驧atrix-2000、NEC矢量引擎或曙光Deep Computing Processor這樣的“異類”，而這讓我們興奮不已。

04、互聯(lián)網(wǎng)絡(luò)

站在百億億次巔峰之前，Top500超算的過去、現(xiàn)在與未來

互聯(lián)架構(gòu)是超算的另一大組成部分，而從上圖的對比中我們也能夠發(fā)現(xiàn)，從商用網(wǎng)絡(luò)中脫穎而出的以太網(wǎng)在5年間也取得了不小的進(jìn)步。

在2021年中的榜單當(dāng)中，使用以太網(wǎng)進(jìn)行互聯(lián)的超算數(shù)量已經(jīng)達(dá)到247臺，無限接近50%。與之相對應(yīng)的則是Infiniband這種傳統(tǒng)高性能網(wǎng)絡(luò)和各類定制網(wǎng)絡(luò)占比的降低。

造成這種現(xiàn)象的原因在于以太網(wǎng)性能的不斷提升、價格不斷降低；最新一代以太網(wǎng)交換機(jī)和網(wǎng)卡還包含了RDMA、智能網(wǎng)絡(luò)編排等重要功能，這就使得以太網(wǎng)在于傳統(tǒng)Infiniband的對比中更具吸引力。

出于同樣的原因，各類定制型網(wǎng)絡(luò)的占比也在持續(xù)降低。

一方面，在面對以太網(wǎng)時，定制型網(wǎng)絡(luò)幾無性價比可言；另一方面，定制型網(wǎng)絡(luò)通常與特殊的超算架構(gòu)相綁定，這也限制了其發(fā)展和用途。

未來，定制網(wǎng)絡(luò)并不會消失，但也只會出現(xiàn)在高精尖科研或國防等注重自主和保密的狹窄領(lǐng)域內(nèi)。

另一個值得注意的點便是OmniPath。這是英特爾在之前兩代至強(qiáng)可擴(kuò)展處理器當(dāng)中新加入的特性。

由于將很多網(wǎng)絡(luò)特性集成在了CPU內(nèi)部，OmniPath能夠為采用特定至強(qiáng)處理器的同構(gòu)超算帶來超高的處理器互聯(lián)性能。

但由于需要采購特定的處理器型號、主板型號并搭配專用的交換機(jī)，OmniPath終究沒能被更廣泛的市場所接受。

而單靠超算用戶顯然也無法支撐龐大的各類產(chǎn)品研發(fā)和制造成本。所以Intel最終取消了OmniPath產(chǎn)品線，這也就使得目前榜單中使用該互聯(lián)架構(gòu)成為了這一技術(shù)的絕唱。伴隨榜單的持續(xù)更新，OmniPath的名字在TOP500之中會逐漸消失。

05、超算架構(gòu)對比

站在百億億次巔峰之前，Top500超算的過去、現(xiàn)在與未來

Cluster（集群）與MPP是當(dāng)代超算常見的兩種架構(gòu)。在集群架構(gòu)中，各個節(jié)點相對獨立，任務(wù)在各類節(jié)點中相對獨立的進(jìn)行計算；而在MPP架構(gòu)中，各個節(jié)點中的CPU和內(nèi)存則緊密相連，作為一個整體來執(zhí)行任務(wù)。

相比于應(yīng)用更廣泛的集群架構(gòu)，MPP更易于執(zhí)行那些對內(nèi)存和計算資源有著超大規(guī)模需求的任務(wù)。

當(dāng)然，在這種結(jié)構(gòu)之下，超算對于互聯(lián)架構(gòu)有著更苛刻的帶寬和延遲需求，這使得MPP大多只能使用定制網(wǎng)絡(luò)進(jìn)行互聯(lián)。

而即便使用以太網(wǎng)，也只有CRAY的Slingshot-10這樣的超高性能以太網(wǎng)才能一戰(zhàn)。

另外，MPP架構(gòu)也有自己天生的缺點——無法使用異構(gòu)算力。

在2021年上榜的41臺MPP架構(gòu)超算中，除了排名第5的Perlmutter帶有GPU結(jié)構(gòu)之外，其余40臺MPP架構(gòu)超算均為同構(gòu)超算。

當(dāng)然，在Perlmutter當(dāng)中，CPU僅作為任務(wù)調(diào)度和為節(jié)點提供GPU所需的PCI-E Lane通道之用，核心算力仍來自于其搭載的6159個NVIDIA A100 GPU。當(dāng)然，能夠在MPP架構(gòu)上成熟實踐這一操作的，目前來看，也只有HPE CRAY一家，別無分店。

在這些功能和架構(gòu)限制之下，MPP架構(gòu)超算占比逐漸降低也就順理成章了。

06、制造商

站在百億億次巔峰之前，Top500超算的過去、現(xiàn)在與未來

相對于商用市場，超算的市場規(guī)模并不大；但由于需要承接來自國家、科研機(jī)構(gòu)和頂尖企業(yè)的需求，超算仍舊各大硬件制造商“不蒸饅頭爭口氣”的頂尖競技場。

由于收購了IBM的服務(wù)器制造業(yè)務(wù)，5年間，聯(lián)想在TOP500超算市場的份額快速提升，從84臺躍遷至184臺，進(jìn)步明顯。提升第二明顯的則是浪潮，5年間，TOP500上榜數(shù)量從20提升至58。

榜單中最大的輸家當(dāng)屬HPE，TOP500上榜數(shù)量從127降至40。即便完成了對CRAY和SGI等傳統(tǒng)超算專業(yè)品牌的收購，市場份額持續(xù)流失也是不爭的事實。

TOP500榜單中超算制造商此消彼長的背后，既有中國品牌的不斷砥礪前行的進(jìn)取之心，也有國家科研和經(jīng)濟(jì)高速發(fā)展所帶來的巨大紅利；愿這一趨勢能夠長久保持。

07、關(guān)于百億億次

站在百億億次巔峰之前，Top500超算的過去、現(xiàn)在與未來

說明：2016榜單中算力33.9PFlops，排名第二的天河2號與2021榜單中算力33.5PFlops，排名第9的天河2A雖有血緣關(guān)系，但由于加速器從之前的Xeon Phi更換為Matrix 2000，因此，并不能認(rèn)為他們是同一臺超算。特此說明。

在5年跨度的兩張TOP10榜單的對比中，我們可以看到4-5倍的算力增長，也能看到富岳超算的強(qiáng)勁實力。

而在百億億次算力即將出現(xiàn)的2021年終榜單中，第一梯隊算力將與第二梯隊產(chǎn)生更加明顯的差距。

02 全球各大經(jīng)濟(jì)體百億億次超算計劃對比

接下來讓我們看看全球各大主要經(jīng)濟(jì)體的百億億次計劃。

中國：

天河三號：將采用新一代飛騰系列處理器（ARM架構(gòu)），并安裝Matrix 2000+系列加速器（眾核架構(gòu)），預(yù)計將采用新一代TH Express-3互聯(lián)架構(gòu)。原型機(jī)已經(jīng)完成部署。

神威E級：將采用于神威太湖之光上首次部署的申威SW26010處理器（260核，眾核架構(gòu)，預(yù)計仍采用DEC Alpha的派生指令級），但預(yù)計會在制造工藝上進(jìn)行升級。神威E級將在處理器數(shù)量、加速器數(shù)量和節(jié)點數(shù)量上進(jìn)行翻倍處理，至少達(dá)到8萬個節(jié)點規(guī)模。原型機(jī)已經(jīng)完成部署。

曙光E級：將采用x86架構(gòu)的海光處理器（32核心）和曙光DeepComputing Processor，互聯(lián)架構(gòu)預(yù)計采用500Gb 6D Torus網(wǎng)絡(luò)，原型機(jī)已經(jīng)完成部署（原型機(jī)采用200Gb 6D Torus互聯(lián)）。

美國：

Aurora：由Intel和HPE CRAY共同研發(fā)制造，用戶為美國能源部阿貢實驗室。新超算將包含Intel的全套產(chǎn)品，包括但不限于第三代至強(qiáng)可擴(kuò)展處理器（IceLake架構(gòu)，10nm工藝）、Xe系列加速卡、Optane內(nèi)存以及OneAPI軟件等等。系統(tǒng)將采用HPE CRAY的Shasta架構(gòu)及管理軟件，預(yù)計將使用Slingshot-10或后續(xù)產(chǎn)品作為互聯(lián)架構(gòu)。

Frontier：由AMD和HPE CRAY共同研發(fā)制造，用戶同樣為美國能源部。新超算預(yù)計將采用第三代AMDEPYC處理器和最新一代Radeon Instinct計算卡，算力將達(dá)到1.5exaFlops（150億億次），每節(jié)點采用1CPU+4GPU的結(jié)構(gòu)，計算環(huán)境則為HPE CRAY的ROCm，互聯(lián)架構(gòu)也很有可能采用HPE CRAY 的Slingshot-10或后續(xù)產(chǎn)品。

El Capitan：由AMD和HPE CRAY共同研發(fā)制造，用戶為美國能源部勞倫斯利弗莫爾實驗室。計將采用第四代AMDEPYC處理器和最新一代Radeon Instinct計算卡，算力將達(dá)到2exaFlops（200億億次），預(yù)計2023年建成。