阿里云 CIPU,是一場「原生」的冒險
誰能重新定義計算,誰就能重新定義商業的未來。
文 | 張鵬
過去幾十年來,很多商業變革的背后,如果去追溯的話,都可以在計算的變化上找到起點。從計算能力遵循摩爾定律不斷攀升,最終解鎖了智能手機,帶來了移動互聯網;到云計算的出現解決了超高并發和大算力的經濟性問題;再到現在追求計算的可信與安全,而不是計算效率和計算經濟性的區塊鏈… 可以說「計算」這個核心點,就是數字經濟永恒的發展基礎。技術能力的變化,以及它要解決問題的目標的變化,每跳動一次就意味著一次商業變革。
當然,不論到什么時候,計算效率的提升都是重要的問題,而效率提升最終還要回到芯片和系統的底層去尋找空間。
最近,我看到阿里云做了一件事,發布了一款自主研發的云數據中心專用處理器 CIPU(Cloud infrastructure Processing Units),并表示,CIPU 是一款為「飛天」操作系統設計的專用處理器,它將取代 CPU 成為新一代云計算架構體系的處理中心。
這里讓我疑惑的是:新概念在云計算產業中并不稀缺,單是包括 IPU、TPU、DPU 和各種 AI 芯片已經讓人應接不暇了。而阿里云推出的 CIPU 究竟是什么?它和之前的概念有什么區別?它會給我們帶來什么?
CPU 的困境,
CIPU 的緣起
我覺得阿里云推出 CIPU 其實是「蓄謀已久」:
他們之前推出的「飛天」,據說是中國唯一的自研云操作系統,這些年更是一直都在持續地投入自研云技術;去年的云棲大會,又一口氣發布了磐久、倚天、神龍 4.0 和靈杰幾個重磅產品,一步步地在「做深基礎」「向下生長」。
圖|阿里云 CIPU 發布
這次專門面向云數據中心設計 CIPU,依舊可以看作是阿里云「向下生長」邏輯的延續。
但想更好地理解 CIPU 的出現,還是有必要先說說數據中心的這些年的變化。
數據中心有個古早詞匯叫「機房」,一聽就有點舊工業氣息,在互聯網發展的早期階段,它確實也技術含量不高,更多的就是用來堆放計算機。但隨著互聯網的發展成熟,數據中心越來越成為「業務和流量復雜性的聚集地」,涌現了一系列的技術創新。
一眾科技巨頭比如亞馬遜、微軟和谷歌等也嗅到了數據中心領域的機會,紛紛重金投入,進行自研自建。阿里云這邊,2020 年 4 月就宣布了未來 3 年要再投 2000 億,用于云操作系統、服務器、芯片、網絡等重大核心技術研發攻堅和面向未來的數據中心建設。
除了看到機會,巨頭們花這么大力氣自研數據中心,也是因為傳統數據中心的軟硬件從性能、成本角度還是落后,云數據中心才能解決大規模的計算問題。既然現有設施不能滿足,就干脆重新面向云環境去做更加原生的設計,甚至可能還要體系化地重構。比如,CPU 芯片,其實并不是為了面向搭載云操作系統而設計。
阿里云的同學和我說,在過去十多年,云計算技術發展經歷了兩個階段:第一階段是分布式技術,推動互聯網企業從大機向分布式系統整個遷移;第二階段誕生了資源池化技術,進一步提高了云計算的可靠性和可用性。在這兩個階段中,都是基于傳統的、以 CPU 為中心的計算體系架構去做優化。很顯然,當阿里云自研了云操作系統飛天之后,對于 CPU 的優化只是時間和具體路徑的問題。
國際數據公司 (IDC) 一項數據顯示,全球數據量在過去 10 年年均復合增長率接近 50%,并進一步預測每四個月對于算力的需求就會翻一倍。這就意味著,隨著摩爾定律的失效,CPU 的性能會到達天花板,數據量增長后的處理需求可能難以為繼。
此外,企業在大數據、 AI 等數據密集型計算的應用場景下越來越多。阿里云基礎產品首席架構師黃瑞瑞也強調:「我們發現現在云上有很多的核心應用,實際上是數據密集型的應用。在服務這么多客戶以后,我們發現客戶對我們的訴求是逐步從業務邏輯為中心,轉向了以數據處理為中心。」
這其實都在不斷地提高了對云計算提供的低時延、高帶寬的要求。在阿里云看來,以 CPU 為中心的計算體系架構已經很難適應,面臨著很大的挑戰:以 CPU 為中心的架構數據吞吐小,計算和網絡傳輸的時延大,也無法解決超大規模的復雜管理問題;大數據應用增多,導致數據中心內部數據遷移量增多,以 CPU 為中心的架構無法提供高帶寬。
是時候需要去改變了。
阿里云的思路,其實就是從數據中心的內部體系結構里做了體系化創新,將過去以 CPU 為中心的體系架構,變成了以云操作系統+CIPU 為中心的體系架構。
圖|阿里云 CIPU 架構示意圖
在這里面,飛天云操作系統是跑在 CIPU 上,從而可以獲得更好的管理能力。黃瑞瑞進一步補充:「我們希望上百萬臺服務器整體納管、整體編排、整體調度起來,變成一臺超級計算機。這個本身也是『飛天+CIPU』想要達到的目標」。
換句話來說,「飛天+CIPU」其實是云計算數據中心體系架構的變革,而 CIPU 更像是一個大數據中心、大云計算的控制器,支撐云操作系統更高效地做云資源的管理和加速。
CIPU 當然不是唯一。圍繞數據中心的計算,在芯片和軟件上已經出現了一系列的創新,甚至還產生了不同技術的演進方向。
比如 NVIDIA 公司 2020 年發布的 DPU(Data Processing Unit),它定位在數據中心里繼 CPU 和 GPU 之后的「第三顆主力芯片」。在功能上,DPU 作為計算卸載的引擎,直接效果是給 CPU「減負」。之后在 DPU 方向,涌現了一批的創業公司。而英特爾依據數據吞吐類應用快速增長的趨勢,在 2021 年推出了 IPU(Infrastructure Processing Units),融合了與云廠商合作的經驗,試圖去 CPU 提高數據密集型場景的能力。
在阿里云看來,IPU 代表的虛擬化云化能力,和 DPU 代表的數據搬遷帶寬能力,很難融合,只有云廠商能真正做到,并且規模落地,而 CIPU 能夠突破以上兩者瓶頸。
在和阿里云內部的交流中,我感受到他們的很強的自信,因為一旦掌握了產業 Know-How,就有機會去定義未來。阿里云基礎產品負責人蔣江偉也強調,「我們 CIPU 最大的不一樣,其實是用我們頂層定義的飛天云操作系統,垂直根據業務驅動往下定義了芯片。」
應用設計領域,最近流行著一種云原生 (CloudNative) 理念,其目標是探尋云應用設計的最佳實踐路徑,以充分發揮云的效能。在云原生浪潮之下,以往的關注視角,都是從基礎設施向上看,聚焦在 PaaS、SaaS 以及應用側。但應該還有一種視角,是往下看,比如數據密集型計算的上層需求,也在推動硬件側「原生化」。云原生應該同時包含軟件和硬件的概念。
實際上,在「CIPU+飛天」的組合中,阿里云是先把云操作系統做得非常成熟。通過對于飛天的定義和迭代,實現了對于客戶需求的清晰化的感知。在此之后,才去做 CIPU。為云而生的 CIPU,與底層基礎設施進行深度定制,可以更精準垂直去解決云操作系統的管理問題。在某種程度上來講,在這個過程中,其實是完成了對于 CPU 的云原生化。
原生的最大意義是什么?也許就是實現極致性能和體驗。喬布斯在第一次 iPhone 發布會上引用了圖靈獎獲得者 Alan Kay 的名言:「對軟件極度較真的人,應該生產自己的硬件」。
圖|喬布斯在發布會上引用了 Alan Kay 的名言
如果去追溯蘋果的發展,會發現阿里云「云操作系統+CIPU」的路徑選擇與蘋果有著有趣的相似。蘋果手機先有 iOS 操作系統,一開始用的其實是三星的 CPU,后來用了自己 A 系列的 CPU;Mac 最初用了英特爾的 CPU,最后變成自研的 CPU,比如 MI 和 M2 芯片,性能驚人。通過自研的軟硬件一體,蘋果創造了極富競爭優勢的用戶體驗。兩個不同領域的公司,都在通過類似的方式去定義各自行業的未來。
當然兩者有著表面上的相似,更有著不同。
蘋果作為終端產品需要考慮復雜生態的互聯互通的問題,使用的場景是人機交互,這其實意味著可能因為路徑依賴的問題,產品并不是遵循效率第一的原則,甚至效率的提升要伴隨著巨大的阻礙,從而并不能實現原生意義上的「極致」。
比如,「QWERTY」鍵盤發明的初衷,是為了解決早期的機械打字機鍵盤的工藝發展不成熟,當打字速度太快時,很容易發生「卡殼」的問題。作為發明人美國人克里斯托夫·肖爾斯選擇了「反人類設計」,把常用字母安排在不順手的地方,從而降低打字員的速度,來解決這個問題。盡管后來隨著加工技術的進步,出現了更高效率的字母排列組合的鍵盤,但是卻沒有成為主流。
而「CIPU+飛天云操作系統」不同:首先它是面向數據中心的,是系統級別的,而不是像蘋果產品是單機的。其次它更多的是滿足了機器與機器的交互。相比于終端,阿里云通過 CIPU+飛天操作,更容易實現原生。
CIPU+飛天操作系統在調度效率及運行算力方面,為性能和體驗帶來了極大提升,而客戶端并不需要做任何代碼的修改,就能無感的享有這種云算力帶來的加速。
此外,從阿里云的產品布局來看,「CIPU+飛天」可以與其他自研產品,比如神龍計算平臺、盤古存儲平臺和洛神網絡平臺等進行深度的適配。從而實現在總體上帶來更好的性能乃至于更優的性價比。
換個視角來看,阿里云推出以 CIPU 為中心的云計算架構體系,其實意味著這家公司在嘗試去定義新一代云計算的標準。這里面未來的進展以及可能的變化,還都挺值得關注的。
很多人認為,阿里做電商、支付以及物流都對中國意義重大,我覺得這其實只是阿里對于中國商業影響的一部分。
在數字化和智能化轉型席卷各行各業的今天,阿里云的新計算,帶來新的商業變革,也許更是阿里對中國商業產生影響的另一個重要的維度。
云計算似乎又進入了一個關鍵的突破期。阿里云智能總裁張建鋒說:「我們看到云計算進入了一個新的發展階段,我們越來越接近于下一個時代,需要定義一個全新的技術體系。所以,今年我們最重要的策略是 B2B,就是 Back to Basic,回到云計算的本質。」
我覺得,很多時候想真正去定義云計算產業發展的未來,這首先比拼的是獨立思考的能力,特別是對未來計算問題的定義。而阿里云在做的努力,值得密切關注。
*頭圖來源:視覺中國
本文為極客公園原創文章,轉載請聯系極客君微信 geekparkGO
本文來自微信公眾號 “極客公園”(ID:geekpark),作者:張鵬,36氪經授權發布。
