專家團(tuán)|宇婷:從去IOE到CIPU,中國云計算要走出自己的路徑

采訪、撰文|宇婷
2022年中,首都國際機(jī)場出機(jī)口,人群熙熙攘攘,疫情逐漸淡下,行人往返順暢。出機(jī)口右手邊一個碩大的廣告牌上,白底橘色的字寫著:為了無法計算的價值。這是阿里云7年前的舊slogan,但配上了“機(jī)械工業(yè)九院”的最新智能制造案例。
時空交錯,回到過去。
重提計算價值,是阿里云對于自己當(dāng)下的自我“梳理”,但似乎也是對云計算行業(yè)的提醒。
十年前中國科學(xué)院院士、阿里云創(chuàng)始人王堅博士對于云計算成為一種公共資源的布道。再早1961年,在麻省理工學(xué)院100周年紀(jì)念典禮上,麥卡錫第一次提出了“Utility Computing”(效用計算)的理想。
云計算發(fā)展到現(xiàn)在,形成一些行業(yè)共識:第一,云計算的技術(shù)水平,影響著云廠商的經(jīng)營和盈利能力;其次,云計算技術(shù)路線的選擇,對技術(shù)水平的高低有決定性影響;第三,技術(shù)路線還在快速迭代中,下一代云計算技術(shù)往何處走,AWS等領(lǐng)頭羊廠商們尚無定論。
一個技術(shù)代際比想象的要長得多。事實是,只有個位數(shù)的廠商有能力和資源推動這場技術(shù)變革。但推動變革需要從底層技術(shù)出發(fā),這需要跳脫出眼前的商業(yè)成單,做長遠(yuǎn)技術(shù)布局。只有云計算的規(guī)模經(jīng)濟(jì)效應(yīng)發(fā)揮到極致,廠商們也一定會受到商業(yè)的“褒獎”。
計算終將變成一種公共資源,和水、電、煤氣一樣,被每一個人使用。有投入能力,有場景,有數(shù)據(jù)的頭部廠商,真正做了自己應(yīng)做之事,計算普惠到中小企業(yè)和個人。
阿里云其實可以對自己更柔和些,但重新提及“無法計算的價值”,顯然他們選擇了更犀利的道路。阿里云上半年規(guī)模超過1000億實現(xiàn)盈利,市場份額和毛利很重要,但是眼光應(yīng)該往前看,看到技術(shù)趨勢實踐它,做出來。這是行業(yè)領(lǐng)先者應(yīng)做之事。
企業(yè)和人一樣,不可有傲氣,但不可無傲骨。
在重提計算價值這件事上,能重提自己的初心,提出“Back to Basic”,是為“無傲氣”。
云計算不是新瓶裝舊酒,最終會變成電,但要自己跋涉出一條技術(shù)長征路,是為“有傲骨”。

圖片:首都機(jī)場
2022年中,阿里云發(fā)布了自己的CIPU。十年前的去IOE和阿里云當(dāng)下發(fā)布CIPU有很強(qiáng)的共同點:“因”是業(yè)務(wù)需求而產(chǎn)生,“果”是實現(xiàn)技術(shù)突破,帶動下一個技術(shù)階段。
在通往云計算成為一種通用計算的終極目標(biāo)上,云計算作為IT行業(yè)的新興技術(shù),形態(tài)還在不斷演進(jìn)中。客觀地說,上一個十年,阿里云做對了“去IOE”與飛天自主研發(fā)這件事,決定了今天阿里云與中國其他云計算廠商的不同——自研技術(shù)。
歷時三年,去IOE才成功。自研是一條“長征路”,難走,因為創(chuàng)新沒有參照。但必須走,因為能解決本質(zhì)問題。
去IOE是阿里云自研的開始。2009年春節(jié)上班第一天,阿里云團(tuán)隊在北京上地的一間普通的辦公室里寫下的飛天第一行代碼,這間辦公室簡陋的都沒有空調(diào)。直到2013年5月17日,支付寶最后一臺小型機(jī)下線,這也是阿里巴巴全集團(tuán)最后一臺小型機(jī)下線。后來,飛天首次突破5K集群是阿里自研技術(shù)的里程碑。
自研開始于硬件和軟件雙方面的“無路可走”。“去IOE”是用阿里要用自研系統(tǒng),替代IBM、 Oracle和 EMC。當(dāng)時阿里的Oracle RAC集群節(jié)點數(shù)超過20個是亞洲第一,Oracle數(shù)據(jù)庫后期抗不住雙十一洪峰。沒有選擇OpenStack,自研飛天,是因為世界上所有的開源軟件公司沒有應(yīng)對過阿里云要應(yīng)對的數(shù)據(jù)量和雙十一洪峰。在飛天5K的時間節(jié)點上,沒有軟件能實現(xiàn)超過5000臺機(jī)器的集群處理。
無路的另一方面是解決成本問題。“如果阿里在2013年雙11還用的是Oracle,則需要根據(jù)350億成交總額,補(bǔ)交Oracle數(shù)據(jù)庫的服務(wù)費,這是一份驚人的成績單。”一篇報道中還提到相應(yīng)的高昂費用。
做成“去IOE”和飛天,阿里云是有資格被公認(rèn)為中國第一個相信云計算不是新瓶裝舊酒的公司。
阿里云確實投入了巨大的堅信和付出。
王堅在斯坦福大學(xué)演講飛天的時候,被認(rèn)為不靠譜,王堅甚至自己也覺得大家有這種想法是對的。甚至后續(xù)加盟阿里云的人,一些人都對飛天持有懷疑。這種被質(zhì)疑,是因為比如在飛天5K的攻堅中,從設(shè)計到實現(xiàn)每一步的性能都可能出現(xiàn)不確定性。飛天最早的主創(chuàng)團(tuán)隊告訴過TO B新勢力,這就是一場實驗科學(xué)。因為系統(tǒng)的規(guī)模,微小的瓶頸都會被放大影響力,蔓延至整體。《阿里云的這群瘋子》一文中寫到飛天系統(tǒng)尚未穩(wěn)定時候,“在不同的會議室里,在不同的場合,在不同的時間。面對質(zhì)疑,后羿看到王堅沉默,看到振飛沉默,他唯獨沒有看到任何人為理想停下哪怕半步。”
堅定的背后是對技術(shù)價值的理解 —— 去IOE是并不是簡單改變軟件和硬件本身,而是用新的技術(shù)架構(gòu)替代傳統(tǒng)的IT技術(shù)和架構(gòu),這是一個自研架構(gòu)體系的逐漸迭代時。
“做深基礎(chǔ)”背后邏輯并不是簡單替換,是基于云的特點來構(gòu)建整套基礎(chǔ)體系。就像當(dāng)年阿里巴巴“去IOE”并不是做一個新的小型機(jī)替代了舊的小型機(jī),而是用阿里云這輛汽車超過了舊時代的馬車。——阿里云總裁張建鋒在接受媒體采訪時也提到。
去IOE和飛天奠定了阿里云的技術(shù)基座。云把去IOE之后的技術(shù)能力輸出,讓更多企業(yè)享受到這一技術(shù)。對于云客戶來說,不再選擇IOE,而是選擇云,這意味在根本上選擇了相信云計算。
“去IOE”與飛天不是簡單的對硬件和軟件的替換,而是新的技術(shù)架構(gòu)體系迭代。
王堅曾在采訪中說道。當(dāng)年去IOE成功,要素有三:
一是企業(yè)的戰(zhàn)略決心是否足夠強(qiáng)大,這一點沒有巧可以取。
二是能夠堅持到底,愿意承擔(dān)技術(shù)上、組織上的各種風(fēng)險。
三也是最重要的,這種看起來不可能的事需要有使命感的人和團(tuán)隊去完成。
“因為做云計算,多多少少需要點浪漫主義的精神,否則做不好。”王堅曾說。

回看整個過程,阿里云布局技術(shù)的最大的啟發(fā)是要有足夠耐心,漸進(jìn)延續(xù)自研技術(shù)路徑。從“去IOE”以及飛天5K集群,到CIPU已經(jīng)持續(xù)12年。12年的時間,逐漸建立了芯片、服務(wù)器、操作系統(tǒng)、數(shù)據(jù)庫、AI平臺,圍繞云計算的整個軟硬技術(shù)體系。
一些重要的技術(shù)布局包括:2016 年的神龍服務(wù)器實際上可以看作是今天CIPU的雛形。神龍架構(gòu)解決服務(wù)器虛擬化性能損耗。2021云棲大會,阿里巴巴旗下半導(dǎo)體公司平頭哥發(fā)布自研云芯片倚天710。以及阿里云對于一云多芯戰(zhàn)略的布局。與神龍和倚天710在打好配合的基礎(chǔ)上,進(jìn)一步形成一個明確的客戶發(fā)展路徑和生態(tài)。“一云多芯”戰(zhàn)略適配X86、ARM、Risc-V等多種架構(gòu),兼容飛騰、鯤鵬、AMD、Ampere等多種CPU。
除此之外的一些技術(shù)還包括:盤古存儲用分布式存儲提升容錯和柔性;神龍網(wǎng)絡(luò)在2021年權(quán)威機(jī)構(gòu)Gartner云網(wǎng)絡(luò)評分中排名全球第一,領(lǐng)先AWS、Azure等廠商。龍蜥服務(wù)器操作系統(tǒng)支持X86、ARM等主流芯片架構(gòu),兼容CentOS生態(tài);以及研發(fā)綠色數(shù)據(jù)中心;PolarDB、AnalyticDB、Lindorm為核心的不同場景的云數(shù)據(jù)庫產(chǎn)品矩陣。
看未來,云計算終會突破單一企業(yè)成為公共資源,在線的數(shù)據(jù)是一種資源——這是美好的愿景。回到當(dāng)下,以阿里云為代表的云計算大廠,到底要如何直面競爭?
“大家都在同一條起跑線上,大家都有同一個目標(biāo),怎么樣把成本降到最低,把性能提到最高。所以這個投入不是說有沒有什么選擇,是沒有選擇的。”張建鋒接受在最近接受專訪時提到。
他的另一個表達(dá)更為直接:“我們(阿里云)要做的東西,本來就是更底層一點,但為了客戶能用起來,我們已經(jīng)自己用業(yè)務(wù)翻譯了一層,搞各種數(shù)字化的項目,結(jié)果這個越搞越厚了,離云越來越遠(yuǎn)。”
“商業(yè)模式越來越貼近用戶的本質(zhì)需求,但是對于下面的技術(shù)要求就會越來越高。你要管理好,才有利潤。”這句話是一個對整個行業(yè)的提醒。
走向深度回歸本質(zhì)。對于云計算來說,答案無疑是底層技術(shù)。一方面,僅靠軟件調(diào)度數(shù)據(jù)中心已經(jīng)不足夠。云計算面臨挑戰(zhàn):另一方面,面臨的新型數(shù)據(jù)計算難題,以及龐大的IT資源管理成本,在數(shù)據(jù)密集型新的計算場景下,“低時延、高帶寬”挑戰(zhàn)有了新的“內(nèi)涵”。
云計算行業(yè)風(fēng)云迭起,爭奪不休,但核心未變:云計算作為IT行業(yè)的新興技術(shù),形態(tài)還在不斷演進(jìn)中,能搶先推出、推廣新技術(shù)的云廠商,就有定義行業(yè)標(biāo)準(zhǔn)的機(jī)會。當(dāng)數(shù)據(jù)量大到一定程度,必須解決成本線性增長問題。云計算底層就是要拼技術(shù)能力,來解決規(guī)模達(dá)到一定程度時候的成本和穩(wěn)定性。
十年過去,云計算已經(jīng)經(jīng)歷了分布式和虛擬化技術(shù)替代了大型機(jī),滿足了當(dāng)時企業(yè)所需的算力規(guī)模;以及資源池化技術(shù),通過計算存儲分離架構(gòu),將計算、存儲、網(wǎng)絡(luò)資源分別池化,突破了規(guī)模和穩(wěn)定性的瓶頸,提供了超大規(guī)模的云計算服務(wù)。云計算最重要的特點是軟件定義,但軟件定義同時會帶來的問題,系統(tǒng)的性能在傳輸中會有損失。從分布式到以CPU為中心的云時代,要滿足下一階段的技術(shù)要求,要在龐大的基礎(chǔ)設(shè)施上,平衡靈活性和性能。這兩個階段的共性都是通過軟件進(jìn)行定義,基于傳統(tǒng)的以CPU為中心的體系架構(gòu)去做優(yōu)化。
云計算是規(guī)模經(jīng)濟(jì),真正有能力做甚基礎(chǔ),等到臨界點之后的爆發(fā)只有少數(shù)企業(yè)。
阿里云現(xiàn)在承擔(dān)著超大規(guī)模的復(fù)雜管理問題。全球27個國家和地區(qū)、84個可用區(qū)。更具體一點看,隨著數(shù)據(jù)密集型計算越來越多,傳統(tǒng)以CPU為中心的計算體系架構(gòu)無法適應(yīng)以CPU為中心的架構(gòu)導(dǎo)致了計算和網(wǎng)絡(luò)傳輸?shù)臅r延大;大數(shù)據(jù)應(yīng)用增多,導(dǎo)致數(shù)據(jù)中心內(nèi)部數(shù)據(jù)遷移量增多,以CPU為中心的架構(gòu)無法提供高帶寬;管理的基礎(chǔ)設(shè)施規(guī)模越來越大,
與英特爾、英偉達(dá)的路線不同(產(chǎn)業(yè)鏈上的供應(yīng)商)的是,阿里云這次研發(fā)CIPU(Cloud infrastructure Processing Units)是通過云的規(guī)模、業(yè)務(wù),客戶云的需求,根據(jù)飛天操作系統(tǒng)從頂層定義,又根據(jù)垂直業(yè)務(wù)定義芯片。
CIPU的研發(fā)是要協(xié)助或者說承載飛天云操作系統(tǒng)需要去納管的整體編排、調(diào)度的上百萬臺服務(wù)。“飛天+CIPU”,形成軟硬件結(jié)合。CIPU向下接入物理的計算、存儲、網(wǎng)絡(luò)資源,快速云化并進(jìn)行硬件加速;向上接入飛天云操作系統(tǒng),管控阿里云全球上百萬臺服務(wù)器,讓算力虛擬化損耗降到0,并通過規(guī)模化應(yīng)用RDMA網(wǎng)絡(luò)技術(shù),讓訪問云端比訪問本地硬盤更快。
阿里云的解題思路在2021年已有雛形,張建鋒曾指出阿里云發(fā)展的四個核心戰(zhàn)略:做深基礎(chǔ)、做厚中臺、做強(qiáng)生態(tài)、做好服務(wù)。這其中,“做深基礎(chǔ)”投入最多、期望最高、挑戰(zhàn)最大,同時也是阿里云的立足之本。要提供最好的計算產(chǎn)品和服務(wù),就必須堅持自研,把“做深基礎(chǔ)”做到極致。
面對國際云和中國市場,阿里云發(fā)布CIPU,當(dāng)下CIPU絕對不是終極狀態(tài),就像飛天剛剛發(fā)布也遠(yuǎn)未到今天的規(guī)模。但是復(fù)盤阿里云從去IOE到CIPU的自研之路,可以看出:
無路可走之時,找回初心,就自己走出一條路。堅信感能找到這條路。
10年前,阿里云用5年突破5k技術(shù),這是阿里云的第一次技術(shù)長征,這次突破讓中國云計算與AWS等國際廠商站在同一個起跑線上。
當(dāng)前,云計算即將進(jìn)入下一個技術(shù)周期,阿里云推出CIPU,并著力圍繞CIPU打造下一代云計算體系技術(shù),這是阿里云的第二次長征。
追著走,還是自己突圍?這場長征需要在云計算競爭的白熱化以及行至水窮處,找到平衡商業(yè)和技術(shù)的柳暗花明。
阿里云也要再次面對質(zhì)疑,一家互聯(lián)網(wǎng)公司是否會受到硬件基因的制約?CIPU會否是曇花一現(xiàn)的概念?CIPU是否真會顛覆了云計算的架構(gòu)?
于外,今日長征的環(huán)境已經(jīng)變化。于內(nèi),是否相信這件事情可以做成,是否相信自己——這種信念感,決定了阿里云CIPU之路的堅定。
“我們看到云計算進(jìn)入了一個新的發(fā)展階段,我們越來越接近于下一個時代”,張建鋒在今年的云峰會上說。
公共云真正能夠體現(xiàn)出云計算在效率上的核心競爭力。
“被遺忘而不可替代,也是值得期待的事情,就像空氣一樣,是一個非常好的狀態(tài)。”2019年行顛上任后接受媒體專訪,曾經(jīng)說過,我很喜歡這句話。
古希臘史詩《奧德賽》講述了伊大卡島主人公成年英雄奧德修的10年海上冒險,自強(qiáng)不息,終回家鄉(xiāng)的故事。在大自然的面前,百折不撓“明知不可為而為之”的頑強(qiáng)與較量,“奧德賽”式的遠(yuǎn)行被賦予了自我認(rèn)知和精神式的回歸。
我回想曾經(jīng)看到的一篇文章,有一個很有趣的細(xì)節(jié),阿里云剛成立的前兩年,員工出差用餐時,開發(fā)票的服務(wù)員總是“好心”地將“阿里云計算有限公司”,寫成”阿里云計算機(jī)有限公司”。多加一個“機(jī)”字。
軟件、硬件,推動技術(shù)發(fā)展,潮流總是重復(fù)的。
今天和之前的飛天又是不一樣的。因為當(dāng)年大家會有質(zhì)疑,但是今天對于云計算已經(jīng)有足夠的共識。CIPU出生就作為戰(zhàn)略級別去推動和披露。
幾天前,在使用一款SaaS軟件的時候,它依然讓我在兩家云計算廠商中,自己選擇把數(shù)據(jù)存放在誰之上。這是一種尊重,但另外也說明了對于云廠商的信任未有定論。
10年之間,云計算仍然尚未成為真正成為和電一樣的通用的公共資源,技術(shù)變遷必然需要周期。但另一方面,中國企業(yè)級用戶關(guān)心數(shù)字化項目,也使得云廠商越來越厚。一個技術(shù)時代變遷必然需要周期,更多的“云計算”似乎還沒有完全突破單一企業(yè)的商業(yè)價值維度,變成社會通用資源。
當(dāng)下的中國需要有真正的廠商,去清醒地再次站出來,提示云計算的本質(zhì)是計算。去進(jìn)行技術(shù)布局,走出一條完全與AWS、Azure不同的道路。
今年早些采訪無影的應(yīng)用。一個細(xì)節(jié)是,機(jī)器人生產(chǎn)制造創(chuàng)業(yè)公司的創(chuàng)始人謝智衡,因為通過無影電腦的方案,能夠?qū)崿F(xiàn)遠(yuǎn)程對手術(shù)級別機(jī)器人的調(diào)試和控制,并且是在一個精密制造業(yè)的場景之中。謝智衡在接受采訪時,猶豫要不要去分享這個。但最終他認(rèn)為這件事會對整個行業(yè)有價值,幫助很多企業(yè)在不能復(fù)工復(fù)產(chǎn)的情況下生存下去,技術(shù)出身的他覺得接受采訪是有意義的。
無影持續(xù)改變計算機(jī)與應(yīng)用架構(gòu),云端和終端連接起來。這就是云計算的本質(zhì):云要用普惠技術(shù)讓企業(yè)和個人獲益。更遠(yuǎn)的未來,云的終極是讓所有人不顧及成本,都可以隨時使用。甚至未來的工程師腦海中是沒有服務(wù)器的概念的。
“多年以后,新一代的新新人類,他們會更幸運(yùn),他們接觸的一切計算環(huán)境都是云原生的。他們天生就會認(rèn)為,云計算資源是無處不在、取之不盡、用之不竭的,他們不會關(guān)心云資源在哪里、有多少。就像今天我們使用自來水一樣,沒有人會費心思考慮水從哪里來。”CIPU的負(fù)責(zé)人,阿里云蔣江偉寫過一篇文章提到。
下一個十年剛剛開始。
本文經(jīng)授權(quán)轉(zhuǎn)載自微信公眾號:To B新勢力
