国产精一区二区_午夜视频99_免费白白视频_中文字幕一区免费

熱門文章> 快云——云計算運維是什么? >

快云——云計算運維是什么?

36氪企服點評小編
2021-08-09 19:24
806次閱讀

   云不懂運營的苦惱,就像白天不懂黑夜。回首團隊十余載的“激情燃燒”歲月,往事歷歷在目,115科技創始人賴霖楓感慨道,“我們甚至成立了一個專門的‘換盤隊’,7個人的團隊每天都會更換硬盤,奔走于東莞、佛山、梅州等地的數據中心。接下來小編就給大家介紹一下快云云計算運維是什么,一起來看看吧。

快云——云計算運維是什么?云計算運維是什么?


   十年磨一劍,賴霖楓及其團隊一手建造支撐115網盤“帝國大廈”的IT基礎設施,更是在運營方面積累了非常豐富的實戰經驗:文件校驗、故障監控報警、數據防丟失恢復...連哈希算法都有自己的一套,團隊上下做了許多特殊底層的事情。

   "我們幾乎研究、實踐了所有的東西。就拿存儲器來說,DDN的系統,我們已經做到了能夠對其進行二次改造的程度。

   完全適應自身應用實際,滿足使用場景需求,多年來一路“摸爬滾打”,115團隊已形成穩定的運營體系,積聚的知識庫更稱得上行業“無出其右”。那到底是什么因素促使115轉向云端,把自己已經非常熟悉的事情交給別人去做呢?賴霖楓對以下幾點進行總結。

   第一,核心業務網盤多年穩定運行的背后,離不開IT基礎設施運營團隊的大量投入。為了提高網絡連接的效率,115小組自行建立CDN。至后期,正式的機房設備維護升級中斷,實際使用過程中遇到許多BUG。

   對此,團隊甚至自研了一套分布式存儲器準備更換,但無奈工程量太大,反復調試效果不理想,難以投入實際生產。在底層工作中投入了大量的人力、物力資源,長期來看,未必能跟上業務發展的需要。

   成本高、效率低、壓力大;網盤成本是網盤界需要重點考慮的問題。自建資源池的使用對于大容量冷數據存儲的實際效果并不好。事實上,大量的機器被壓在機房里,長期這樣必然會導致成本的大幅上升。賴霖楓表示:“當數據量達到這個規模時,資源投入、成本效益等因素更需要綜合考慮,謹慎權衡。

   另外一個現實因素就是當時的115科技在佛山的機房被一家公司收購,團隊迫不及待地去尋找新機房。如自行搬機房,一方面系統風險高實施周。

   一方面,設備機房面臨不得不搬遷的“窘境”,另一方面,與運維經驗增長“比翼齊飛”,資源瓶頸日益凸顯。上云還是不上?初步了解廠商相關信息,簡單核算后,賴霖楓和他的團隊發現上云其實是可行的,不如把專業的事情交給專業的人做,把精力都投入到業務上。

   接下來就是評估各家方案,做決定的過程。“我們最后采用的思路就是和阿里云提議高度一致的方案。”賴霖楓表示,“阿里云的遷移方案整體性非常強,涉及文件遷移、網絡遷移、業務系統遷移,不同模塊是相互區分的。包括阿里云特色的‘閃電立方’服務,針對MySQL二次開發的能力等,都是我們重點考慮的因素。”

   據了解,此次合作中,阿里云為115科技量身定制遷移方案,為確保115科技的業務不受任何影響,方案將不同地區物理機內的數據與云上的放置位置進行了一一對應的規劃,保證每一比特數據都有跡可循,并制定了非常有效的物理機回收計劃。

   賴霖楓表示,與阿里云合作,印象最深刻的有兩點。一是速度快,整體遷移僅耗時45天,創造了新的“中國速度”。2018年6月7日,115科技和阿里云宣布完成阿里云史上最大數據遷移上云項目,115科技的全部數據都搬遷至阿里云上,規模超過100PB,這也是中國互聯網史上涉及用戶量最多、數據規模最大的遷移項目之一。二是充分保障用戶數據安全,整個數據傳輸過程嚴格遵循“加密→解密→進庫”規范,一步都沒有省。

   到今天,云計算的工業實現已經不太難了。現在有開源軟件 KVM 和 Xen,這兩個東西基本把虛擬化搞定;而 OpenStack 則把管理、控制系統搞定,也很成熟。

   PaaS 也有相應的開源,比如 OpenShift,而 Java 里也有 N 多的中間件框架和技術。另外分布式文件系統 GFS/TFS,分布式計算系統 Hadoop/Hbase 等等,分布式的東西都不神秘了。技術的實現在以前可能是問題,現在不是了。

   對于云計算工程方面,現在最難的是運維。管 100 臺、1 萬臺還是 100 萬臺機器,那是完全不同的。機器少你可以用人管理,機器多是不可能靠人的。

   運維系統不屬于功能性的東西,用戶看不見,所以這是被大家嚴重低估的東西。只要你做大了,就必然要在運維系統上做文章。數據中心 / 云計算拼的就是運維能力。
為什么我說運維比較復雜,原因有這么幾個。

   一方面,云計算要用廉價設備取代那些昂貴的解決方案。所謂互聯網的文化就是屌絲文化,屌絲就是便宜,互聯網就是要用便宜的東西搭建出高質量的東西,硬件和資源一定不會走高端路線——比如 EMC、IBM 小型機、SGI 超級計算機等等,你如果用它去搭建云計算,成本太貴。

   用廉價的解決方案代替昂貴的解決方案是整個計算機發展史中到今天唯一不變的事情。所以如果你要讓夏利車跑出奔馳車的感覺,你需要自己動手做很多事,搭建一個智能的系統。用廉價的東西做出高質量的東西,運維好廉價的設備其實是云計算工程里最大的挑戰。

   另一方面,因為你機器多了,然后你用的又不是昂貴的硬件,所以故障就變成了常態,硬盤、主板、網絡天天壞。所以,沒什么好想的,運維就必須要跟上。云計算的目標是在故障成為常態的情況下保證高可用——也就是我們所說的,你服務的可用性是 3 個 9、4 個 9 還是 5 個 9。

快云信息科技有限公司,成立于2015年10月,注冊資金5000萬元,隸屬景安集團(股票代碼:832757)旗下,是國內專業的云計算公司之一!公司自主研發云計算平臺,擁有“快云”品牌,提供計算、存儲、網絡等企業必需的基礎IT資源,同時深入了解互聯網、移動互聯網、傳統企業等不同的應用場景,為其提供相應的行業解決方案。 公司現有快云服務器、快云VPS、快云數據庫、快云存儲等計算存儲產品,快云抗D、快云CDN、快云SSL、快云Waf等云安全產品,以及快云行業解決方案等一系列云計算產品。目前快云依托鄭州、北京、香港等云計算節點已為超過40萬家的企業用戶提供了云計算服務,致力成為國內可信賴、優口碑的專業云計算服務提供商。

   最后,這一大堆機器和設備都放在一起,你的安全就是一個挑戰,一方面是 Security,另一方面是 Safety,保證數十臺數百臺的設備的安全還好說,但是對于數萬數十萬臺的設計,就沒有那么簡單了。

   所以,面對這樣的難題,人是無法搞得定的,你只能依靠技術來管理和運維整個平臺。比如必須有監控系統。這跟操作系統一樣,對資源的管理,對網絡流量、CPU 利用率、進程、內存等等的狀態肯定要全部收集的。收集整個集群各種節點的狀態,是必然每個云計算都有的,都是大同小異的。
 
   然后,你還要找到可用性更好的節點,這需要有一些故障自檢的功能。比如阿里云就遇到過磁盤用到一定時候就會莫名其妙的不穩定,有些磁盤的 I/O 會變慢。變慢的原因有可是硬盤不行了,于是硬盤控制器可能因為 CRC 校驗出錯需要要多讀幾次,這就好比 TCP 的包傳過來,數據出錯了,需要重新傳。

   在這種硬盤處理半死不活的狀態時,你肯定是需要一個自動檢測或自動發現的程序去監控這種事情,當這個磁盤可能不行了,標記成壞磁盤,別用它,到別的磁盤上讀復本去。我們要有故障自動檢測、預測的措施,才能驅動故障,而不是被動響應故障,用戶體驗才會好。換句話說,我們需要自動化的、主動的運維。

   為了數據的高可用性,你只能使用數據冗余,寫多份到不同的節點——工業界標準寫三份是安全。然而,你做了冗余,又有數據一致性問題。為了解決冗余帶來的一致性問題,才有了 paxos 的投票玩法,大家投票這個能不能改,于是你就需要一個強大的控制系統來控制這些東西。

   此外,公共云人來人往,里面的資源和服務今天用明天不用,有分配有釋放,有凍結,你還得建立一個資源管理系統來管理這些資源的生命狀態。也有權限管理,就像AWS的IAM一樣,如果沒有像AWS這樣的IAM權限管理系統,AWS可能會像今天這樣被許多大公司使用。企業級云平臺需要企業級運營和管理能力。以上就是小編為大家介紹的云計算運維是什么,希望對您有幫助。

[免責聲明]

文章標題: 快云——云計算運維是什么?

文章內容為網站編輯整理發布,僅供學習與參考,不代表本網站贊同其觀點和對其真實性負責。如涉及作品內容、版權和其它問題,請及時溝通。發送郵件至36dianping@36kr.com,我們會在3個工作日內處理。

相關文章
最新文章
查看更多
關注 36氪企服點評 公眾號
打開微信掃一掃
為您推送企服點評最新內容
消息通知
咨詢入駐
商務合作