国产精一区二区_午夜视频99_免费白白视频_中文字幕一区免费

分久必合?數據庫進入“超”融合時代

愛分析ifenxi
+ 關注
2022-11-01 17:47
588次閱讀

分久必合?數據庫進入“超”融合時代

分久必合?數據庫進入“超”融合時代

分久必合?數據庫進入“超”融合時代

回顧歷史,數據庫的發展經歷了從單一到多元的變化。

分久必合?數據庫進入“超”融合時代

上世紀60年代,網狀和層狀數據庫揭開了數據庫系統發展的帷幕;1970年,來自IBM實驗室的Edgar F. Codd發表了《大型共享數據庫數據的關系模型》論文,提出基于集合論和謂詞邏輯的關系模型,為關系型數據庫技術奠定了理論基礎。之后關系型數據庫快速發展,并為整個數據庫生態培育了堅實肥沃的發展土壤。

1993年,Codd進一步提出聯機分析處理(OLAP)的概念,分析型數據庫的概念也由此正式誕生,關系型數據庫逐漸分化成為事務型、分析型兩大類。

進入21世紀,互聯網蓬勃發展,數據量爆炸式增長、數據類型也極大豐富。關系型數據庫逐步遇到發展瓶頸,如容量有限、在高并發下讀寫性能低、不適合海量半結構和非結構化數據,等等。因此,一線互聯網公司開始破舊立新。谷歌在2003至2004年公布了關于GFS、MapReduce和BigTable的三篇技術論文,極具里程碑意義。其中GFS和MapReduce奠定了分布式數據系統的基礎,Hadoop由此應運而生,并快速發展成熟。以Hadoop為基石的大數據生態圈,主導了二十一世紀第一個十年的技術潮流。

而谷歌BigTable與亞馬遜的DynamoDB的推出,開啟了大數據技術的另一個重要分支NoSQL,并出現了針對不同數據類型的NoSQL數據庫,如鍵值數據庫、文檔數據庫、圖數據庫、時序數據庫等。這些專用數據庫很好地解決了針對特定數據類型和應用場景的數據存儲和處理問題,迎來了快速發展。

至此,數據庫行業進入百家爭鳴的時代。

01

數字化轉型時代,數據庫開啟融合新篇章

技術不斷發展迭代的背后,更本質的是不斷演變的需求。數據規模、數據類型、業務場景、總體擁有成本等因素的改變,都驅動著數據庫技術和形態的進化。當前,人類社會已經從以人為核心的互聯網時代,邁進了萬物智聯的數字化轉型時代,而作為承載數據的基石 —— 數據庫系統也醞釀著新一輪的變化。

數字化轉型時代,數據在各行各業間的分布發生了顯著變化。傳統行業積極擁抱數字化轉型,創造和擁有更大規模的數據,并將數據作為關鍵的生產要素之一,驅動業務的經營分析和決策。他們逐漸成為數據庫行業的“關鍵用戶”。

一方面,與互聯網企業相比,傳統行業用戶的技術能力和對數據基礎設施的投入都相對有限,特別是在技術引入的初期,因此,要求數據庫具備更低的技術門檻、更便捷的使用體驗和更低的建設成本。

另一方面,傳統行業的業務復雜度更高,生產流程長、環節多,擁有龐大的實體資產,供應鏈上下游的協作依賴更深。因此,傳統企業面臨的數據應用場景也非常多元,如BI報表、實時決策、基于機器學習的預測性分析等;同時,數據體量和多樣性也在快速增長,尤其是隨著物聯網應用的落地,像時序、GIS、圖像、視頻、文本等新興數據類型大規模涌現。

為了滿足上述多元化的數據處理與分析需求,企業通常需要分別建立一系列獨立的系統。以一個典型制造企業的系統建設為例,MES、ERP等業務系統都會對應一套獨立的關系型數據庫;面向IoT數據處理則會建設一套專用的時序數據庫;如果有圖數據分析等更多數據場景,還會疊加更多的專用數據庫;而為了實現數據挖掘,又會建設一套大數據系統……如此疊床架屋,一層套一層。復雜的數據平臺架構給企業帶來高企的成本和一系列麻煩:面對多種技術和產品,選型工作繁重;開發和運維多套系統,復雜度攀升,人員和IT基礎設施成本激增;數據多處分布,導致數據孤島和數據質量問題,整體運行效率低,穩定性差等等。

如何解決這些新時代的挑戰?將多種數據庫的能力進行融合,讓數據庫變得更加“全能”且“易用”,從而降低數據庫技術棧復雜度和技術門檻,是最直接的解決方案。數據庫和大數據廠商紛紛嘗試多種技術融合的路徑,在近十年數據庫的創新融合趨勢中,最典型的融合體現包括:NewSQL、HTAP、湖倉一體。

  • NewSQL:OLTP+大數據的融合。NewSQL將傳統關系型數據庫與分布式架構融合成,支持SQL、ACID以及彈性伸縮。最早的NewSQL數據庫Cloud Spanner由Google于2012年內部發布,以MemSQL、ScaleDB為代表。

  • HTAP:混合事務分析數據庫,OLTP+OLAP的融合。HTAP的概念由Gartner于2014年提出,通過行列存儲、大規模并行處理技術、資源隔離等核心技術實現同時滿足事務類、分析類的業務需求,以Azure SQL、TiDB為代表。

  • 湖倉一體:OLAP+大數據的融合。湖倉一體由Databricks于2020年提出,充分融合數據湖和數據倉庫的優勢,構建可以存儲結構化數據、半結構數據和非結構化數據的數據湖能力的同時,又繼承了數據倉庫的數據處理和管理功能,實現數據和計算在湖和倉之間自由流動。

可以看出,無論從需求側還是從技術側來看,數據庫都進入了融合發展的新時代。需求側在經歷了“量”的跨越式增長后,迎來“質”的變化,對數據庫的形態、體驗和成本都提出了新需求;而技術側也緊貼需求,不斷推陳出新,嘗試新的突破。整個行業在螺旋式上升,那么數據庫融合發展的下一個階段,將走向何方?

我們看到,市場中已經出現一種更為徹底的數據庫融合形態——超融合數據庫,不僅支持多類型數據(關系型、時序、GIS、文檔型、圖型、鍵值型等)的統一建模和存儲,也支持對多類型數據進行統一的查詢和分析操作。除了能以同樣的方式將各類數據寫入,也能通過同樣的方式讀取分析這些數據,在使用體驗上也實現了融合一致。同時,作為企業級產品,超融合數據庫還需要滿足各場景下的性能要求。

可以認為,超融合數據庫,是指在統一平臺下、在全量全域數據范疇內,實現:多模數據融通+ 基于SQL等通用語言的全場景查詢分析+高性能與易用性。

分久必合?數據庫進入“超”融合時代
  • 多模數據融通:超融合數據庫首先會支持多種數據類型,包括:關系型數據、時序數據、GIS數據、JSON數據、圖數據、文本數據等主要數據類型,并且在一套數據庫內對多模數據的統一管理、查詢與跨模態互通,實現數據在庫內的歸集、融通與整合分析。

  • 基于SQL的全場景查詢分析:SQL語言作為最為經典的數據查詢語言,其易用性和普及度有目共睹。歷史上也有過放棄SQL的技術路線,但最終又都紛紛回歸。歷史證明,SQL是數據分析與查詢的全球共識語言,也是保障平民化與普適性的基石。基于SQL,超融合數據庫應該盡可能多的支持各類場景下的查詢分析能力,如針對時序數據的窗口查詢及聚合查詢等,多表間的Join查詢等,甚至需要支持AI機器模型的訓練。

  • 高性能與易用性:性能保障是一切功能特性的先決條件。超融合數據庫需要提供足夠的性能和可靠性保障,以應對超大規模容量、超高壓力寫入、各類數據接入場景、實時近實時分析查詢的帶來的業務挑戰。同時,能夠提供統一的監控、告警、自動化運維及可視化UI,大幅度減輕日常部署運維的作業強度。

02

代表廠商YMatrix的超融合數據庫實踐

用一個強大的“超融合數據庫”一站式解決多種問題,是一種理想狀態。一個普遍的質疑是:一款數據庫如何既做到對多種數據類型和應用場景的融合,又做到媲美專用數據庫的優秀性能?只有在真實業務場景下的落地實踐,才能證明其可行性。

在超融合數據庫的實踐方面,YMatrix無疑是目前市場上最具代表性的一家廠商。為了探討超融合數據庫的發展趨勢和實踐進展,近期,愛分析對YMatrix進行了調研,并對YMatrix創始人&CEO姚延棟先生進行了訪談。

分久必合?數據庫進入“超”融合時代

YMatrix成立于2020年8月,至今已經獲得總規模超億元的四輪融資,投資方包括晨山資本、順義產業基金、某頭部云廠商、東方富海、中科創星、清華啟迪等。YMatrix的團隊在數據庫內核引擎開發方面擁有深厚的積累,創始人&CEO姚延棟曾擔任Greenplum北京研發中心總經理,歷經10年從0到1組建Greenplum中國研發團隊,并帶領團隊將Greenplum打造為世界前列的數據庫。

基于對數據庫融合的技術趨勢,以及物聯網時代時序數據爆發的堅定判斷,YMatrix在成立伊始就錨定了超融合數據庫方向,并選擇先從時序數據庫切入。

2021年7月,YMatrix發布了超融合時序數據庫MatrixDB4.0。經過持續打磨,YMatrix于今年10月26日正式發布了升級版的超融合數據庫YMatrix5.0,該版本的迭代重心在“超融合”層面,并實現了一系列性能和易用性的優化。其內置高性能微內核數據引擎,實現了對關系型數據、時序數據、JSON數據、鍵值數據、GIS數據、文本數據的廣泛支持,并在數據操作層面支持以標準SQL實現跨數據模型的寫入、建模、聯合查詢以及機器學習等。

分久必合?數據庫進入“超”融合時代
基于這些特性,YMatrix超融合數據庫的適用場景廣泛,尤其適用于OLAP和時序數據處理的場景,如工廠數據基座、智能網聯汽車、物聯設備智能運營、實時數據倉庫等。目前,YMatrix已經服務寧德時代、三一重工、理想汽車、小米、比亞迪等多家大型企業,驗證了其產品和服務能力。
以YMatrix服務國內新能源巨頭的案例為例。該企業原有數據平臺架構較為復雜,包括承載業務分析數據Greenplum數倉集群、承載時序數據的MySQL + Greenplum,以及Hadoop大數據平臺等。這些系統普遍存在功能和性能層面的不足,且整套體系開發成本高、運維復雜,無法支撐該企業長期發展對數據管理的承載力、效率、成本和易用性的要求。

為了解決上述問題,該企業基于YMatrix替換原有集群搭建了制造大數據平臺,承載傳統業務的關系型數據,優化了性能,并承載時序數據,補全了時序場景分析能力;基于YMatrix搭建了分支工廠的獨立數倉平臺,構建總部(云)和工廠(邊)協同架構,有效降低了集團集群的負載;此外,以YMatrix架構替代了Spark及MySQL集群,承載售后大數據分析系統,大幅簡化了系統架構,提升了性能。借助YMatrix的架構升級,該企業獲得了以下收益:

  • 整體上提升了性能,為應對業務量大規模擴張奠定基礎。

  • 基于YMatrix超融合數據庫對多模數據綜合分析需求的支持,能夠服務該企業未來5-10年的潛在需求,避免不必要的架構調整和投資浪費。

  • 數據管理成本獲得有效控制,集群規模節省超30%,且節約了對新產品、新架構的學習成本。

  • 基于YMatrix提供的大量圖形化及自動化的運維能力,以及系統架構的精簡,大幅提升了使用體驗,降低了運維復雜度。

通過YMatrix的實踐可以看到,超融合數據庫正在從一種概念設想轉變為真正的落地應用。隨著技術的持續迭代,以及應用場景的擴展和滲透,未來,超融合數據有望在數據庫市場中占據越來越大的份額,成為企業數據基礎架構的重要選擇。

以下是本次愛分析對姚延棟先生訪談內容的精選。

愛分析:您如何理解超融合數據庫?為什么選擇這個方向創業?

姚延棟:我們觀察到,最近這10年數據庫領域出現了明顯的融合趨勢,如NewSQL、HTAP、Lakehouse等,都是某種融合的體現,這是一個融合的時代。

那么,未來數據庫的融合趨勢會如何演進?我判斷未來是一個超融合的趨勢,并在2020年就提出了“超融合”這個概念,這里的超融合是指實現“OLTP+OLAP+大數據”三者的融合。

為什么我覺得超融合一定是數據庫的未來?以手機為例,在智能手機出現前,功能手機只能接聽電話,拍照、聽音樂則需要用照相機、MP3。隨著智能手機的出現,這些單一功能在智能手機這個平臺上實現了融合。這個例子背后反映的是技術從簡單到復雜,再到升維后簡化的客觀發展規律,數據庫技術的發展也必然符合這樣的規律。

從客戶需求的角度,也能進一步驗證超融合這個趨勢。實際上,客戶需求也是我們創業的出發點。具體來講,做數據庫是一件長期的事情,單產品研發就可能耗費3-5年的時間,所以我們創業需要首先判斷未來時代發展的大機會在哪里。

顯然,未來的時代是物聯網+數智化轉型的時代,而這個時代的用戶主體是廣泛的傳統企業。當前傳統企業數據庫體系復雜,建設和維護需要大量的人力、時間和資金成本,相較之下,購買能夠直接解決大部分場景需求的超融合數據庫產品,性價比更高。我們預見,未來企業對超融合數據庫產品有強需求,而超融合數據庫也將以更具競爭力的成本優勢、更快的速度和更好的創新方式賦能各行各業。

愛分析:YMatrix創立之初,為什么選擇以時序數據庫作為超融合數據庫的切入點?

姚延棟:上面提到,我們的第一個判斷是未來將會是萬物互聯和企業數智化轉型的時代。在這個時代,最大的新變量就是時序數據,并且時序數據將快速增長成為主體數據。那么從產品端,我們該如何支持時序數據?

對此,我們做了第二個判斷:時序的主要場景是分析,分析的主體數據是時序,針對時序數據的分析功能一定要做。這就是為什么我們沒有做諸如InfluxDB這類性能顯著,但不具分析功能的時序數據庫產品,最終選擇面向分析場景的Greenplum的分布式架構,并采用關系型數據庫PostgreSQL作為核心引擎研發超融合時序數據庫。當然,還有一個額外的顯而易見的優勢,就是我們的創始團隊具有10年以上Greenplum研發經驗。

愛分析:YMatrix的數據庫產品目前實現了怎樣的“超融合”?從技術上是如何實現的?

姚延棟:YMatrix采用了一種創新的技術架構,我們稱為“多微內核開放架構”。就像CPU有多個核一樣,現在數據庫也可以是“多核”的。每個內核由不同的存儲引擎和執行器組成,而這些都是針對場景優化過的。比如我們專門針對時序場景的微內核,其中包括自研的MARS2時序存儲引擎,以及經過向量化優化的執行器。目前我們提供三種微內核,分別面向TP、AP及時序場景,里面有很多專項的優化,也有一些復用的部分。基于這種架構可以讓我們非常方便的進行場景擴展,比如未來針對某類新興數據類型,我們只需要是針對新的場景研發一款新的微內核,而不是從頭到尾再重新研發一整套數據庫,效率將大幅提升。

愛分析:與專用數據庫相比,超融合數據庫為了做到功能上的融合,是否會犧牲性能上的表現?

姚延棟:不會,性能也是我們產品一直在打磨的方向。本次發布的5.0版對性能進行了全面優化,實現時序場景的寫入及查詢、單表查詢、多表關聯分析、機器學習以及OLTP等全場景處理性能的跨越式提升。

每個場景我們都有真實的測試數據作為證明:

在時序場景的寫入能力上,YMatrix5.0在真實的生產場景中寫入速度可達1.52億數據點/秒。而通常一個工廠的數據點大概在10萬點以內,1.52億是工廠場景規模的1500倍;

在時序場景的查詢性能上,對比時序數據庫獨角獸TimescaledDB耗時是YMatrix的5.1倍;

在單表查詢性能上,SSB基準測試結果表明YMatrix超融合數據庫比ClickHouse快27%;

在多表關聯分析性能上,對比MPP數據庫主流廠商Greenplum,YMatrix實現了數倍的性能提升;

在機器學習場景性能上,YMatrix庫內機器學習性能相比Spark提升了8倍;

在OLTP場景下,TPC-B國際標準測試結果表明,YMatrix超融合數據庫主鍵查詢TPS高達160萬,而絕大多數低于TPS5萬的水準。

愛分析:目前YMatrix的商業化應用場景有哪些?服務了哪些客戶?

姚延棟:YMatrix超融合數據庫的應用廣泛,尤其適用OLAP和時序數據處理的場景,如車聯網、智能制造、智慧能源、智慧交通、智慧城市等領域,可應用于工廠數據基座、智能網聯汽車、物聯設備智能運營、實時數據倉庫等場景。目前YMatrix已經服務了寧德時代、比亞迪、三一重工、理想汽車、小米等多家大型企業。

另外,YMatrix還非常適合有“選擇困難癥”的客戶。客戶經常由于業務變化出現數據庫新需求,比如時序數據庫、分析型數據庫或是湖倉一體等。YMatrix支持時序場景、分析型場景,能根據客戶需求靈活應用。而且未來如果客戶數據體量迅速擴增到更高級別比如10PB,而客戶基于成本考慮不想再購買新數據庫時,就可以使用YMatrix倉下建湖的能力,在架構底層搭建S3和HDFS進行海量數據存儲。所以客戶如果面向當下場景有數據庫選型困難的問題,面向未來業務場景有需求變化的風險,那么用YMatrix做起步是最合適的方案。

愛分析:在數據庫融合趨勢下,市場上也有很多廠商推出了“多模數據庫”。YMatrix超融合數據庫與多模數據庫的區別是什么?

姚延棟:市場中提的“多種模式”實際上是指多種數據類型,并沒有多個存儲模型或者數據模型。多模數據庫實現的是多數據類型的存儲,但當應用時,多種數據類型會出現存儲空間占用高、協同速度慢以及查詢難優化等問題,缺失操作層面的融合。多模數據庫和YMatrix超融合數據庫的區別是多模實現的只是YMatrix的底層存儲層,YMatrix還實現了上層數據操作層面的融合,支持基于SQL的全場景查詢分析和機器學習建模分析。

愛分析:怎么看未來超融合數據庫的發展前景?

姚延棟:我認為,未來所有的數據庫都會嘗試往融合方向發展,因為專用數據庫只有做到在單場景下性能比通用數據庫快10倍,才能有生存空間。預計到2025年左右,超融合數據庫就會成為主流。

YMatrix超融合數據庫由于繼承了數據庫領域中優秀產品的成功經驗,性能比多數專用數據庫優良,對比之下,一些專用數據庫廠商還需要在數據庫領域多積累經驗,持續吸收學習后才能在數據庫領域占據一席之地。

愛分析:下一步,YMatrix在產品研發和商業化等方面有哪些規劃?

后續,我們會在已經存在海量需求的時序場景深耕,嘗試替代傳統數據庫和專用類產品。數據量大、指標量多的車聯網、智能制造、智慧能源、智慧城市、智慧園區、智慧醫療等場景會是重要的方向。這些場景所產生的業務需求,將最大化體現超融合產品的價值。

本文來自微信公眾號“愛分析ifenxi”(ID:ifenxicom),36氪經授權發布。

0
相關文章
最新文章
查看更多
關注 36氪企服點評 公眾號
打開微信掃一掃
為您推送企服點評最新內容
消息通知
咨詢入駐
商務合作