近年來(lái),大量的新技術(shù)在大數(shù)據(jù)領(lǐng)域不斷涌現(xiàn),成為大數(shù)據(jù)采集、存儲(chǔ)、處理和可視化的有效手段。大數(shù)據(jù)技術(shù)可以挖掘隱藏在大規(guī)模數(shù)據(jù)中的信息和知識(shí),為人類社會(huì)經(jīng)濟(jì)活動(dòng)提供依據(jù),提高各個(gè)領(lǐng)域的運(yùn)行效率,乃至整個(gè)社會(huì)經(jīng)濟(jì)的集約化程度。下面就讓小編為大家介紹大大數(shù)據(jù)智能分析的核心技術(shù)。
大數(shù)據(jù)智能分析的核心技術(shù)
大數(shù)據(jù)智能分析的核心技術(shù)
大數(shù)據(jù)堆棧,底層是包含計(jì)算資源、存儲(chǔ)器和網(wǎng)絡(luò)互連的基礎(chǔ)設(shè)施,主要包括計(jì)算節(jié)點(diǎn)、集群、機(jī)柜和數(shù)據(jù)中心。上面有數(shù)據(jù)的存儲(chǔ)與管理,包括文件系統(tǒng)、數(shù)據(jù)庫(kù)以及類似YARN的資源管理系統(tǒng)。
接下來(lái)還有計(jì)算處理層,比如hadoop、MapReduce和Spark,以及在上面的各種計(jì)算范例,比如批處理、流處理和圖計(jì)算等等,包括從編程模型如BSP、GAS等衍生出計(jì)算模型。以計(jì)算處理層為基礎(chǔ)的數(shù)據(jù)分析與可視化。該分析包含簡(jiǎn)單查詢分析、流分析和更復(fù)雜的分析(例如機(jī)器學(xué)習(xí)、圖計(jì)算等等)。查詢分析多以表結(jié)構(gòu)和關(guān)系函數(shù)為基礎(chǔ),流分析基于數(shù)據(jù)、事件流和簡(jiǎn)單的統(tǒng)計(jì)分析,而復(fù)雜分析基于更復(fù)雜的數(shù)據(jù)結(jié)構(gòu)和方法,如圖、矩陣、迭代計(jì)算和線性代數(shù)。
通用含義的可視化是顯示分析結(jié)果。但通過(guò)交互可視化,也能探索性地提出問(wèn)題,使分析得到新的線索,形成反復(fù)的分析與可視化。針對(duì)大規(guī)模數(shù)據(jù)進(jìn)行實(shí)時(shí)交互式可視化分析及自動(dòng)化因素的引入是當(dāng)前研究的熱點(diǎn)。
上面兩個(gè)區(qū)域垂直貫通,需要從整體、協(xié)同的角度看待。一種是編程管理工具,方向是機(jī)器通過(guò)學(xué)習(xí)實(shí)現(xiàn)自動(dòng)優(yōu)化,盡可能不需要編程,不需要復(fù)雜配置。另外一個(gè)方面就是數(shù)據(jù)安全,并且貫穿于整個(gè)技術(shù)領(lǐng)域。在這兩個(gè)領(lǐng)域中,垂直打通每一層,還有一些技術(shù)方面是跨越多層的,比如“內(nèi)存計(jì)算”實(shí)際上涵蓋了整個(gè)技術(shù)棧。
海量數(shù)據(jù)的基本處理流程與傳統(tǒng)的數(shù)據(jù)處理流程并沒(méi)有太大的不同,主要區(qū)別是:由于大數(shù)據(jù)要處理大量的非結(jié)構(gòu)化數(shù)據(jù),因此在各個(gè)處理環(huán)節(jié)都可采用并行處理。分布式處理,如Hadoop、MapReduce和Spark,已經(jīng)成為大數(shù)據(jù)處理各個(gè)環(huán)節(jié)的通用處理方法。
Hadoop是一種分布式計(jì)算平臺(tái),允許用戶輕松地構(gòu)建和使用。通過(guò)Hadoop,用戶可以很容易地開(kāi)發(fā)和運(yùn)行處理大量數(shù)據(jù)的應(yīng)用程序。Hadoop是一種數(shù)據(jù)管理系統(tǒng),作為數(shù)據(jù)分析的核心,將結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)匯集在傳統(tǒng)的企業(yè)數(shù)據(jù)棧的每一層。
Hadoop也是一種大型并行處理框架,具有超級(jí)計(jì)算能力,可用于推動(dòng)企業(yè)級(jí)應(yīng)用的執(zhí)行。Hadoop也是一個(gè)開(kāi)放源碼社區(qū),提供工具和軟件來(lái)解決大數(shù)據(jù)問(wèn)題。盡管Hadoop提供了許多功能,但是還是應(yīng)該將其分類為由多個(gè)組件組成的Hadoop生態(tài)圈,這些組件包括數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)集成、數(shù)據(jù)處理以及用于數(shù)據(jù)分析的其他專門工具。
Hadoop的生態(tài)系統(tǒng),主要由HDFS、MapReduce、Hbase、Zookeeper、Oozie、Pig、Hive等核心組件組成,并可用于與其他企業(yè)結(jié)合使用的Sqoop、Flume等框架。與此同時(shí),Hadoop的生態(tài)系統(tǒng)正在增長(zhǎng),新增加的Mahout、Ambari、Whirr、BigTop等提供更新功能。
它具有低成本、高可靠性、高擴(kuò)展、高效率、高容錯(cuò)等特點(diǎn),使Hadoop成為最受歡迎的大數(shù)據(jù)分析系統(tǒng)。然而,它所依賴的HDFS和MapReduce組件卻讓它一度陷入困境,而批量處理使它只能用于離線數(shù)據(jù)處理,在實(shí)時(shí)性要求的場(chǎng)景中沒(méi)有用武之地。于是,出現(xiàn)了各種基于Hadoop的工具。為降低管理成本,提高資源的利用率,現(xiàn)在有許多資源統(tǒng)一管理調(diào)度系統(tǒng),如Twitter的ApacheMesos、Apache的YARN、Google的Borg、騰訊的Torca、FacebookCorona(開(kāi)源)等等。
數(shù)據(jù)采集在大數(shù)據(jù)生命周期中處于首要環(huán)節(jié)。按照MapReduce數(shù)據(jù)生成的應(yīng)用系統(tǒng)分類,有四種主要的數(shù)據(jù)源:管理信息系統(tǒng)、網(wǎng)絡(luò)信息系統(tǒng)、物理信息系統(tǒng)和科學(xué)實(shí)驗(yàn)系統(tǒng)。對(duì)不同的數(shù)據(jù)集,可能存在不同的結(jié)構(gòu)和模式,如文件、XML樹(shù)、關(guān)系表等,表現(xiàn)出數(shù)據(jù)的異構(gòu)性。對(duì)于多個(gè)異構(gòu)數(shù)據(jù)集,需要進(jìn)行進(jìn)一步的集成處理,收集、整理、清洗、轉(zhuǎn)換來(lái)自不同數(shù)據(jù)集的數(shù)據(jù),生成新的數(shù)據(jù)集,為后續(xù)的查詢和分析處理提供統(tǒng)一的數(shù)據(jù)視圖。
目前,國(guó)內(nèi)外對(duì)MIS中的異構(gòu)數(shù)據(jù)庫(kù)集成技術(shù)、Web信息系統(tǒng)中的實(shí)體識(shí)別技術(shù)、DeepWeb集成技術(shù)、傳感器網(wǎng)絡(luò)數(shù)據(jù)融合技術(shù)等進(jìn)行了深入的研究,并取得了較大的進(jìn)展,目前已開(kāi)發(fā)了許多數(shù)據(jù)清洗與質(zhì)量控制工具,如美國(guó)SAS公司的DataFlux、美國(guó)IBM的DataStage、美國(guó)Informatica公司的InformaticaPowerCenter。
可視化技術(shù)在大數(shù)據(jù)分析的應(yīng)用過(guò)程中,通過(guò)交互的視覺(jué)表達(dá)方式,幫助人們對(duì)復(fù)雜數(shù)據(jù)進(jìn)行探索和理解。可視化和可視化分析技術(shù)可以快速而有效地簡(jiǎn)化和提煉數(shù)據(jù)流,幫助用戶篩選大量數(shù)據(jù),幫助用戶更快、更好地發(fā)現(xiàn)復(fù)雜數(shù)據(jù),并成為深入分析復(fù)雜數(shù)據(jù)的必備手段。大型數(shù)據(jù)可視化主要是基于并行算法設(shè)計(jì)的技術(shù),合理利用有限的計(jì)算資源,對(duì)特定數(shù)據(jù)集進(jìn)行高效的處理和分析。
一般情況下,大型數(shù)據(jù)可視化技術(shù)結(jié)合多種分辨率表示等方法,以獲得足夠的交互性能。科技大規(guī)模數(shù)據(jù)并行可視化工作主要涉及四種基本技術(shù):流線化、任務(wù)并行化、管線并行化和數(shù)據(jù)并行化。
微軟公司在其云計(jì)算平臺(tái)Azure上開(kāi)發(fā)了大型機(jī)器學(xué)習(xí)可視化平臺(tái)(AzureMachineLearning),將有向無(wú)環(huán)圖的大數(shù)據(jù)分析任務(wù),并以數(shù)據(jù)流圖的方式展示給用戶,取得了比較好的效果。同時(shí),阿里巴巴旗下的大數(shù)據(jù)分析平臺(tái)御膳房也在為企業(yè)員工提供一個(gè)互動(dòng)大數(shù)據(jù)分析平臺(tái)。以上就是小編為大家介紹的大數(shù)據(jù)智能分析的核心技術(shù),感謝觀看。
[免責(zé)聲明]
文章標(biāo)題: 大數(shù)據(jù)智能分析的核心技術(shù)
文章內(nèi)容為網(wǎng)站編輯整理發(fā)布,僅供學(xué)習(xí)與參考,不代表本網(wǎng)站贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)溝通。發(fā)送郵件至36dianping@36kr.com,我們會(huì)在3個(gè)工作日內(nèi)處理。