近年來,大量的新技術(shù)在大數(shù)據(jù)領(lǐng)域不斷涌現(xiàn),成為大數(shù)據(jù)采集、存儲、處理和可視化的有效手段。大數(shù)據(jù)技術(shù)可以挖掘隱藏在大規(guī)模數(shù)據(jù)中的信息和知識,為人類社會經(jīng)濟(jì)活動提供依據(jù),提高各個領(lǐng)域的運(yùn)行效率,乃至整個社會經(jīng)濟(jì)的集約化程度。下面就讓小編為大家介紹大大數(shù)據(jù)智能分析的核心技術(shù)。
大數(shù)據(jù)智能分析的核心技術(shù)
大數(shù)據(jù)智能分析的核心技術(shù)
大數(shù)據(jù)堆棧,底層是包含計算資源、存儲器和網(wǎng)絡(luò)互連的基礎(chǔ)設(shè)施,主要包括計算節(jié)點(diǎn)、集群、機(jī)柜和數(shù)據(jù)中心。上面有數(shù)據(jù)的存儲與管理,包括文件系統(tǒng)、數(shù)據(jù)庫以及類似YARN的資源管理系統(tǒng)。
接下來還有計算處理層,比如hadoop、MapReduce和Spark,以及在上面的各種計算范例,比如批處理、流處理和圖計算等等,包括從編程模型如BSP、GAS等衍生出計算模型。以計算處理層為基礎(chǔ)的數(shù)據(jù)分析與可視化。該分析包含簡單查詢分析、流分析和更復(fù)雜的分析(例如機(jī)器學(xué)習(xí)、圖計算等等)。查詢分析多以表結(jié)構(gòu)和關(guān)系函數(shù)為基礎(chǔ),流分析基于數(shù)據(jù)、事件流和簡單的統(tǒng)計分析,而復(fù)雜分析基于更復(fù)雜的數(shù)據(jù)結(jié)構(gòu)和方法,如圖、矩陣、迭代計算和線性代數(shù)。
通用含義的可視化是顯示分析結(jié)果。但通過交互可視化,也能探索性地提出問題,使分析得到新的線索,形成反復(fù)的分析與可視化。針對大規(guī)模數(shù)據(jù)進(jìn)行實(shí)時交互式可視化分析及自動化因素的引入是當(dāng)前研究的熱點(diǎn)。
上面兩個區(qū)域垂直貫通,需要從整體、協(xié)同的角度看待。一種是編程管理工具,方向是機(jī)器通過學(xué)習(xí)實(shí)現(xiàn)自動優(yōu)化,盡可能不需要編程,不需要復(fù)雜配置。另外一個方面就是數(shù)據(jù)安全,并且貫穿于整個技術(shù)領(lǐng)域。在這兩個領(lǐng)域中,垂直打通每一層,還有一些技術(shù)方面是跨越多層的,比如“內(nèi)存計算”實(shí)際上涵蓋了整個技術(shù)棧。
海量數(shù)據(jù)的基本處理流程與傳統(tǒng)的數(shù)據(jù)處理流程并沒有太大的不同,主要區(qū)別是:由于大數(shù)據(jù)要處理大量的非結(jié)構(gòu)化數(shù)據(jù),因此在各個處理環(huán)節(jié)都可采用并行處理。分布式處理,如Hadoop、MapReduce和Spark,已經(jīng)成為大數(shù)據(jù)處理各個環(huán)節(jié)的通用處理方法。
Hadoop是一種分布式計算平臺,允許用戶輕松地構(gòu)建和使用。通過Hadoop,用戶可以很容易地開發(fā)和運(yùn)行處理大量數(shù)據(jù)的應(yīng)用程序。Hadoop是一種數(shù)據(jù)管理系統(tǒng),作為數(shù)據(jù)分析的核心,將結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)匯集在傳統(tǒng)的企業(yè)數(shù)據(jù)棧的每一層。
Hadoop也是一種大型并行處理框架,具有超級計算能力,可用于推動企業(yè)級應(yīng)用的執(zhí)行。Hadoop也是一個開放源碼社區(qū),提供工具和軟件來解決大數(shù)據(jù)問題。盡管Hadoop提供了許多功能,但是還是應(yīng)該將其分類為由多個組件組成的Hadoop生態(tài)圈,這些組件包括數(shù)據(jù)存儲、數(shù)據(jù)集成、數(shù)據(jù)處理以及用于數(shù)據(jù)分析的其他專門工具。
Hadoop的生態(tài)系統(tǒng),主要由HDFS、MapReduce、Hbase、Zookeeper、Oozie、Pig、Hive等核心組件組成,并可用于與其他企業(yè)結(jié)合使用的Sqoop、Flume等框架。與此同時,Hadoop的生態(tài)系統(tǒng)正在增長,新增加的Mahout、Ambari、Whirr、BigTop等提供更新功能。
它具有低成本、高可靠性、高擴(kuò)展、高效率、高容錯等特點(diǎn),使Hadoop成為最受歡迎的大數(shù)據(jù)分析系統(tǒng)。然而,它所依賴的HDFS和MapReduce組件卻讓它一度陷入困境,而批量處理使它只能用于離線數(shù)據(jù)處理,在實(shí)時性要求的場景中沒有用武之地。于是,出現(xiàn)了各種基于Hadoop的工具。為降低管理成本,提高資源的利用率,現(xiàn)在有許多資源統(tǒng)一管理調(diào)度系統(tǒng),如Twitter的ApacheMesos、Apache的YARN、Google的Borg、騰訊的Torca、FacebookCorona(開源)等等。
數(shù)據(jù)采集在大數(shù)據(jù)生命周期中處于首要環(huán)節(jié)。按照MapReduce數(shù)據(jù)生成的應(yīng)用系統(tǒng)分類,有四種主要的數(shù)據(jù)源:管理信息系統(tǒng)、網(wǎng)絡(luò)信息系統(tǒng)、物理信息系統(tǒng)和科學(xué)實(shí)驗系統(tǒng)。對不同的數(shù)據(jù)集,可能存在不同的結(jié)構(gòu)和模式,如文件、XML樹、關(guān)系表等,表現(xiàn)出數(shù)據(jù)的異構(gòu)性。對于多個異構(gòu)數(shù)據(jù)集,需要進(jìn)行進(jìn)一步的集成處理,收集、整理、清洗、轉(zhuǎn)換來自不同數(shù)據(jù)集的數(shù)據(jù),生成新的數(shù)據(jù)集,為后續(xù)的查詢和分析處理提供統(tǒng)一的數(shù)據(jù)視圖。
目前,國內(nèi)外對MIS中的異構(gòu)數(shù)據(jù)庫集成技術(shù)、Web信息系統(tǒng)中的實(shí)體識別技術(shù)、DeepWeb集成技術(shù)、傳感器網(wǎng)絡(luò)數(shù)據(jù)融合技術(shù)等進(jìn)行了深入的研究,并取得了較大的進(jìn)展,目前已開發(fā)了許多數(shù)據(jù)清洗與質(zhì)量控制工具,如美國SAS公司的DataFlux、美國IBM的DataStage、美國Informatica公司的InformaticaPowerCenter。
可視化技術(shù)在大數(shù)據(jù)分析的應(yīng)用過程中,通過交互的視覺表達(dá)方式,幫助人們對復(fù)雜數(shù)據(jù)進(jìn)行探索和理解??梢暬涂梢暬治黾夹g(shù)可以快速而有效地簡化和提煉數(shù)據(jù)流,幫助用戶篩選大量數(shù)據(jù),幫助用戶更快、更好地發(fā)現(xiàn)復(fù)雜數(shù)據(jù),并成為深入分析復(fù)雜數(shù)據(jù)的必備手段。大型數(shù)據(jù)可視化主要是基于并行算法設(shè)計的技術(shù),合理利用有限的計算資源,對特定數(shù)據(jù)集進(jìn)行高效的處理和分析。
一般情況下,大型數(shù)據(jù)可視化技術(shù)結(jié)合多種分辨率表示等方法,以獲得足夠的交互性能??萍即笠?guī)模數(shù)據(jù)并行可視化工作主要涉及四種基本技術(shù):流線化、任務(wù)并行化、管線并行化和數(shù)據(jù)并行化。
微軟公司在其云計算平臺Azure上開發(fā)了大型機(jī)器學(xué)習(xí)可視化平臺(AzureMachineLearning),將有向無環(huán)圖的大數(shù)據(jù)分析任務(wù),并以數(shù)據(jù)流圖的方式展示給用戶,取得了比較好的效果。同時,阿里巴巴旗下的大數(shù)據(jù)分析平臺御膳房也在為企業(yè)員工提供一個互動大數(shù)據(jù)分析平臺。以上就是小編為大家介紹的大數(shù)據(jù)智能分析的核心技術(shù),感謝觀看。
[免責(zé)聲明]
文章標(biāo)題: 大數(shù)據(jù)智能分析的核心技術(shù)
文章內(nèi)容為網(wǎng)站編輯整理發(fā)布,僅供學(xué)習(xí)與參考,不代表本網(wǎng)站贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé)。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時溝通。發(fā)送郵件至36dianping@36kr.com,我們會在3個工作日內(nèi)處理。