精品福利在线,99精品久久只有精品,国产精品久久久久久久7电影

近年來(lái)，大量的新技術(shù)在大數(shù)據(jù)領(lǐng)域不斷涌現(xiàn)，成為大數(shù)據(jù)采集、存儲(chǔ)、處理和可視化的有效手段。大數(shù)據(jù)技術(shù)可以挖掘隱藏在大規(guī)模數(shù)據(jù)中的信息和知識(shí)，為人類社會(huì)經(jīng)濟(jì)活動(dòng)提供依據(jù)，提高各個(gè)領(lǐng)域的運(yùn)行效率，乃至整個(gè)社會(huì)經(jīng)濟(jì)的集約化程度。下面就讓小編為大家介紹大大數(shù)據(jù)智能分析的核心技術(shù)。

Wyn Enterprise

3.8

49條點(diǎn)評(píng)

咨詢產(chǎn)品

免費(fèi)試用

解決用戶選型困難的好軟件，有各維度的信息

客戶案例

合作品牌

大數(shù)據(jù)智能分析的核心技術(shù)

大數(shù)據(jù)智能分析的核心技術(shù)

一、數(shù)據(jù)生命周期

大數(shù)據(jù)堆棧，底層是包含計(jì)算資源、存儲(chǔ)器和網(wǎng)絡(luò)互連的基礎(chǔ)設(shè)施，主要包括計(jì)算節(jié)點(diǎn)、集群、機(jī)柜和數(shù)據(jù)中心。上面有數(shù)據(jù)的存儲(chǔ)與管理，包括文件系統(tǒng)、數(shù)據(jù)庫(kù)以及類似YARN的資源管理系統(tǒng)。

接下來(lái)還有計(jì)算處理層，比如hadoop、MapReduce和Spark，以及在上面的各種計(jì)算范例，比如批處理、流處理和圖計(jì)算等等，包括從編程模型如BSP、GAS等衍生出計(jì)算模型。以計(jì)算處理層為基礎(chǔ)的數(shù)據(jù)分析與可視化。該分析包含簡(jiǎn)單查詢分析、流分析和更復(fù)雜的分析(例如機(jī)器學(xué)習(xí)、圖計(jì)算等等)。查詢分析多以表結(jié)構(gòu)和關(guān)系函數(shù)為基礎(chǔ)，流分析基于數(shù)據(jù)、事件流和簡(jiǎn)單的統(tǒng)計(jì)分析，而復(fù)雜分析基于更復(fù)雜的數(shù)據(jù)結(jié)構(gòu)和方法，如圖、矩陣、迭代計(jì)算和線性代數(shù)。

通用含義的可視化是顯示分析結(jié)果。但通過(guò)交互可視化，也能探索性地提出問(wèn)題，使分析得到新的線索，形成反復(fù)的分析與可視化。針對(duì)大規(guī)模數(shù)據(jù)進(jìn)行實(shí)時(shí)交互式可視化分析及自動(dòng)化因素的引入是當(dāng)前研究的熱點(diǎn)。

上面兩個(gè)區(qū)域垂直貫通，需要從整體、協(xié)同的角度看待。一種是編程管理工具，方向是機(jī)器通過(guò)學(xué)習(xí)實(shí)現(xiàn)自動(dòng)優(yōu)化，盡可能不需要編程，不需要復(fù)雜配置。另外一個(gè)方面就是數(shù)據(jù)安全，并且貫穿于整個(gè)技術(shù)領(lǐng)域。在這兩個(gè)領(lǐng)域中，垂直打通每一層，還有一些技術(shù)方面是跨越多層的，比如“內(nèi)存計(jì)算”實(shí)際上涵蓋了整個(gè)技術(shù)棧。

二、數(shù)據(jù)技術(shù)生態(tài)化

海量數(shù)據(jù)的基本處理流程與傳統(tǒng)的數(shù)據(jù)處理流程并沒(méi)有太大的不同，主要區(qū)別是：由于大數(shù)據(jù)要處理大量的非結(jié)構(gòu)化數(shù)據(jù)，因此在各個(gè)處理環(huán)節(jié)都可采用并行處理。分布式處理，如Hadoop、MapReduce和Spark，已經(jīng)成為大數(shù)據(jù)處理各個(gè)環(huán)節(jié)的通用處理方法。

Hadoop是一種分布式計(jì)算平臺(tái)，允許用戶輕松地構(gòu)建和使用。通過(guò)Hadoop，用戶可以很容易地開(kāi)發(fā)和運(yùn)行處理大量數(shù)據(jù)的應(yīng)用程序。Hadoop是一種數(shù)據(jù)管理系統(tǒng)，作為數(shù)據(jù)分析的核心，將結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)匯集在傳統(tǒng)的企業(yè)數(shù)據(jù)棧的每一層。

Hadoop也是一種大型并行處理框架，具有超級(jí)計(jì)算能力，可用于推動(dòng)企業(yè)級(jí)應(yīng)用的執(zhí)行。Hadoop也是一個(gè)開(kāi)放源碼社區(qū)，提供工具和軟件來(lái)解決大數(shù)據(jù)問(wèn)題。盡管Hadoop提供了許多功能，但是還是應(yīng)該將其分類為由多個(gè)組件組成的Hadoop生態(tài)圈，這些組件包括數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)集成、數(shù)據(jù)處理以及用于數(shù)據(jù)分析的其他專門工具。

Hadoop的生態(tài)系統(tǒng)，主要由HDFS、MapReduce、Hbase、Zookeeper、Oozie、Pig、Hive等核心組件組成，并可用于與其他企業(yè)結(jié)合使用的Sqoop、Flume等框架。與此同時(shí)，Hadoop的生態(tài)系統(tǒng)正在增長(zhǎng)，新增加的Mahout、Ambari、Whirr、BigTop等提供更新功能。

它具有低成本、高可靠性、高擴(kuò)展、高效率、高容錯(cuò)等特點(diǎn)，使Hadoop成為最受歡迎的大數(shù)據(jù)分析系統(tǒng)。然而，它所依賴的HDFS和MapReduce組件卻讓它一度陷入困境，而批量處理使它只能用于離線數(shù)據(jù)處理，在實(shí)時(shí)性要求的場(chǎng)景中沒(méi)有用武之地。于是，出現(xiàn)了各種基于Hadoop的工具。為降低管理成本，提高資源的利用率，現(xiàn)在有許多資源統(tǒng)一管理調(diào)度系統(tǒng)，如Twitter的ApacheMesos、Apache的YARN、Google的Borg、騰訊的Torca、FacebookCorona(開(kāi)源)等等。

三、大型數(shù)據(jù)采集和預(yù)處理

數(shù)據(jù)采集在大數(shù)據(jù)生命周期中處于首要環(huán)節(jié)。按照MapReduce數(shù)據(jù)生成的應(yīng)用系統(tǒng)分類，有四種主要的數(shù)據(jù)源：管理信息系統(tǒng)、網(wǎng)絡(luò)信息系統(tǒng)、物理信息系統(tǒng)和科學(xué)實(shí)驗(yàn)系統(tǒng)。對(duì)不同的數(shù)據(jù)集，可能存在不同的結(jié)構(gòu)和模式，如文件、XML樹(shù)、關(guān)系表等，表現(xiàn)出數(shù)據(jù)的異構(gòu)性。對(duì)于多個(gè)異構(gòu)數(shù)據(jù)集，需要進(jìn)行進(jìn)一步的集成處理，收集、整理、清洗、轉(zhuǎn)換來(lái)自不同數(shù)據(jù)集的數(shù)據(jù)，生成新的數(shù)據(jù)集，為后續(xù)的查詢和分析處理提供統(tǒng)一的數(shù)據(jù)視圖。

目前，國(guó)內(nèi)外對(duì)MIS中的異構(gòu)數(shù)據(jù)庫(kù)集成技術(shù)、Web信息系統(tǒng)中的實(shí)體識(shí)別技術(shù)、DeepWeb集成技術(shù)、傳感器網(wǎng)絡(luò)數(shù)據(jù)融合技術(shù)等進(jìn)行了深入的研究，并取得了較大的進(jìn)展，目前已開(kāi)發(fā)了許多數(shù)據(jù)清洗與質(zhì)量控制工具，如美國(guó)SAS公司的DataFlux、美國(guó)IBM的DataStage、美國(guó)Informatica公司的InformaticaPowerCenter。

可視化技術(shù)在大數(shù)據(jù)分析的應(yīng)用過(guò)程中，通過(guò)交互的視覺(jué)表達(dá)方式，幫助人們對(duì)復(fù)雜數(shù)據(jù)進(jìn)行探索和理解。可視化和可視化分析技術(shù)可以快速而有效地簡(jiǎn)化和提煉數(shù)據(jù)流，幫助用戶篩選大量數(shù)據(jù)，幫助用戶更快、更好地發(fā)現(xiàn)復(fù)雜數(shù)據(jù)，并成為深入分析復(fù)雜數(shù)據(jù)的必備手段。大型數(shù)據(jù)可視化主要是基于并行算法設(shè)計(jì)的技術(shù)，合理利用有限的計(jì)算資源，對(duì)特定數(shù)據(jù)集進(jìn)行高效的處理和分析。

一般情況下，大型數(shù)據(jù)可視化技術(shù)結(jié)合多種分辨率表示等方法，以獲得足夠的交互性能。科技大規(guī)模數(shù)據(jù)并行可視化工作主要涉及四種基本技術(shù)：流線化、任務(wù)并行化、管線并行化和數(shù)據(jù)并行化。

微軟公司在其云計(jì)算平臺(tái)Azure上開(kāi)發(fā)了大型機(jī)器學(xué)習(xí)可視化平臺(tái)(AzureMachineLearning)，將有向無(wú)環(huán)圖的大數(shù)據(jù)分析任務(wù)，并以數(shù)據(jù)流圖的方式展示給用戶，取得了比較好的效果。同時(shí)，阿里巴巴旗下的大數(shù)據(jù)分析平臺(tái)御膳房也在為企業(yè)員工提供一個(gè)互動(dòng)大數(shù)據(jù)分析平臺(tái)。以上就是小編為大家介紹的大數(shù)據(jù)智能分析的核心技術(shù)，感謝觀看。