大數(shù)據(jù)是一個以數(shù)據(jù)為核心的行業(yè)。從數(shù)據(jù)生命周期的傳遞和演變來看,大數(shù)據(jù)產(chǎn)業(yè)的生成過程可以分為以下幾個部分:數(shù)據(jù)收集、數(shù)據(jù)存儲、數(shù)據(jù)建模、數(shù)據(jù)分析和數(shù)據(jù)實(shí)現(xiàn)。下面就由小編為您介紹一下大數(shù)據(jù)開發(fā)、架構(gòu)與數(shù)據(jù)分析的區(qū)別,讓我們一起來看看吧!
大數(shù)據(jù)開發(fā)、架構(gòu)與數(shù)據(jù)分析的區(qū)別
通過各種軟件收集數(shù)據(jù),通過云數(shù)據(jù)中心存儲,通過數(shù)據(jù)科學(xué)家或行業(yè)專家建模和處理,最終數(shù)據(jù)分析發(fā)現(xiàn)大量看似無關(guān)的數(shù)據(jù)背后的因果關(guān)系,這些因果關(guān)系的意義將使人們在未來的各個方面進(jìn)行推測,降低試錯成本,降低風(fēng)險,解放生產(chǎn)力。
目前市場上人才需求觀和部署企業(yè)自身大數(shù)據(jù)項(xiàng)目來看,大致分為3個方向:大數(shù)據(jù)架構(gòu)、大數(shù)據(jù)開發(fā)、大數(shù)據(jù)分析。
大數(shù)據(jù)架構(gòu)偏重基建和架構(gòu),更多注重的是Hadoop、Spark、Storm等大數(shù)據(jù)框架的實(shí)現(xiàn)原理、部署、調(diào)優(yōu)和穩(wěn)定性問題,以及它們與Flume、Kafka等數(shù)據(jù)流工具以及可視化工具結(jié)合技巧,再有就是一些工具的商業(yè)應(yīng)用問題,如Hive、Cassandra、HBase、PrestoDB等。能夠?qū)⑦@些概念理解清楚,并能夠用辯證的技術(shù)觀點(diǎn)進(jìn)行組合使用,達(dá)到軟/硬件資源利用的最大化,服務(wù)提供的穩(wěn)定化,這是大數(shù)據(jù)架構(gòu)人才的目標(biāo)。
主要研究方向
架構(gòu)理論:高并發(fā)、高可用、并行計算、MapReduce、Spark等
數(shù)據(jù)流應(yīng)用:Flume、Fluentd、Kafka、ZeroMQ等
儲存應(yīng)用:HDFS、Ceph等
軟件應(yīng)用:Hive、HBase、Cassandra、PrestoDB等。
可視化應(yīng)用:HightCharts、ECharts、D3、HTML5、CSS3等。
大數(shù)據(jù)架構(gòu)師對可視化應(yīng)用部分要求不高,只需大致了解即可,但其他架構(gòu)層面、數(shù)據(jù)流層面、存儲層面、軟件應(yīng)用層面等都需要做比較深入的理解和落地應(yīng)用。至少在每一個層面中挑選一個完全純屬的應(yīng)用產(chǎn)品。
大數(shù)據(jù)開發(fā)偏重應(yīng)用實(shí)現(xiàn),注重服務(wù)器端開發(fā)、數(shù)據(jù)庫開發(fā)、呈現(xiàn)與可視化人機(jī)交互等銜接數(shù)據(jù)載體和數(shù)據(jù)加工各個單元以及用戶的功能落地與實(shí)現(xiàn)。
主要研究方向
數(shù)據(jù)庫開發(fā):RDBMS、NoSQL、MySQL、Hive等。
數(shù)據(jù)流工具開發(fā):Flume、Heka、Fluentd、Kafka、ZMQ等。
數(shù)據(jù)前端開發(fā):HightCharts、ECharts、JavaScript、D3、HTML5、CSS3等。
數(shù)據(jù)獲取開發(fā):關(guān)鍵詞有爬蟲、分詞、自然語言學(xué)習(xí)、文本分類等。
大數(shù)據(jù)開發(fā)和大數(shù)據(jù)架構(gòu)方向很多關(guān)鍵詞是重合的,但一個主要是“開發(fā)”,一個主要是“應(yīng)用”。“應(yīng)用”更多的是懂得這些這種技術(shù)能為人們提供什么功能,以及使用這種技術(shù)的優(yōu)缺點(diǎn),并擅長做取舍;“開發(fā)”更注重的是熟練掌握,快速實(shí)現(xiàn)。
大數(shù)據(jù)分析偏重于建模與分析,更多注重的是數(shù)據(jù)指標(biāo)的建立,數(shù)據(jù)的統(tǒng)計,數(shù)據(jù)之間的聯(lián)系,數(shù)據(jù)的深度挖掘和機(jī)器學(xué)習(xí),并利用探索性數(shù)據(jù)分析的方式得到更多的規(guī)律、知識,或者對未來事物預(yù)測和預(yù)判的手段。
主要研究方向
數(shù)據(jù)庫應(yīng)用:RDBMS、NoSQL、MySQL、Hive、Cassandra等。
數(shù)據(jù)加工:ETL、Python等。
數(shù)據(jù)統(tǒng)計:統(tǒng)計、概率等。
數(shù)據(jù)分析:數(shù)據(jù)建模、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、回歸分析、聚類、分類、協(xié)同過濾等。
大數(shù)據(jù)分析主要是數(shù)據(jù)統(tǒng)計和數(shù)據(jù)分析。要有良好的數(shù)學(xué)素養(yǎng),一般來說是數(shù)學(xué)專業(yè)。另一方面是對業(yè)務(wù)知識的理解。每個行業(yè)和公司的業(yè)務(wù)形式都是多種多樣的。只有充分了解這些業(yè)務(wù)形式和業(yè)務(wù)流程,才能更正確地建模和解讀數(shù)據(jù)。以上就是小編為您介紹的大數(shù)據(jù)開發(fā)、架構(gòu)與數(shù)據(jù)分析的區(qū)別。
[免責(zé)聲明]
文章標(biāo)題: 大數(shù)據(jù)開發(fā)、架構(gòu)與數(shù)據(jù)分析的區(qū)別
文章內(nèi)容為網(wǎng)站編輯整理發(fā)布,僅供學(xué)習(xí)與參考,不代表本網(wǎng)站贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé)。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時溝通。發(fā)送郵件至36dianping@36kr.com,我們會在3個工作日內(nèi)處理。