大數(shù)據(jù)分析主要依靠機(jī)器學(xué)習(xí)和大規(guī)模計(jì)算。機(jī)器學(xué)習(xí)包括監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等,而監(jiān)督學(xué)習(xí)又包括分類學(xué)習(xí)、回歸學(xué)習(xí)、排序?qū)W習(xí)、匹配學(xué)習(xí)等。分類是最常見的機(jī)器學(xué)習(xí)應(yīng)用問題,比如垃圾郵件過濾、人臉檢測(cè)、用戶畫像、文本情感分析、網(wǎng)頁(yè)歸類等,本質(zhì)上都是分類問題。分類學(xué)習(xí)也是機(jī)器學(xué)習(xí)領(lǐng)域,研究最徹底、使用最廣泛的一個(gè)分支。下面就有小編為您帶來大數(shù)據(jù)分析算法的相關(guān)介紹。
K最近鄰算法。給定一些已經(jīng)訓(xùn)練好的數(shù)據(jù),輸入一個(gè)新的測(cè)試數(shù)據(jù)點(diǎn),計(jì)算包含于此測(cè)試數(shù)據(jù)點(diǎn)的最近的點(diǎn)的分類情況,哪個(gè)分類的類型占多數(shù),則此測(cè)試點(diǎn)的分類與此相同,所以在這里,有的時(shí)候可以復(fù)制不同的分類點(diǎn)不同的權(quán)重。近的點(diǎn)的權(quán)重大點(diǎn),遠(yuǎn)的點(diǎn)自然就小點(diǎn)。
樸素貝葉斯算法。樸素貝葉斯算法是貝葉斯算法里面一種比較簡(jiǎn)單的分類算法,用到了一個(gè)比較重要的貝葉斯定理,用一句簡(jiǎn)單的話概括就是條件概率的相互轉(zhuǎn)換推導(dǎo)。
樸素貝葉斯分類是一種十分簡(jiǎn)單的分類算法,叫它樸素貝葉斯分類是因?yàn)檫@種方法的思想真的很樸素,樸素貝葉斯的思想基礎(chǔ)是這樣的:對(duì)于給出的待分類項(xiàng),求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類別出現(xiàn)的概率,哪個(gè)最大,就認(rèn)為此待分類項(xiàng)屬于哪個(gè)類別。
支持向量機(jī)算法。支持向量機(jī)算法是一種對(duì)線性和非線性數(shù)據(jù)進(jìn)行分類的方法,非線性數(shù)據(jù)進(jìn)行分類的時(shí)候可以通過核函數(shù)轉(zhuǎn)為線性的情況再處理。其中的一個(gè)關(guān)鍵的步驟是搜索最大邊緣超平面。
Apriori算法是關(guān)聯(lián)規(guī)則挖掘算法,通過連接和剪枝運(yùn)算挖掘出頻繁項(xiàng)集,然后根據(jù)頻繁項(xiàng)集得到關(guān)聯(lián)規(guī)則,關(guān)聯(lián)規(guī)則的導(dǎo)出需要滿足最小置信度的要求。
網(wǎng)頁(yè)重要性/排名算法。PageRank算法最早產(chǎn)生于Google,核心思想是通過網(wǎng)頁(yè)的入鏈數(shù)作為一個(gè)網(wǎng)頁(yè)好快的判定標(biāo)準(zhǔn),如果1個(gè)網(wǎng)頁(yè)內(nèi)部包含了多個(gè)指向外部的鏈接,則PR值將會(huì)被均分,PageRank算法也會(huì)遭到LinkSpan攻擊。
大數(shù)據(jù)分析算法
隨機(jī)森林算法。算法思想是決策樹+boosting.決策樹采用的是CART分類回歸數(shù),通過組合各個(gè)決策樹的弱分類器,構(gòu)成一個(gè)最終的強(qiáng)分類器,在構(gòu)造決策樹的時(shí)候采取隨機(jī)數(shù)量的樣本數(shù)和隨機(jī)的部分屬性進(jìn)行子決策樹的構(gòu)建,避免了過分?jǐn)M合的現(xiàn)象發(fā)生。
“神經(jīng)網(wǎng)絡(luò)”這個(gè)詞實(shí)際是來自于生物學(xué),而我們所指的神經(jīng)網(wǎng)絡(luò)正確的名稱應(yīng)該是“人工神經(jīng)網(wǎng)絡(luò)(ANNs)”。
通常,它的學(xué)習(xí)訓(xùn)練方式可分為兩種,一種是有監(jiān)督或稱有導(dǎo)師的學(xué)習(xí),這時(shí)利用給定的樣本標(biāo)準(zhǔn)進(jìn)行分類或模仿;另一種是無監(jiān)督學(xué)習(xí)或稱無為導(dǎo)師學(xué)習(xí),這時(shí),只規(guī)定學(xué)習(xí)方式或某些規(guī)則,則具體的學(xué)習(xí)內(nèi)容隨系統(tǒng)所處環(huán)境(即輸入信號(hào)情況)而異,系統(tǒng)可以自動(dòng)發(fā)現(xiàn)環(huán)境特征和規(guī)律性,具有更近似人腦的功能。 以上就是小編為您介紹的大數(shù)據(jù)分析算法,希望對(duì)您有所幫助。
[免責(zé)聲明]
文章標(biāo)題: 大數(shù)據(jù)分析算法
文章內(nèi)容為網(wǎng)站編輯整理發(fā)布,僅供學(xué)習(xí)與參考,不代表本網(wǎng)站贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)及時(shí)溝通。發(fā)送郵件至36dianping@36kr.com,我們會(huì)在3個(gè)工作日內(nèi)處理。