国产精一区二区_午夜视频99_免费白白视频_中文字幕一区免费

【數(shù)據(jù)挖掘算法分享】機(jī)器學(xué)習(xí)平臺(tái)——回歸算法之隨機(jī)森林

美林?jǐn)?shù)據(jù)技術(shù)股份有限公司
+ 關(guān)注
2022-09-20 14:29
1586次閱讀
隨機(jī)森林回歸算法是決策樹回歸的組合算法,將許多回歸決策樹組合到一起,以降低過(guò)擬合的風(fēng)險(xiǎn)。隨機(jī)森林可以處理名詞型特征,不需要進(jìn)行特征縮放處理。隨機(jī)森林并行訓(xùn)練許多決策樹模型,對(duì)每個(gè)決策樹的預(yù)測(cè)結(jié)果進(jìn)行合并可以降低預(yù)測(cè)的變化范圍,進(jìn)而改善測(cè)試集上的預(yù)測(cè)性能。

算法思想

 

隨機(jī)森林是決策樹的組合,將許多決策樹聯(lián)合到一起,以降低過(guò)擬合的風(fēng)險(xiǎn)。

隨機(jī)森林在以決策樹為機(jī)器學(xué)習(xí)構(gòu)建 Bagging 集成的基礎(chǔ)上,進(jìn)一步在決策樹的訓(xùn)練過(guò)程中引入了隨機(jī)屬性選擇。具體來(lái)講,傳統(tǒng)決策樹在選擇劃分屬性時(shí), 在當(dāng)前節(jié)點(diǎn)的屬性集合( 假設(shè)有 d 個(gè)屬性) 中選擇一個(gè)最優(yōu)屬性;而在隨機(jī)森林中,對(duì)基決策樹的每個(gè)節(jié)點(diǎn),先從該節(jié)點(diǎn)的屬性集合中隨機(jī)選擇一個(gè)包含 k 個(gè)屬性的子集,然后再?gòu)倪@個(gè)子集中選擇一個(gè)最優(yōu)屬性用于劃分。 這里的參數(shù) k 控制了隨機(jī)性的引入程度。若令 k=d ,則基決策樹的構(gòu)建與傳統(tǒng)決策樹相同;若令 k=1 ,則是隨機(jī)選擇一個(gè)屬性用于劃分。

隨機(jī)森林回歸的過(guò)程如下:

?對(duì)訓(xùn)練集進(jìn)行有放回隨機(jī)抽樣以獲得p個(gè)樣本形成訓(xùn)練集的一個(gè)子集作為新的訓(xùn)練集;

?當(dāng)每個(gè)樣本有K個(gè)屬性時(shí),在決策樹的每個(gè)節(jié)點(diǎn)需要分裂時(shí),隨機(jī)從這K個(gè)屬性中選取出k個(gè)屬性,滿足條件k<K。然后從這k個(gè)屬性中采用方差來(lái)選擇一個(gè)屬性作為該節(jié)點(diǎn)的分裂屬性;

?決策樹形成過(guò)程中每個(gè)節(jié)點(diǎn)都要按照步驟2來(lái)分裂。一直到不能夠再分裂為止,利用該子集訓(xùn)練一棵決策樹,并且不對(duì)這個(gè)決策樹進(jìn)行剪枝;

?按照步驟1~3建立大量的決策樹,直至訓(xùn)練出m個(gè)決策樹;

?把測(cè)試樣本給每棵決策樹進(jìn)行回歸預(yù)測(cè),統(tǒng)計(jì)所有決策樹對(duì)同一樣本的預(yù)測(cè)結(jié)果,所有的結(jié)果的平均值作為最終預(yù)測(cè)值。

隨機(jī)森林算法的很好的利用隨機(jī)性(包括隨機(jī)生成子樣本集,隨機(jī)選擇子特征),最小化了各棵樹之間的相關(guān)性,提高了整體的性能。

數(shù)據(jù)格式

?必須設(shè)置類屬性(輸出),且類屬性(輸出)必須是連續(xù)型(數(shù)值);

?非類屬性(輸入)可以是連續(xù)型(數(shù)值)也可以是離散型(名詞);

參數(shù)說(shuō)明

【數(shù)據(jù)挖掘算法分享】機(jī)器學(xué)習(xí)平臺(tái)——回歸算法之隨機(jī)森林

 

【數(shù)據(jù)挖掘算法分享】機(jī)器學(xué)習(xí)平臺(tái)——回歸算法之隨機(jī)森林

結(jié)果說(shuō)明

【數(shù)據(jù)挖掘算法分享】機(jī)器學(xué)習(xí)平臺(tái)——回歸算法之隨機(jī)森林生成的決策樹

【數(shù)據(jù)挖掘算法分享】機(jī)器學(xué)習(xí)平臺(tái)——回歸算法之隨機(jī)森林最后一列屬性“prediction”為回歸預(yù)測(cè)列。

構(gòu)建如下流程:

【數(shù)據(jù)挖掘算法分享】機(jī)器學(xué)習(xí)平臺(tái)——回歸算法之隨機(jī)森林

【文件輸入】節(jié)點(diǎn)配置如下:

【數(shù)據(jù)挖掘算法分享】機(jī)器學(xué)習(xí)平臺(tái)——回歸算法之隨機(jī)森林

【設(shè)置角色】節(jié)點(diǎn)配置如下:

【數(shù)據(jù)挖掘算法分享】機(jī)器學(xué)習(xí)平臺(tái)——回歸算法之隨機(jī)森林

 

【隨機(jī)森林回歸】節(jié)點(diǎn)配置如下:

【數(shù)據(jù)挖掘算法分享】機(jī)器學(xué)習(xí)平臺(tái)——回歸算法之隨機(jī)森林

流程運(yùn)行結(jié)果如下:

【數(shù)據(jù)挖掘算法分享】機(jī)器學(xué)習(xí)平臺(tái)——回歸算法之隨機(jī)森林

【數(shù)據(jù)挖掘算法分享】機(jī)器學(xué)習(xí)平臺(tái)——回歸算法之隨機(jī)森林

 

美林?jǐn)?shù)據(jù)——釋放數(shù)據(jù)潛能,激發(fā)企業(yè)活力
為你帶來(lái)前沿最新大數(shù)據(jù)資訊
歡迎關(guān)注與評(píng)論!

[免責(zé)聲明]

原文標(biāo)題: 【數(shù)據(jù)挖掘算法分享】機(jī)器學(xué)習(xí)平臺(tái)——回歸算法之隨機(jī)森林

本文由作者原創(chuàng)發(fā)布于36氪企服點(diǎn)評(píng);未經(jīng)許可,禁止轉(zhuǎn)載。

資深作者美林?jǐn)?shù)據(jù)技術(shù)股份有限公司
美林?jǐn)?shù)據(jù)技術(shù)股份有限公司
0
美林?jǐn)?shù)據(jù)技術(shù)股份有限公司
實(shí)力廠商
實(shí)力廠商
優(yōu)質(zhì)服務(wù)
優(yōu)質(zhì)服務(wù)
及時(shí)響應(yīng)
及時(shí)響應(yīng)
立即詢價(jià)
相關(guān)文章
最新文章
查看更多
關(guān)注 36氪企服點(diǎn)評(píng) 公眾號(hào)
打開微信掃一掃
為您推送企服點(diǎn)評(píng)最新內(nèi)容
消息通知
咨詢?nèi)腭v
商務(wù)合作