數(shù)據(jù)標(biāo)準(zhǔn)化算法介紹—數(shù)據(jù)建模工具

數(shù)據(jù)標(biāo)準(zhǔn)化是將操作字段按照給定的方法完成由原始數(shù)據(jù)到新數(shù)據(jù)的映射,以此消除多字段組合分析情況下存在的數(shù)量級和量綱的不同造成的不利影響,算法支持最大最小歸一化、最大值歸一化及Z標(biāo)準(zhǔn)化等方法。
算法思想
數(shù)據(jù)標(biāo)準(zhǔn)化是數(shù)據(jù)建模中數(shù)據(jù)預(yù)處理步驟,在某些比較和評價的指標(biāo)處理中經(jīng)常會用到去除數(shù)據(jù)單位限制,將其轉(zhuǎn)化為無量綱的純數(shù)值,便于不同單位或量級指標(biāo)能夠比較和加權(quán),算法支持最大最小歸一化、最大值歸一化及Z標(biāo)準(zhǔn)化等方法。
具體介紹如下
1、最大最小歸一化
最大最小歸一化是將數(shù)據(jù)轉(zhuǎn)化到給定的[Min,Max]范圍之內(nèi)。公式如下
其中Xmin為x特征的最小值,Xmax為x特征的最大值.
2、最大歸一化
最大歸一化是將數(shù)據(jù)轉(zhuǎn)化到[-1,1]范圍之間。公式如下
其中|X|max為x特征的絕對值的最大值。
3、z標(biāo)準(zhǔn)化
z標(biāo)準(zhǔn)化也叫標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,經(jīng)過處理的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布,即均值為0,標(biāo)準(zhǔn)差為1.
其中Mean(x)為x特征的均值,Std(x)為x特征的標(biāo)準(zhǔn)差。
數(shù)據(jù)格式:數(shù)值型字段;
參數(shù)說明
結(jié)果說明
對指定的屬性進(jìn)行標(biāo)準(zhǔn)化處理
Tempo數(shù)據(jù)建模工具演示實(shí)例:
利用數(shù)據(jù)建模工具構(gòu)建如下流程:
【文件輸入】節(jié)點(diǎn)配置如下:
【數(shù)據(jù)標(biāo)準(zhǔn)化】節(jié)點(diǎn)配置如下:
流程運(yùn)行結(jié)果如下:
[免責(zé)聲明]
原文標(biāo)題: 數(shù)據(jù)標(biāo)準(zhǔn)化算法介紹—數(shù)據(jù)建模工具
本文由作者原創(chuàng)發(fā)布于36氪企服點(diǎn)評;未經(jīng)許可,禁止轉(zhuǎn)載。




