【數(shù)據(jù)挖掘算法分享】機器學習平臺——回歸算法之線性回

美林數(shù)據(jù)技術股份有限公司

+ 關注

2022-09-20 17:07

591次閱讀

線性回歸是應對回歸問題最常用的方法，其是一種線性的數(shù)據(jù)建模方法，可以通過凸優(yōu)化的方法進行求解，具體通過最小化下面的目標函數(shù)進行求解：

【數(shù)據(jù)挖掘算法分享】機器學習平臺——回歸算法之線性回

其中J（θ），為W^T*X和Y的函數(shù)。目標函數(shù)包含兩部分內容，正則項用于控制模型的復雜度（最小化結構風險函數(shù)），損失用于度量擬合誤差（通常使用均方誤差），目標函數(shù)通常為w的凸函數(shù)。正則項參數(shù) λ>0（regParam）為最小化誤差和模型復雜度之間提供了一種折中（如，用來避免過擬合）。

線性回歸算法的整個步驟如下：

（1）給定訓練數(shù)據(jù)樣本集

【數(shù)據(jù)挖掘算法分享】機器學習平臺——回歸算法之線性回

選取初值θ0，給定收斂容差 ε，最大迭代次數(shù)K，然后解下面優(yōu)化問題：

【數(shù)據(jù)挖掘算法分享】機器學習平臺——回歸算法之線性回

（2）采取下面公式更新θ

【數(shù)據(jù)挖掘算法分享】機器學習平臺——回歸算法之線性回

（3）當或者k<K ,輸出θ，否則轉步驟2.

【數(shù)據(jù)挖掘算法分享】機器學習平臺——回歸算法之線性回

（4）構造回歸決策函數(shù)

【數(shù)據(jù)挖掘算法分享】機器學習平臺——回歸算法之線性回

線性回歸適合分布式實現(xiàn)，能支持大數(shù)據(jù)量建模。

線性回歸算法假設每個影響因素與目標之間是線性關系，并通過特征選擇，得到關鍵影響因素的線性回歸系統(tǒng)。該算法是利用數(shù)理統(tǒng)計中回歸分析，來確定兩種或兩種以上變量間相互依賴的定量關系的一種統(tǒng)計方法，通過凸優(yōu)化的方法進行求解。在實際業(yè)務中應用十分廣泛。下面演示下Tempo機器學習平臺中線性回歸算法的使用方法。

數(shù)據(jù)格式

必須設置類屬性（輸出），且類屬性（輸出）必須是連續(xù)型（數(shù)值）；

非類屬性（輸入）可以是連續(xù)型（數(shù)值）也可以是離散型（名詞）；

參數(shù)說明

【數(shù)據(jù)挖掘算法分享】機器學習平臺——回歸算法之線性回

參數(shù) 類型描述數(shù)據(jù)標準化下拉框設置數(shù)據(jù)標準化的方法，字符型，取值范圍：無處理，歸一化，標準化，默認值為無處理取值區(qū)間下限文本框設置歸一化取值區(qū)間下限，浮點型，取值范圍：[0,∞)，默認值為0 取值區(qū)間上限文本框設置歸一化取值區(qū)間上限，浮點型，取值范圍：[0,∞)，默認值為1 正則化參數(shù) 文本框正則化參數(shù)控制機器的復雜度，浮點型，取值范圍：[0,∞)，默認值為0.01 收斂容差文本框設置終止迭代的誤差界，浮點型，取值范圍：[0,∞)，默認值為0.000001 最大迭代次數(shù) 文本框設置最大迭代次數(shù)，整型，取值范圍：[1,∞)，默認值為100 罰函數(shù)類型下拉框設置懲罰函數(shù)類型，0對應L2罰函數(shù)，1對應L1罰函數(shù)，(0,1)之間對應L1和L2的組合罰函數(shù)。浮點型，取值范圍：[0,1]，默認值為0 求解方法下拉框選擇線性回歸的求解方法，文本型，取值范圍：Auto，L-BFGS,Normal （Normal->加權最小二乘法，L-BFGS->牛頓法，Auto->算法自動選取（L-BFGS,Normal）中的一種）。默認值為Auto 是否顯示變量重要性復選框用戶選擇是否分析每個變量對于回歸結果的影響程度，如果選擇是，則在洞察中顯示參與建模的每個變量對于模型的貢獻程度情況

結果說明

【數(shù)據(jù)挖掘算法分享】機器學習平臺——回歸算法之線性回