国产精一区二区_午夜视频99_免费白白视频_中文字幕一区免费

熱門文章> 數(shù)據(jù)挖掘,數(shù)據(jù)挖掘的內(nèi)容有哪些 >

數(shù)據(jù)挖掘,數(shù)據(jù)挖掘的內(nèi)容有哪些

36氪企服點評小編
2021-08-04 18:21
1423次閱讀

      什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘的內(nèi)容與過程是什么?數(shù)據(jù)挖掘經(jīng)過幾十年的發(fā)展和無數(shù)專家學者的研究,已經(jīng)提出了一個完整的過程框架。其中的關鍵是通過獲取正確、完整、綜合的數(shù)據(jù),進行數(shù)據(jù)深入分析,尋找到有用的信息。接下來就由小編為您介紹數(shù)據(jù)挖掘,數(shù)據(jù)挖掘的內(nèi)容有哪些。

數(shù)據(jù)挖掘,數(shù)據(jù)挖掘的內(nèi)容有哪些數(shù)據(jù)挖掘

一、數(shù)據(jù)挖掘的定義與分類

將隱藏在數(shù)據(jù)庫中的大量數(shù)據(jù)背后的重要信息,并為企業(yè)創(chuàng)造了許多潛在的利潤空間,針對這樣一個海量數(shù)據(jù)庫中挖掘數(shù)據(jù)信息的技術叫做數(shù)據(jù)挖掘(DM)。

按數(shù)據(jù)庫的類型進行:關系型數(shù)據(jù)庫的數(shù)據(jù)挖掘,數(shù)據(jù)倉庫的數(shù)據(jù)挖掘,面向?qū)ο蟮耐诰?,空間數(shù)據(jù)庫的挖掘,正文庫和多媒體數(shù)據(jù)庫的數(shù)據(jù)挖掘。

按照知識類別劃分:關聯(lián),特征描述,分類分析,聚類分析,趨勢,偏差分析。

根據(jù)知識的抽象層:一般的文化知識、基本知識、多層次的知識。

二、數(shù)據(jù)挖掘的內(nèi)容(步驟)

01、業(yè)務理解(BusinessUnderstanding)

假設你在一家外貿(mào)公司工作,一天,你的老板突然對你說:“小明啊,你能不能訓練一個模型來預測下一年的公司利潤?”

在業(yè)務需求方面,要解決這個問題,首先要弄清需求是什么,這被稱為業(yè)務理解,也可以稱為業(yè)務理解。例如,你要弄清楚什么是利潤,利潤的構成是怎樣的,利潤受什么影響,同時老板說利潤是利潤還是毛利等等。商業(yè)理解,主要是理解數(shù)據(jù)挖掘要解決的業(yè)務問題。企業(yè)發(fā)起數(shù)據(jù)挖掘,就是要對企業(yè)進行賦能,所以我們必須從商業(yè)或者商業(yè)的角度去了解項目的最終目標,去分析整個問題所涉及的資源、范圍、情景,甚至風險、意外等等。由生意起家,做生意。

02、數(shù)據(jù)理解(DataUnderstanding)

了解問題,也要了解解決問題所需的數(shù)據(jù)。例如,這時,你的老板又對你說:“小明啊,我要改變需求,能不能多做一些模型,把競品公司明年的利潤都算出來,我想對比一下。”不過「巧婦難為無米之炊」,你根本沒有這份資料,這樣的需求也無法完成。雖然數(shù)據(jù)理解階段從收集數(shù)據(jù)開始,但是我認為重點是基于對業(yè)務的理解,并清楚地了解我們可以得到的數(shù)據(jù),知道哪些數(shù)據(jù)可能會影響到目標,哪些是多余的數(shù)據(jù),哪些數(shù)據(jù)存在缺陷或缺失,等等。

03、數(shù)據(jù)準備(數(shù)據(jù)預置)

以上兩步完成之后,就可以準備數(shù)據(jù)了。你們要找到銷售數(shù)據(jù),找采購數(shù)據(jù)要買,找財務要各種收入、支出數(shù)據(jù),然后整理所有要用的數(shù)據(jù),想辦法補全那些丟失的數(shù)據(jù),計算各種統(tǒng)計值等。數(shù)據(jù)化就是根據(jù)原始數(shù)據(jù),建立數(shù)據(jù)挖掘模型所需的全部數(shù)據(jù)集,包括數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)補全、數(shù)據(jù)整合、數(shù)據(jù)轉換、特征提取等一系列動作。

04、建造模式(Modeling)

還可以稱之為訓練模型,在此階段,我們將向算法提供準備好的數(shù)據(jù),因此這一階段主要要解決技術方面的問題,將選擇多種算法模型進行數(shù)據(jù)處理,讓模型學習數(shù)據(jù)的規(guī)律,并輸出模型用于后續(xù)的工作。對同一數(shù)據(jù)挖掘中的問題類型,可以選擇多種方法。假如要使用多項技術,則要分別對待每個要使用的技術。有些建模方法對數(shù)據(jù)形式有具體的要求,如SVM算法只能輸入數(shù)值型數(shù)據(jù)等。所以,在這個階段,返回數(shù)據(jù)準備階段執(zhí)行某些任務有時是很有必要的。

05、評估模式(評估)

本研究建立了模型評價階段一種或多種優(yōu)質(zhì)模型。但模型的效果如何,是否能夠滿足我們的業(yè)務需求,這需要使用各種評估方法、評估指標,甚至是讓業(yè)務人員參與其中,全面地評估模型,回顧在構建模型時所采取的每一步驟,以確保模型達到目標。評價結束后會出現(xiàn)兩種情況,一個是通過評估,進入進入上線階段,另一個是評估沒有通過,然后再進行迭代更新。

06、部署模式(Deployment)

收集數(shù)據(jù),研究算法模型,經(jīng)過多方評估,最終進入部署階段。在這一點上,還需要解決一些實際問題,如長時間運行的模型是否有足夠的機器支持、數(shù)據(jù)量和并發(fā)性程度是否會導致已部署的服務問題等。

     然而,數(shù)據(jù)挖掘的生命周期可能并沒有結束,某些特殊情況可能仍無法解決,而且,隨著新數(shù)據(jù)的產(chǎn)生和變化,在后續(xù)過程中,我們的模型仍會發(fā)生某些變化。因此,部署是挖掘項目的結束和數(shù)據(jù)挖掘項目的開始。以上就是小編為您帶來的數(shù)據(jù)挖掘,數(shù)據(jù)挖掘的內(nèi)容有哪些。

[免責聲明]

文章標題: 數(shù)據(jù)挖掘,數(shù)據(jù)挖掘的內(nèi)容有哪些

文章內(nèi)容為網(wǎng)站編輯整理發(fā)布,僅供學習與參考,不代表本網(wǎng)站贊同其觀點和對其真實性負責。如涉及作品內(nèi)容、版權和其它問題,請及時溝通。發(fā)送郵件至36dianping@36kr.com,我們會在3個工作日內(nèi)處理。

消息通知
咨詢?nèi)腭v
商務合作