我經(jīng)常在文章中講,做數(shù)據(jù)分析離不開統(tǒng)計(jì)學(xué)知識(shí),它為我們的數(shù)據(jù)分析提供理論基礎(chǔ),然而很多數(shù)據(jù)分析師在學(xué)習(xí)統(tǒng)計(jì)學(xué)知識(shí)時(shí)感到頭疼,看了很多統(tǒng)計(jì)學(xué)的書籍,里面講了很多復(fù)雜的數(shù)學(xué)公式和推導(dǎo),讓人記不住也難理解,其實(shí),市面上大部分的書籍都是面向高校教育的統(tǒng)計(jì)學(xué)書籍,專業(yè)性較強(qiáng),對(duì)于數(shù)據(jù)分析師來說,我們并不需要掌握那么細(xì)。下面就有小編為您帶來統(tǒng)計(jì)數(shù)據(jù)分析怎么做的相關(guān)介紹。
因此,本文我就為大家列羅列了數(shù)據(jù)分析中需要掌握的統(tǒng)計(jì)學(xué)知識(shí),讓大家了解統(tǒng)計(jì)學(xué)有哪幾大塊,每一類分別用于什么樣的分析場(chǎng)景,由于文章篇幅原因,僅為大家梳理知識(shí)點(diǎn),具體的知識(shí)點(diǎn)講解不詳細(xì)展開。
稍微關(guān)注過統(tǒng)計(jì)學(xué)的人,可能會(huì)這么一個(gè)疑問。為什么大學(xué)里會(huì)有這樣兩門課,《概率論與數(shù)理統(tǒng)計(jì)》,《統(tǒng)計(jì)學(xué)》,它們有什么區(qū)別?
我的理解,《概率論與數(shù)理統(tǒng)計(jì)》更專業(yè)一些,偏理工科,會(huì)有大量公式的推導(dǎo),知其然,知其所以然;而統(tǒng)計(jì)學(xué)這本書更基礎(chǔ),側(cè)重于概念現(xiàn)象的解釋,一般會(huì)直接給出結(jié)論,而不要求掌握結(jié)論的數(shù)理推導(dǎo)過程,文理科皆可用。
但不管是哪門課程,前期都是先講概率和概率分布。概率論是統(tǒng)計(jì)學(xué)的基礎(chǔ),而隨機(jī)事件的概率是概率論研究的基本內(nèi)容。
統(tǒng)計(jì)學(xué)不研究統(tǒng)計(jì),它研究的是不確定性。我們的世界是一個(gè)充滿不確定性的環(huán)境,整個(gè)世界并非嚴(yán)格按照某個(gè)制定好的路線運(yùn)行的。多數(shù)事物之間也并非有因必有果,萬物之間充滿了不可控的隨機(jī)事件,我們不會(huì)因?yàn)榻裉炫α嗣魈炀鸵欢〞?huì)成功。
不確定性事件唯一的規(guī)律就是概率,獨(dú)立隨機(jī)事件我們沒辦法預(yù)測(cè)或控制它在某個(gè)時(shí)刻一定會(huì)發(fā)生,但卻可以用概率來描述它發(fā)生的可能性。以概率論作為理論基礎(chǔ),為我們提供了認(rèn)識(shí)不確定世界的方法。
今年疫情期間,待在家里除了陪伴家人以外,每天討論最多、關(guān)注最高的事件莫過于疫情的新動(dòng)態(tài),這些動(dòng)態(tài)的展現(xiàn)形式大家有沒有注意到,各種專業(yè)、好看、直觀的圖表和數(shù)據(jù)圖,讓數(shù)據(jù)呈現(xiàn)得一目了然。
工作中,一名數(shù)據(jù)分析師拿到了數(shù)據(jù)后,第一步要做的是數(shù)據(jù)初步探索,這也叫數(shù)據(jù)的預(yù)處理,這個(gè)時(shí)候,更多的就是利用各種圖表探索數(shù)據(jù)。圖表的好處是它可以很直觀的看到數(shù)據(jù)的分布以及趨勢(shì),更有效的觀察數(shù)據(jù)。
利用上面所講的圖表展示,我們可以對(duì)數(shù)據(jù)分布的形狀和特征有一個(gè)大致的了解,但要全面把握數(shù)據(jù)分布就要反映數(shù)據(jù)分布特征的代表值。通常包含分布的集中趨勢(shì)、分布的離散程度、分布的形狀。
數(shù)據(jù)分析中,最常見的場(chǎng)景,就是你手上拿到一組,一批或者一坨數(shù)據(jù)。不懂統(tǒng)計(jì)學(xué)的人,可能會(huì)不知所措,或者說,你不做些加工和處理,你不知道這些數(shù)據(jù)有啥用。這個(gè)時(shí)候,就需要通過這些概括性的度量指標(biāo),來幫我們從宏觀上把握數(shù)據(jù)中的初步信息。
抽樣好懂,抽樣分布不好懂。
抽樣,就是從研究的總體中抽取一部分個(gè)體作為我們真正的研究對(duì)象,可以簡(jiǎn)單把樣本理解為總體的一個(gè)子集,通過樣本的結(jié)果來推測(cè)總體情況。
比如我們想知道中國(guó)成年男性的平均身高,理論上最準(zhǔn)確的辦法是調(diào)查中國(guó)所有成年男性的身高,然后計(jì)算平均數(shù)。很顯然,沒人這樣做。實(shí)際的做法總是抽取一部分人,然后計(jì)算這部分人的平均身高,由這個(gè)平均身高來大致估計(jì)總體的平均身高。
理解了抽樣,再來理解抽樣分布。抽樣分布說的是對(duì)誰的分布?答案是樣本統(tǒng)計(jì)量,比如樣本均數(shù)或者樣本比例。以樣本均數(shù)為例,一般說樣本均數(shù)的抽樣分布如何如何,這里,樣本均數(shù)被當(dāng)成了一個(gè)隨機(jī)變量來看待。我們最希望大家記住的要點(diǎn):樣本均數(shù)是一個(gè)隨機(jī)變量,但對(duì)于初學(xué)者,這確實(shí)是比較反直覺的。
為何樣本均數(shù)可以被當(dāng)做一個(gè)隨機(jī)變量?因?yàn)闃颖揪鶖?shù)是依賴樣本計(jì)算得出的:每抽取一組樣本都可以計(jì)算出一個(gè)樣本均數(shù),而且這些樣本均數(shù)或多或少都會(huì)有些差異。由此,樣本均數(shù)會(huì)隨著抽樣的不同而隨機(jī)變動(dòng)。只是現(xiàn)實(shí)生活中我們一般只抽取一組樣本,計(jì)算一個(gè)樣本均數(shù),因此,會(huì)覺得樣本均數(shù)不變。
當(dāng)初大學(xué)里,學(xué)數(shù)理統(tǒng)計(jì)的時(shí)候,到了這塊就感覺越來越難了,學(xué)習(xí)的過程中可以說就是囫圇吞棗,似懂非懂。但現(xiàn)在,經(jīng)過漫長(zhǎng)的實(shí)踐過程,對(duì)統(tǒng)計(jì)學(xué)的知識(shí)有了更深一步的理解。
統(tǒng)計(jì)推斷,說白了,就兩件事。第一個(gè),參數(shù)估計(jì)。第二個(gè),各類假設(shè)檢驗(yàn)。學(xué)習(xí)到這里,假如你是做數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí)的,你就會(huì)強(qiáng)烈意識(shí)到,數(shù)據(jù)挖掘和統(tǒng)計(jì)學(xué)之間是存在千絲萬縷的聯(lián)系。
參數(shù)估計(jì),顧名思義就是對(duì)參數(shù)進(jìn)行估計(jì),那什么是參數(shù)呢?就是你假設(shè)分布的參數(shù)就是說你認(rèn)為或者知道某個(gè)隨機(jī)過程服從什么分布,但是不確定他的參數(shù)是什么,那怎么辦?你采樣、采很多樣本(實(shí)際值),通過這些樣本的值去估計(jì)分布的參數(shù)就是參數(shù)估計(jì)。
上面講到,統(tǒng)計(jì)推斷就需要明白兩件事,一件是參數(shù)估計(jì),另外一件是假設(shè)檢驗(yàn)。
假設(shè)檢驗(yàn)是什么?說白了,假設(shè)檢驗(yàn)就是先對(duì)總體猜一個(gè)參數(shù)值,然后利用樣本的數(shù)據(jù)檢驗(yàn)這個(gè)參數(shù)值準(zhǔn)不準(zhǔn)。
互聯(lián)網(wǎng)生產(chǎn)實(shí)踐中的ABTEST方法,就經(jīng)常會(huì)應(yīng)用到假設(shè)檢驗(yàn)的思想。
舉一個(gè)簡(jiǎn)單的例子:
學(xué)而思網(wǎng)校App進(jìn)行了改版迭代,現(xiàn)在有以下兩個(gè)版本
版本1:首頁為一屏課程列表
版本2:首頁為信息流
如果我們想?yún)^(qū)分兩個(gè)版本,哪個(gè)版本用戶更喜歡,轉(zhuǎn)化率會(huì)更高。我們就需要對(duì)總體(全部用戶)進(jìn)行評(píng)估,但是并不是全部存量用戶都會(huì)訪問App,并且每天還會(huì)新增很多用戶,所以我們無法對(duì)總體(全部用戶)進(jìn)行評(píng)估,我們只能從總體的用戶中隨機(jī)抽取樣本(訪問App)的用戶進(jìn)行分析,用樣本數(shù)據(jù)表現(xiàn)情況來充當(dāng)總體數(shù)據(jù)表現(xiàn)情況,以此來評(píng)估哪個(gè)版本轉(zhuǎn)化率更高。
大學(xué)里學(xué)習(xí)統(tǒng)計(jì)學(xué)的時(shí)候,最喜歡學(xué)回歸分析,也是學(xué)的最明白的一部分。因?yàn)樗囊锥?,也因?yàn)樗膶?shí)用性。但隨著自己數(shù)據(jù)分析經(jīng)驗(yàn)的積累,對(duì)回歸分析的理解也越來越深,它不是簡(jiǎn)單的回歸模型求解那么簡(jiǎn)單,它更是一種日常工作中解決問題的思路和方法論。
數(shù)據(jù)挖掘中使用的各種高深的模型,任何模型都可理解成回歸模型,包含因變量Y和自變量X,求解參數(shù)。
在我看來,回歸分析由兩部分組成:業(yè)務(wù)分析和技術(shù)分析。其中,業(yè)務(wù)分析屬于“道”的層面,而技術(shù)分析屬于“術(shù)”的層面。從“道”的層面來看,回歸分析是業(yè)務(wù)分析,其分析的不是數(shù)據(jù),而是業(yè)務(wù),是業(yè)務(wù)中的不確定性。通過業(yè)務(wù)分析,獲得對(duì)業(yè)務(wù)不確定性的理解,進(jìn)而將抽象的不確定性業(yè)務(wù)問題轉(zhuǎn)換成一個(gè)具體的數(shù)據(jù)可分析問題。
什么是數(shù)據(jù)可分析問題?一個(gè)業(yè)務(wù)問題,只要有清晰定義的因變量Y(不管是看得見的,還是看不見的)和清晰定義的自變量X,這就是一個(gè)數(shù)據(jù)可分析問題。一旦把業(yè)務(wù)問題規(guī)范成一個(gè)具體的數(shù)據(jù)可分析問題(有清晰定義的Y和X),那么接下來就是技術(shù)分析,屬于回歸分析“術(shù)”的層面。在這個(gè)層面,人們關(guān)心對(duì)于一個(gè)既定的Y和X,要研究其中的不確定性,應(yīng)該選擇什么樣的模型設(shè)定,線性模型還是非線性模型,一元模型還是多元模型,簡(jiǎn)單的決策樹還是隨機(jī)森林,普通的神經(jīng)網(wǎng)絡(luò)還是深度學(xué)習(xí)。模型設(shè)定確定下來后,還需思考應(yīng)該用什么方法估計(jì),如何調(diào)優(yōu),等等。
以上是對(duì)回歸分析的一種廣義上的理解,狹義上理解回歸分析,需要理解以下幾個(gè)核心概念:
相關(guān)系數(shù)
回歸分析
最小二乘法
顯著性檢驗(yàn)
多重共線性
擬合優(yōu)度
當(dāng)然,統(tǒng)計(jì)學(xué)的知識(shí)還包含很多,比如方差分析,時(shí)間序列分析,統(tǒng)計(jì)指數(shù)等等,這些知識(shí)在特定的應(yīng)用場(chǎng)合,也有著廣泛的應(yīng)用,只是相比以上的知識(shí)點(diǎn),應(yīng)用范圍更小點(diǎn)。 以上就是小編為您介紹的統(tǒng)計(jì)數(shù)據(jù)分析怎么做,希望對(duì)您有所幫助。
[免責(zé)聲明]
文章標(biāo)題: 統(tǒng)計(jì)數(shù)據(jù)分析怎么做?
文章內(nèi)容為網(wǎng)站編輯整理發(fā)布,僅供學(xué)習(xí)與參考,不代表本網(wǎng)站贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)及時(shí)溝通。發(fā)送郵件至36dianping@36kr.com,我們會(huì)在3個(gè)工作日內(nèi)處理。