国产精一区二区_午夜视频99_免费白白视频_中文字幕一区免费

熱門文章> 統計學數據分析,數據統計分析 >

統計學數據分析,數據統計分析

36氪企服點評小編
2021-08-05 16:06
1168次閱讀

      在回答數據分析入門應該具備什么樣的能力的問題時,我經常提到統計知識。統計是一種利用數學理論進行數據分析的技術。通過統計,我們可以以更有信息驅動力和針對性的方式操作數據。接下來就由小編為您介紹統計學數據分析,數據統計分析。

統計學數據分析,數據統計分析統計學數據分析

一、描述統計

描述統計是通過圖表或數學方法對數據進行整理和分析,估計和描述數據的分布狀態、數字特征和隨機變量之間的關系的方法。

描述統計分為三個部分:集中趨勢分析、離中趨勢分析和相關分析。

集中趨勢分析:集中趨勢分析主要依靠平均數、中數、眾數等統計指標來表示數據的集中趨勢。

分析離中趨勢:離中趨勢分析主要依靠全距離、四分差、平均差、方差(協方差:用于測量兩個隨機變量關系的統計量)、標準差等統計指標來研究數據的離中趨勢。舉例來說,我們想知道兩個教學班的語文成績中,哪個班的成績分布比較分散,可以用兩個班的四分差或百分點來比較。

相關分析:相關分析討論數據之間是否存在統計相關性。

二、假設檢驗

假定檢驗是用來判斷樣品和樣品,樣品和樣品之間的整體差異是由抽樣誤差還是本質差異引起的。

假設檢驗可分為三類:正態分布檢驗、正態總平均分布檢驗和非參數檢驗。

正態分布檢驗:正態分布檢驗包括三類:JB檢驗、KS檢驗和Lilliefors檢驗,用于檢驗樣本是否來自正態分布的整體。

正態總平均分布檢驗:正態平均分布檢驗檢測系統誤差對檢測結果的影響。從統計意義上說,各樣本的平均差應在隨機誤差允許的范圍內。相反,如果不同樣本的平均值之差超出允許范圍,說明除了隨機誤差,平均值之間還存在系統誤差,使得平均值之間存在顯著差異。

有兩種情況:

t檢驗:主要用于樣品含量小、整體標準差的正態分布數據。用T分布理論推斷差異的概率,從而判斷兩個平均數的差異是否顯著。

u檢驗:一般用于大樣本的平均差異檢驗,基于樣本來自正態的整體假設。用標準正態分布理論推斷差異的概率,比較兩個平均數的差異是否顯著。國外英語統計學多采用Z檢驗。

非參數檢驗

非參數檢驗不考慮整體分布是否已知,只應用樣本觀察值中一些非常直觀的信息。適用情況包括:待分析數據不符合參數檢驗要求的假設,因此無法應用參數檢驗;僅由一些等級組成的數據;提出的問題不包括參數;當需要快速得到結果時。其主要方法有:卡方檢驗、秩和檢驗、二次檢驗、旅游檢驗、K-量檢驗、符號檢驗等。

三、相關分析

相關分析是研究現象之間關系的主要方法之一,可以測量現象之間關系的大小和方向。根據維度的不同,相關關系的類型可以分為:

按照相關程度來劃分全相關、不相關、不完全相關。

按照依存關系的表現形式,分為線性相關和非線性相關。

按相關方向劃分:正相關和負相關。

根據研究量的不同:單相關,復相關。

測量相關性的方法有:散點圖,相關系數等。

四、回歸分析

回歸分析是確定兩個或兩個以上變量之間相互依賴的定量關系的統計分析方法。根據變量的數量和變量之間的關系類型,可以分為多種回歸:

一元線性回歸分析:對變量與自變量之間的線性關系進行分析,常用的統計指標有:平均數,增減,平均增減。

多線性回歸分析:對多個自變量與一個因變量之間的線性關系進行分析,在實際統計分析中,通常使用軟件來估計多個回歸模型。

非線性回歸分析:自變量和因變量之間因果關系的函數表達式是非線性的。非線性回歸模型包括對數曲線方程、反函數曲線方程、二次曲線方程、三次曲線方程、復合曲線方程、冪函數曲線方程、S形曲線方程等。

五、方差分析

方差分析又稱變異數分析或F檢驗,用于檢驗兩個或兩個以上樣本均數差異的顯著性。使用條件包括:各種樣本必須是獨立的隨機樣本;各種樣本來自正態分布的整體;整體方差相等。

根據分析的測試因素數量,可分為:

單因素方差分析:用于研究控制變量的不同水平是否對觀察變量有顯著影響。在這里,因為只研究一個因素。

雙因素方差分析:用于分析兩個因素的不同水平是否對結果有顯著影響,兩個因素之間是否存在交互效應。

六、聚類分析

聚類分析是一種探索性的分析。在分類過程中,人們不必提前給出分類標準。聚類分析可以從樣本數據中將數據分類到不同的類或集群。同一簇的對象有很大的相似性,而不同簇的對象有很大的相異性。

聚類分析的計算方法主要有:

分裂法

先創建k個劃分,k為要創建的劃分數。然后利用循環定位技術,將對象從一個劃分轉移到另一個劃分,有助于提高劃分質量。典型的劃分方法有:k-means、k-medoids、CLARA、CLARANS、FCM等。

層次法

創建一個層次分解給定的數據集,可以分為兩種操作模式:自上而下(分解)和自下而上(合并)。方法包括:BIRCH、CURE、ROCK、CHEMALOEN等。

基于密度的方法:根據密度完成對象的聚類。方法包括:DBSCAN、OPTICS等。

基于網格的方法:首先,將對象空間分為有限的單元來構成網格結構,然后利用網格結構來完成聚類。方法包括:STING、CLIQUE等。

基于模型的方法:假定每個聚類模型并找到適合相應模型的數據。方法包括:COBWEB、CLASSIT等。

七、時間序列分析

時間序列是同一現象在不同時間上的觀察數據按時間順序排列得到的數列,也稱為動態數列。時間序列的兩個基本要素:現象所屬的時間和反映現象在不同時間的指標值。

根據排列指標的不同表現形式,時間序列可分為:

絕對時間序列:指一系列同類總量指標數據按時間順序排列形成的序列,反映現象在各個時期達到的絕對水平。又分為時間序列和時間序列。

相對時間序列:指相對指標值按時間順序排列形成的時間序列,主要反映客觀現象數量對比關系的發展過程。

平均時間序列:指一系列同類平均指標值按時間順序排列形成的數列,主要反映客觀現象一般水平的發展變化過程。也可以分為靜態平均時間序列和動態平均時間序列。

根據影響因素,時間序列分析模型可分為:

長期趨勢的測期趨勢的方法:時距擴大法,移動平均法,最小二乘法。

季節變化的測定和分析方法:同期平均法和移動平均趨勢排除法。

測定和分析循環變化的方法:直接法和剩余法。

      當然,統計學遠不止這七種數據分析方法,還有很多其他值得深入學習的方法,如通徑分析、因子分析、主要成分分析等。如果以后想做數據分析,一定要多學習統計學的基礎知識。在數據分析工作中,利用統計學,我們可以更深入、更細致地觀察數據是如何準確組織的,并根據這種組織結構確定數據分析方法,以獲得更多的信息。以上就是小編為您介紹的

[免責聲明]

文章標題: 統計學數據分析,數據統計分析

文章內容為網站編輯整理發布,僅供學習與參考,不代表本網站贊同其觀點和對其真實性負責。如涉及作品內容、版權和其它問題,請及時溝通。發送郵件至36dianping@36kr.com,我們會在3個工作日內處理。

消息通知
咨詢入駐
商務合作