
數據分析師,無(wú)疑是數據時(shí)代最耀眼的職業(yè)之一,而統計學(xué),又是數據分析師必備的基礎知識。
知識點(diǎn)匯總:
1.集中趨勢(Central Tendency)
2.變異性(Variability)
3.歸一化(Standardizing)
4.正態(tài)分布(Normal Distributions)
5.抽樣分布(Sampling Distributions)
6.估計(Estimation)
7.假設檢驗(Hypothesis testing)
8.T檢驗(T-test)
1.眾數
出現頻率最高的數;
2.中位數
把樣本值排序,分布在最中間的值;
樣本總數為奇數時(shí),中位數為第(n+1)/2個(gè)值;
樣本總數為偶數時(shí),中位數是第n/2個(gè),第(n/2)+1個(gè)值的平均數;
3.平均數
所有數的總和除以樣本數量;
小結:
現在大家接觸最多的概念應該是 平均數,但有時(shí)候,平均數會(huì )因為某些極值(Outlier)的出現收到很大影響;
舉個(gè)小例子,你們班有20人,大家收入差不多,19人都是5000左右,但是有1個(gè)同學(xué)創(chuàng )業(yè)成功了,年入1個(gè)億,這時(shí)候統計你們班同學(xué)收入的“平均數”就是500萬(wàn)了,這也很好的解釋了,每年各地的平均收入數據出爐,小伙伴們直呼給祖國拖后腿了,那是因為大家收入被平均了,此時(shí),“中位數”更能合理的反映真實(shí)的情況;
1.四分位數
上面說(shuō)到了“中位數”,把樣本分成了2部分,再找個(gè)這2部分各自的“中位數”,也就把樣本分為了4個(gè)部分,其中1/4處的值記為Q1,2/4處的值記為Q2,3/4處的值記為Q3
2.四分位距 IQR=Q3-Q1

四分位數.jpg
3.異常值(Outlier):小于Q1-1.5(IQR)或者大于Q3+1.5(IQR);
對于異常值,我們在處理時(shí)需要剔除;
4.方差(Variance)

2方差variance.jpg
5.平方偏差(Standard Deviation)
-方差的算術(shù)平方根
6.貝塞爾矯正:修正樣本方差
-問(wèn):為什么要用貝塞爾矯正?
實(shí)際在計算方差時(shí),分母要用n-1,而不是樣本數量n,原因如下

3貝塞爾矯正.jpg
1.標準分數(Z-score)
一個(gè)給定分數 距離 平均數 多少個(gè)標準差?
標準分數是一種可以看出某分數在分布中相對位置的方法。
標準分數能夠真實(shí)的反映一個(gè)分數距離平均數的相對標準距離。

4歸一化standardizing.jpg
1.定義:隨機變量X服從一個(gè)數學(xué)期望為μ,方差為σ?2;的正態(tài)分布,記為N(μ,σ?2;)
隨機取一個(gè)樣本,有68.3%的概率位于距離均值μ有1個(gè)標準差σ內;
有95.4%的概率位于距離均值μ有2個(gè)標準差σ內;
有99.7%的概率位于距離均值μ有3個(gè)標準差σ內;

5正態(tài)分布normal distribution.jpg
1.中心極限定理(Central Limit Theorem)
設從均值為μ,方差為σ?2;的任意一個(gè)總體中抽取樣本量為n的樣本,當n充分大時(shí),樣本均值的抽樣分布近似服從均值為μ、方差為σ?2;/n的正態(tài)分布
2.抽樣分布(Sampling Distributions)
設總體共有N個(gè)元素,從中隨機抽取一個(gè)容量為n的樣本,在重置抽樣時(shí),共有N·n種抽法,即可以組成N·n不同的樣本,在不重復抽樣時(shí),共有N·n個(gè)可能的樣本。每一個(gè)樣本都可以計算出一個(gè)均值,這些所有可能的抽樣均值形成的分布就是樣本均值的分布。但現實(shí)中不可能將所有的樣本都抽取出來(lái),因此,樣本均值的概率分布實(shí)際上是一種理論分布。數理統計學(xué)的相關(guān)定理已經(jīng)證明:在重置抽樣時(shí),樣本均值的方差為總體方差的1/n
視頻中的例子:
48盆MM豆,計算出每盆有幾個(gè)藍色的MM豆,48個(gè)數據構成了總體樣本。然后隨機選擇五盆,計算五盆中含有藍色MM豆的平均數,然后反復進(jìn)行了50次。這就是n為5的樣本均值抽樣。

6抽樣分布sampling distributions.jpg
1. 誤差界限(Margin of error)

7誤差界限margin of error.jpg
2. 置信度(Confidence level)
We are some % sure the true population parameter falls within a specific range
我們有百分之多少確信總體中的值落在一個(gè)特定范圍內;
一般情況下,取95%的置信度就可以;
3. 置信區間(Confidence Interval)

8置信區間.jpg

9假設檢驗hypothesis testing.jpg
1. 問(wèn)題:什么是顯著(zhù)性水平?
顯著(zhù)性水平是估計總體參數落在某一區間內,可能犯錯誤的概率,也就是Type I Error
A Type II Error is when you fail to reject the null when it is actually false.

9假設檢驗-零假設和對立假設.jpg
9.3假設檢驗-案例:雞.jpg

9.4假設檢驗-案例:雞.jpg
作者:zhengweiyu 原文地址:https://discussions.youdaxue.com/t/topic/29031
2. 如何選擇備選檢驗和零假設?
一個(gè)研究者想證明自己的研究結論是正確的,備擇假設的方向就要與想要證明其正確性的方向一致;
同時(shí)將研究者想收集證據證明其不正確的假設作為原假設H0
1. 主要用于樣本含量較?。ɡ鏽<30),總體標準差σ未知的正態(tài)分布。
流程如下:

10.t檢驗.jpg
是用t分布理論來(lái)推論差異發(fā)生的概率,從而比較兩個(gè)平均數的差異是否顯著(zhù);
一般檢驗水準α取0.05即可;
計算檢驗統計量的方法根據樣本形式不同;
2. 獨立樣本T檢驗:
現在要分析男生和女生的身高是否相同兩者的主要區別在于數據的來(lái)源和要分析的問(wèn)題。

10.1 t檢驗.jpg
問(wèn)題:為什么T檢驗查表時(shí)候要n-1?
樣本均值替代總體均值損失了一個(gè)自由度
3. 配對樣本t檢驗:
分析人的早晨和晚上的身高是否不同,于是找來(lái)一撥人測他們早上和晚上的身高,這里每個(gè)人就有兩個(gè)值,這里出現了配對

10.3 t檢驗-配對樣本.jpg
樣本誤差(Standard Error)

10.4 t檢驗-樣本誤差.jpg

10.5 t檢驗-樣本誤差2.jpg
4. Pooled variance 合并方差
當樣本平均數不一樣,但實(shí)際上認為他們的方差是一樣的時(shí)候,需要合并方差
不要被公式嚇到,他的本質(zhì)是兩個(gè)樣本方差加權平均

10.6 t檢驗-合并方差1.jpg

10.6 t檢驗-合并方差2.jpg
5. Cohen’s d
效應量(effect size):提示組間真正的差異占統計學(xué)差異的比例,值越大,組間差異越可靠。

10.7 t檢驗-cohen’s d.jpg

10.7 t檢驗-cohen’s d2.jpg
End.
作者:肖彬AI
鏈接:http://www.jianshu.com/p/26796aa9eaa0
轉載請注明:人人都是數據咖 ? 數據分析師必備的統計學(xué)知識,都在這里了
聯(lián)系客服