第二章 常用統(tǒng)計技術

【考試趨勢】

單選4-5題,多選6-8題,綜合分析7-8題。

總分值30-40分??偡?span lang=en-us>170分。占比20%左右。

【大綱考點】

一、方差分析

()方差分析基本概念   

1.掌握因子、水平和方差分析的三項基本假定   

2.熟悉方差分析是在同方差假定下檢驗多個正態(tài)均值是否相等的統(tǒng)計方法(難點)

()方差分析方法 

1.掌握單因子的方差分析方法(平方和分解、總平方和、因子平方和、誤差平方和,自由由度、f比、顯著性) (重點)

2.了解重復數不等情況下的方差分析方法。(難點)

二、回歸分析   

主要研究定量因子,也就是變量分析

()散布圖與相關系數   

1.掌握散布期望值與與做法   

2.掌握樣本相關系數的定義、計算及其檢驗方法   (重點,難點)

()一元線性回歸 

1.掌握用最小二乘估計建立一元線性回歸方程的方法 (重點,難點)

2.掌握一元線性回歸方程的檢驗方法(重點,難點)

3.熟悉一元線性回歸方法在預測中的應用   

()了解可化為一元線性回歸的曲線回歸問題  

【考點解讀】

第一節(jié) 方差分析

一、方差分析

1、三項基本假定-(掌握p75)

為什么要方差分析?目的和用途。方差分析不是分析方差,通過方差分析因子的顯著與否。方差只是手段。對結果的影響是否顯著。要用到假設檢驗。零假設,備擇假設。

但是假設檢驗的前提條件是:正態(tài)分布,等方差,觀測相互獨立。也就是大綱里講的三項基本假定。

 

2、方差分析的統(tǒng)計檢驗-(掌握p76)

那么如何在同方差假定下檢驗多個正態(tài)均值是否相等呢?其實統(tǒng)計檢驗的問題。大家想一下,零假設,備擇假設是什么?

同一個因子,有不同水平,每個水平重復多次試驗就得到一個分布。有幾個水平就有幾個分布,方差分析是看分布的均值是否相等。相等,說明因子變動對結果沒影響,相差越大就越顯著!

3、單因子的方差分析-(掌握p77-80)

因子a,有r個水平,也就是取值的情況,在試驗中每個水平被重復m 次。那么總共可以得到多少個結果觀測值呢?n=r*m個。

每個水平的和,以及均值,分別共有r個。總和為t,總均值為y。

離差平方和,通俗來講,就是每個值離開平均值的平方和。先平方,再求和。能反映離散程度,波動情況。

那么,什么因素造成觀測值的波動呢?如果解釋因子的離差平方和能夠和結果的離差平方和很一致,那么這個因子就是顯著的。

這里,因子平方和的計算很有講究。首先,組間方差,也就是平方和,是用每個水平的均值與總均值相比較來求。因每個水平被重復試驗m 次,還要乘以m 。

總平方和的求解概念上很簡單,但計算量比較大。

因此,有個簡便計算公式,每個觀測的平方,求和;總和t平方,除以n=r*m;然后兩者相減。大家看一下,教材78頁的公式是不是這樣?

同樣,因子平方和的計算也有簡便公式??梢赃@樣來理解,每組的(每個水平)的均值平方,因每個水平被重復試驗m 次,故 m 次求和;總和t平方,除以n=r*m;然后兩者相減。

 

一般地,總平方和、因子平方和不會相等。之間的差額就是誤差平方和。當然,為了驗證平方和分解,還要計算一下誤差平方和。

為了能使用f分布進行統(tǒng)計檢驗,還需要用到自由度的概念來構造符合f分布的統(tǒng)計值。

自由度(degree of freedom, df),在數學中能夠自由取值的變量個數,如有3個變量x、yz,但x+y+z=18,其自由度等于2。在統(tǒng)計學中,自由度指的是計算某一統(tǒng)計量時,取值不受限制的變量個數。通常df=n-k。其中n為樣本含量,k為被限制的條件數或變量個數,或計算某一統(tǒng)計量時用到其它獨立統(tǒng)計量的個數。電子游戲中也有自由度這個概念。這個,我就不清楚了。統(tǒng)計學上的自由度是指當以樣本的統(tǒng)計量來估計總體的參數時, 樣本中獨立或能自由變化的資料的個數,稱為該統(tǒng)計量的自由度。 統(tǒng)計學上的自由度包括兩方面的內容:

首先,在估計總體的平均數時,由于樣本中的 n 個數都是相互獨立的,從其中抽出任何一個數都不影響其他數據,所以其自由度為n。 在估計總體的方差時,使用的是離差平方和。只要n-1個數的離差平方和確定了,方差也就確定了;因為在均值確定后,如果知道了其中n-1個數的值,第n個數的值也就確定了。這里,均值就相當于一個限制條件,由于加了這個限制條件,估計總體方差的自由度為n-1。例如,有一個有4個數據(n=4)的樣本, 其平均值m等于5,即受到m=5的條件限制, 在自由確定4、2、5三個數據后, 第四個數據只能是9, 否則m≠5。因而這里的自由度v=n-1=4-1=3。推而廣之,任何統(tǒng)計量的自由度v=n-限制條件的個數。

其次,統(tǒng)計模型的自由度等于可自由取值的自變量的個數。如在回歸方程中,如果共有p個參數需要估計,則其中包括了p-1個自變量(與截距對應的自變量是常量1)。因此該回歸方程的自由度為p-1。這個解釋,如果把樣本二字換成總體二字也說得過去。這個根本解釋不了在統(tǒng)計學中,自由度的概念。在一個包含n個個體的總體中,平均數為m。知道了n-1個個體時,剩下的一個個體不可以隨意變化。為什么總體方差計算,是除以n而不是n-1呢?方差是實際值與期望值之差平方的期望值,所以知道總體個數n時方差應除以n,除以n-1時是方差的一個無偏估計。

這里,自由度也有分解式。其中,總自由度和因子自由度容易求,二者之差可以求其三。

,,

平方和與自由度之比,得均方差,ms

msa/mse=f,構造出f統(tǒng)計量。并計算統(tǒng)計值。然后與臨界值,門檻值或者閾值,比較。如果大于閾值,拒絕原假設,因子顯著!這個,閾值,教材上叫分位數。1- 分位數。f分位數又有2個參數,即分子和分母的自由度。

最后,列出方差分析表。

(平方和分解、總平方和、因子平方和、誤差平方和,自由度、f比、顯著性

如果顯著,要找出最好的水平,根據均值最好的水平確定。

還可以用均值水平圖直觀顯示。

最后,還要估計我們統(tǒng)計檢驗的誤差大小。即誤差方差,估計值用均方差mse。

4、重復數不等情況下的方差分析-(掌握p81

 

 

 

注:許多考生常常疑惑的地方,這里給出解答,教材是沒有的。

第二節(jié) 回歸分析

 

1、相關系數

定義,其實可以聯想一下協方差的概念。一個變量x的方差是v(x)=,那么兩個變量之間的協方差呢?可以比照方差的公式。這是理解的心法!

cov(x)=協方差除以兩個變量的標準差乘積就是相關系數。

相關系數的計算方法公式很有規(guī)律。

2、樣本相關系數的檢驗-(掌握p84-85

有專門的檢驗表,教材上有。統(tǒng)計值與臨界值比較。

3、最小二乘估計gls-(掌握p86

這個可能大家都很熟悉了。這里簡略講一下。

基本思想是方程的估計值與實際觀測值的之間的殘差平方和最小,所以英文名叫gls.一般最小二乘法。

殘差平方和,離差平方和,回歸平方和

,。

下標r表示回歸,英文名regression。

同學看一下,上面3個公式哪個是固定的?哪個是可調的?哪個是要求最小的?

三者之間存在方差分解關系。

4、顯著性檢驗-(掌握p87

方差分析方法來檢驗。關鍵是構造f統(tǒng)計量。

殘差平方和,離差平方和,回歸平方和

,。

下標r表示回歸,英文名regression。

同學看一下,上面3個公式哪個是固定的?哪個是可調的?哪個是要求最小的?

三者之間存在方差分解關系和自由度分解關系。

 

5、模型預測-(掌握p87-88

 

兩個步驟。1,代入方程得到的估計值。2,給出預測精度,即置信區(qū)間。由于假定了作為隨機變量,服從正態(tài)分布。所以預測精度可用預測誤差來表示。

預測誤差,

6、曲線回歸問題-(掌握p88-92

主要是變量轉換,化為一元線性回歸問題。求得系數后,再還原到非線性方程。對于不同形式的方程,選優(yōu)的標準有兩個:判定系數和標準殘差