第 一 章 迴歸分析概念與相關分析 ............. 1-1 第 二 章 簡單線性迴歸 ................................. 2-1 第 三 章 其他迴歸模型 ................................. 3-1 第 四 章 殘差分析 ......................................... 4-1 第 五 章 多元線性迴歸 ................................. 5-1 第 六 章 矩陣應用 ......................................... 6-1 第 七 章 迴歸模式選擇 ................................. 7-1 第 八 章 邏輯斯迴歸(補充) ..................... 8-1 附 錄 一 最新試題 ......................................... 9-1 附 錄 二 分配表 ........................................... 10-1
2
一、線性迴歸的概念 什麼是迴歸: 19 世紀知名遺傳學暨統計學家高爾登(Galton),發現「非 常高的父母所生的孩子,往往會比父母矮些,而非常矮的父 母所生的孩子,則往往比父母高」,他把這個現象稱作「 Regression to the Mean」。他認為假使沒有這個現象的話, 那麼非常高的父母所生的孩子都會比父母高,及非常矮的父 母所生的孩子都會比父母矮,這樣一來經過世代交替最終會 造成兩種身高極端差異的族群。他也找到一個數學方法去測 量 這 樣 的 關 係 , 並 且 定 義 為 相 關 係 數 ( Coefficient of Correlation),所以迴歸可以找出兩變項的相關性,並且進 一步可以找出因子是否會影響實驗值的結論。 線性迴歸的概念: 兩個變數之間的關係,最基本的關係就是線性關係。連續變 數之間的關係可以是直線的,也可以是非直線的關係,因為 許多問題與經濟現象以一種直線或近似直線的關係就足以掌 握其變動趨勢,如銷售額可利用銷貨額與廣告支出金額的關 係作預測。若我們將因子部分的變數稱為自變數( Independent Variable),以 X 表示;實驗值部分的變數稱為 依變項(Dependent Variable),以 Y 表示。如此我們就可 以利用迴歸的概念找出自變數與依變數的關係式。 二、變數之間的關聯 從統計學的角度來說,變數的關係並非完全的函數關係。若 我們觀察銷售額與廣告支出金額的關係,每一筆廣告支出有
第一章/迴歸分析概念與相關分析
3
其對應的銷售額,將這些數值之對應關係繪成的圖形,稱之 為散布圖(Scatter Diagrams)。統計的直線關係就是要在圖 形內找到一條直線,儘可能的接近觀察的樣本點,用來代替 廣告支出與銷售額之變化情況。由下圖可以看出,由廣告支 出與銷售額之間得到一個統計關係,亦即並非所有的觀察值 均落在一條直線上,因樣本變動影響觀察值與平均值的差異 ,這就是統計關係的意義。
直線和非直線相關: 因為直線關係在許多現象間的關係是很好的表示法,通常使 用它來測量兩變數間變動趨勢的一致性,因此有許多關係相 當密切的變數可以用直線表示,即我們所謂的線性關係。但 是還是有些情況必須用非直線來表示。我們必須在事前觀察 決定使用直線還是非直線,最好的方式可以使用畫圖的方法 配合經驗評估使用那種方式較合適。 相關程度: 相關程度是瞭解變數關係的一種方法,兩種變數之相關程度 很高,代表他們幾乎由同一因素決定,也就是說一種變數變 動時,另一種變數就會跟著改變;當相關低時,其代表他們 之個別差異由相當不同因素決定。
4
正相關
負相關
無直線相關
無直線相關
無直線相關
無直線相關
相關程度衡量: 即便我們可以使用散布圖觀察兩變數之間的相關性,但還是 無法藉由圖形的資訊來量化相關程度。所以用來描述自變項 與依變項之間正負變動關係與關連性強弱,可採用相關係數 來衡量之。 ‧屬量資料:屬量資料可利用積差相關係數(又稱皮爾森相 關係數、樣本相關係數)來量化兩變項之間的關聯性。
第一章/迴歸分析概念與相關分析
rX , Y
5
SS XY SS X SS Y n
n
( Yi − Y) X i Yi nX Y 其中 SSXY ( X i − X) i =1
i =1
n
n
其中 SSXY ( X i − X)Yi ( Yi − Y)X i i =1
i =1
n
n
n
i =1
i =1
i =1
n
n
n
i =1
i =1
i =1
又 SSX ( X i − X)2 X i2 − nX 2 ( X i − X)X i 又 SSY ( Yi − Y)2 Yi2 − nY 2 ( Yi − Y)Yi 等級資料: 斯皮爾曼(Spearman)等級相關係數: 6 d i2 rs 1 n( n 2 − 1) 其中 di Xi Yi,n 樣本數。 肯德爾(Kendall)相關係數: S' n ,S'為失序量數。 C2 相關係數觀念釐清: 要注意 rX , Y 與統計學隨機變數中所提X , Y 有所不同 ,隨機變數章節是給 f(x , y)求算X , Y,X , Y 稱母 體相關係數;此處 rX , Y 是利用成對資料(Xi , Yi)求 算,稱為樣本相關係數。 公式中 SSXY,SSX,SSY 為通用符號,考場可直接使 用(有時 SSXY 會以 SXY 表示,而 SSX 與 SSY 會以 SXX 、SYY 表示),但隨考題所給資料型式不同,其變化 公式亦要留意。 1 rX , Y 1,rX , Y 愈接近1,表兩變項之間的變 動關係很強;rX , Y 接近 0,則稱兩變項無直線相關(
6 並非獨立),且 rX , Y 0 表兩變項有正向關係,rX , Y 0 則有負向關係。 0.7 |rX , Y| 1,稱高度相關;0.3 |rX , Y| 0.7, 稱中度相關;0 |rX , Y| 0.3,稱低度相關。 這裡的相關指的是直線關係,兩變項間可能會有很強 的直線關係,但不代表之間具有因果關係(即 Y 是
X 所造成的)。例如:臺灣年平均垃圾量與臺灣每年 適婚男女未婚比例為正相關,但不代表更高的垃圾量 是由於大家不結婚所造成的,只是恰好兩者有正相關。 三、相關程度的推論 母體相關係數之檢定: 檢定是否有相關:
H0: 0 抽樣分布為 T* r
n−2 ~t(n 2) 1 − r2
檢定相關係數等於一定值:
H0:0 1 1 + r 1 1 +0 ln − ln 2 1 − r 2 1 −0 * 抽樣分布為 Z ~Z 1 n −3 檢定兩組相關係數是否相等:
H0:1 2 抽樣分布為 Z*
1 1 + r1 1 1 + r2 ln − ln 2 1 − r1 2 1 − r2 1 1 + n1 − 3 n 2 − 3
斯皮爾曼等級相關係數檢定:
~Z
第一章/迴歸分析概念與相關分析
小樣本:
H0: 0 T* rs
n−2 ~t(n 2) 1 − rS2
大樣本:
H0: 0 Z* r n − 1 ~Z :較少採用大樣本來作檢定。
7
8
1 下列三個圖中,縱軸與橫軸的變數間的相關係數可以 r1、r2、
r3 表示,其大小關係?
【中山資管】
三圖中之相關度最高,其次,更次,即 r2 r1 r3。
2 假設 X 為讀書所花時間,Y 為考試成績,A、B、C、D 四班 學生讀書時間和成績的散布圖如下。四個班 X-Y 之相關係數 分別為 Ra、Rb、Rc、Rd。
比較其大小,以下何者最有可能?
第一章/迴歸分析概念與相關分析
9
Ra Rb Rc Rd Rb Ra Rc Rd Ra Rb Rd Ra Rc 【國安機統】 資料散布如一直線時,相關程度大,反之則較小。 選。
3 某人有興趣瞭解身高與體重的關係。在收集資料後,他繪製體 重與身高之散布圖並進行兩變數之相關性分析。體重與身高之 散布圖在下圖,兩變數之樣本相關係數是 0.940,因此某人宣 稱「體重」與「身高」有非常強的正相關性。試評論某人之分 析結果並針對下圖說明你會如何分析以期達到最適之模式。
【高考迴歸】 相關係數 r 之大小,並不能直接用來判斷兩變數線性相關的 程度,在上圖中我們可發現大部分資料皆群聚在下方,但有 一個離群值,因此造成 0.94 的高度相關,但若忽略極端值 ,只計算下方資料之 r 時,相關就不會如此高。
10
4 請在下面表格中填入適當的相關係數(僅能填入 0.25、0.5、 0.8): 爸爸與已成年兒子身高之間的相關係數。 丈夫身高與太太身高之間的相關係數。 一個男子其 4 歲時與其 18 歲時身高的相關係數。 【清大科管】 0.8,有遺傳會有高度正相關。 0.5,有一點點正相關,不高是因為無血緣關係,但選配 偶時,會有一點點「高配高,矮配矮」的現象。 0.25,4 歲的小孩,身高並無太大差異,出來之點應在一 直線(X 4)上,所以相關降低。
5 以下是 8 位業務人員的壓力分數(X)和銷售業績(Y): X
80
50
36
58
72
60
56
68
Y
65
60
35
39
48
44
48
61
請計算出 rX , Y ?
【雲科企管】
X 2 30104,n 8, X 60 Y 2 20836, XY 24654, Y 50
rX , Y
SSXY XY − nXY 0.626 SSX‧SSY ( X 2 − nX 2) ( Y 2 − nY 2)