量化研究方法與SPSS統計軟體操作

Page 1

量化研究方法與SPSS統計軟體操作 主講人:吳朝欽 逢甲大學財稅系助理教授 分機:4305

2011/10/20 1


大綱 • • • •

1.資料統計概論 2.假說檢定 3.多變量分析 4.複選題分析

2


1.資料統計概論 1.1資料概說

3


基本名詞介紹 • 母體與樣本 – 母體(population):欲研究之全部對象所成之集 合,其範圍視研究對象而定,以本例而言,母 體係指大台北地區全部行動手機使用者。 – 樣本(sample):母體之部分集合,以本例而言, 樣本係指接受調查訪問之行動手機使用者。

4


基本名詞介紹 – 母數(參數)(parameter):用來描述母體之特 徵,如母體平均值、母體標準差等,以本例而 言,包含大台北地區全部行動手機使用者之平 均所得、平均年齡、平均月通話費、平均購買 預算等。 – 統計量(statistics):用來描述樣本之特徵,例如 受訪對象之平均所得、平均年齡、平均月通話 費、平均購買預算等樣本平均值。

5


基本名詞介紹 • 敘述統計與統計推論 – 敘述統計(descriptive statistics):僅就統計資 料本身特性加以描述,未將其意義擴大至更大 範圍。例如將上述手機問卷資料,整理分析受 訪對象之平均所得、平均年齡、平均月通話費、 平均購買預算等,加以整理成表格與圖形,此 即為敘述統計之範疇。

6


基本名詞介紹 – 統計推論(inferential statistics):根據部分資料 (通常為樣本)之分析結果,對更大範圍(通 常為母體)之特性進行合理之推論。例如根據 上述問卷資料,整理分析受訪對象之平均月通 話費,並進一步推論大台北地區全部行動手機 使用者(母體)之平均月通話費,此即為統計 推論之範疇。

7


關係圖 上述母體、樣本、樣本統計量、母體參數之 關係如下圖。亦即針對母體抽樣而得統計 量(敘述統計),再根據該統計量推論而 得母體參數(統計推論)。

8


統計方法之考量因素 資料衡量尺度

變數型態

特性

質化變數

類別:性別、 教育

順序尺度

質化變數

大小、優先 順序:名次

等距尺度

量化變數

大小、優先 順序:溫度

比率尺度

量化變數

資料間的比值

名目尺度

9


銀行客戶資料之變數特性與衡量尺度 變數名稱

變數值

衡量尺度

變數屬性

性別

1:男生;0:女生

名目尺度

質化變數

年齡

年齡值

比率尺度

量化變數

居住區域

東區:1;西區:2;中區:3

名目尺度

質化變數

信用等級

最佳:1;中等:2;不良:3

順序尺度

質化變數

職業

農:1;勞:2;公教:3;工 商:4;自由:5;其他:6

名目尺度

質化變數

所得

年所得值(萬元)

比率尺度

量化變數

存款

存款值(萬元)

比率尺度

量化變數

貸款

貸款值(萬元)

比率尺度

量化變數

是否曾經逾期繳款

有:1;無:0

名目尺度

質化變數

10


資料型態與統計方法

11


新資料之建立:按「輸入資料」 12


按「變數檢視」

13


解釋 • 名稱:  輸入變數名稱,但須注意SPSS之變數名稱僅可輸 入八個字元,亦即八個半型字(英文字母或數字) 或四個全型字(中文字),若輸入中文名稱則僅能 輸入四個字。 • 類型: 一般採SPSS預設之數值型式(numeric),使用者亦 可依需要選取其他資料型式。 • 寬度: 欄位寬度,依據資料實際位數選取適當之欄位 寬度。 14


解釋-1 • 小數: 小數點位數,此功能係設定資料呈現之小數點位數。 SPSS預設值為2,故每筆數字皆會有兩位數之小數 點。 • 標記: 變數之備註說明,針對變數(欄位名稱)加以說明。 由於SPSS之變數名稱僅可輸入八個英文字母或四 個中文字,若使用者無法從變數名稱判斷該變數之 真正意義,則可在此欄位中輸入較多之備註說明。 例如「是否曾經逾期繳款」之變數,由於字數限制, 僅能在”Name”之欄位輸入「逾期繳款」四個字, 為強化該變數之說明。 15


解釋-2 • 數值: 變數之數值說明。此欄位可輸入變數值所代表之意 義,例如性別變數。 • 遺漏: 此欄位係提供定義資料遺漏值(Missing values)之 用。此功能可用以輔助使用者篩選資料之用。例如 銀行客戶之職業種類有六種,而加以編碼(亦即農 漁畜牧業為1;勞工為2;軍公教為3;工商服務業 為4;自由業為5;其他為6),若使用者認為農漁 畜牧業(編號1)與其他業(編號6)所佔顧客比例 較低,擬不列入分析對象,但又想加以保留而不刪 除,此時即可將該值定義為遺漏值。 16


按「資料檢視」 17


基本操作 • 選取資料 若使用者僅針對部分資料進行統計分析, 此時即可利用本功能。茲分別舉例說明如 下:

18


範例一:選取年齡大於40歲者進行分析

19


20


其他注意事項 以 & 代表 and 以 | 代表 or

21


資料轉換:存放比率

22


23


重新編碼

24


25


26


1.資料統計概論 1.2敘述統計

27


次數分配表

28


29


30


31


集中趨勢

32


33


2.假說檢定 

34


假說檢定(hypothesis testing) •

先對母體特性(未知母數)作適當的描述 (假說),而後利用抽出來的隨機樣本推 論(檢定)此描述是否正確,此一過程或 統計方法便稱為假說檢定。

35


假說檢定程序 • • • • • •

設立虛無假說與對立假說 選擇統計檢定方法 選擇需要的顯著水準 計算估計的統計值 獲得檢定的臨界值(或P-value, P值) 制定決策

36


檢定的種類與方法 1/2 • 檢定種類:可區分為有母數與無母數 – 母數:適用於區間尺度或比率尺度。 – 無母數: 適用於名目尺度或順序尺度。

• 如何選擇檢定方法 影響檢定方法之選擇因素包含樣本分類數 (單一樣本?兩樣本?k個樣本?)、資料 獨立或相關(相依樣本或獨立樣本)與資 料測量尺度(質化或量化變數)。 37


檢定的種類與方法 2/2 • 各項名詞 – 虛無假說(H0): 欲尋找充分證據加以否定之假說。 – 對立假說(H1): 與虛無假說對立之假說。 – 型I錯誤(Type I error): 當H0為真,但檢定結果卻拒絕H0。 – 型II錯誤(Type II error): 當H0為僞,但檢定結果卻接受H0。 – 顯著水準α(level of significance): 型I錯誤發生之最大機率。

38


統計檢定精神 1/4 • 範例一: – 以法庭判決為例 • H0:犯人無罪 • H1:犯人有罪 統計檢定精神

說明

尋求充分證據去否決H0,而非 支持H0

積極蒐集犯人之罪證

若無法拒絕H0,僅代表證據不 夠充分,而非H0為真

若犯人之罪證不足,則無法推翻犯人無罪之假設;此時不代表犯人 真的無罪,僅是無充分證據認定其有罪

錯誤的推翻H0比錯誤的接受H0 後果更嚴重

1.錯誤的推翻H0:無罪之犯人被判定有罪(後果嚴重) 2.錯誤的接受H0:有罪之犯人被判定無罪(後果較不嚴重) 39


統計檢定精神 2/4 • 範例二: – 某班數學教師宣稱其教學方法可將學生數學能力提昇 至高於70分,欲證明其說法,該教師對其任教之某班 45名學生進行測試,得到平均值為71.2分,標準差10, 試以α=0.05檢定該教師之宣稱是否正確。 – 所欲驗證之假說 假說:某教師之教學方法可提升學生數學能力至高於 70分 – 統計假說 • H0:數學平均分數未大於70分(µ≦70) • H1:數學平均分數大於70分(µ>70) 40


統計檢定精神 3/4

X ~ N (µ ,

σ2 n

)→Z =

X −µ

σ

n

71.2 − 70 = = 0.80 < 1.645(臨界值) 10 45

41


統計檢定精神 4/4 • 結論: – 無法拒絕H0,即在95%的信賴區間下,無法拒絕µ≦70 之假設,換言之,學生之數學能力未顯著大於70分。 因此,無法同意該教師之說法。 – 統計檢定之拒絕與否,端視樣本統計量值與母體參數 值之差異是否顯著(significance)而定,故統計檢定又稱 顯著性檢定(significance test)。檢定結果若無法拒絕H0, 並非接受H0,而是拒絕H0之證據不夠充分或不夠顯著。

42


2.1各種平均值之檢定 • 在比較各族群之平均值是否有顯著差異之 前,可能須先詢問要如何分群?各族群各 項變數之平均值為何?然後再進行平均值 之差異性檢定。資料的分群是以某些變數 之值(如:性別)為分群的準則,用以分 群的變數稱為獨立變數(independent variables),而所欲計算平均值的變數稱為 依變數(dependent variables)。 43


平均數

44


45


46


單一樣本 t 檢定 若銀行客戶之樣本資料存款平均值為433萬元,該 銀行欲宣稱其客戶平均存款大於400萬元,試 列出虛無與對立假說,並說明檢定結果(α=0.05) (資料檔:銀行客戶.sav)。 • H0:客戶平均存款未大於400萬元(µ≦400) H1:客戶平均存款大於400萬元(µ>400)

47


48


49


One-Sample Statistics N

存款

Mean 433.04

199

Std. Deviation 127.42

Std. Error Mean 9.03

One-Sample Test Test Value = 400

存款

t 3.657

df 198

Sig. (2-tailed) .000

Mean Difference 33.04

95% Confidence Interval of the Difference Lower Upper 15.22 50.85

• 結論:由於P-value=0.000/2=0.000<0.05,故則拒絕H0, 接 受H1,該銀行客戶平均存款顯著大於400萬。 50


獨立樣本 T 檢定 • 比較銀行客戶之平均存款是否因性別而有 所不同。 – H0:男性客戶平均存款與女性客戶平均存款無 差異 (µ0-µ1=0或µ0=µ1) – H1:男性客戶平均存款與女性客戶平均存款有 差異 (µ0-µ1≠0或µ0≠µ1) 51


52


53


54


分析結果 說明:獨立樣本t檢定所適用之抽樣分配公式,將因兩母體變異數是否相 同而區分為兩種,故檢定值之採用與解釋亦需區分為兩階段。 H 0 : σ 12 = σ 22

• 先檢定兩母體變異數是否相同 H : σ ≠ σ ,Sig=.235 > 0.05,不拒絕 H0,故兩組的變異數無顯著不同(equal variances assumed)。 1

2 1

2 2

Levene's Test for Equality of Variances F

Sig.

1.419

.235

• 依據前項檢定結果,選取適當之T檢定報表值Equal variances assumed→P-value= Sig.= 0.419 > 0.05(雙尾檢定),無法拒絕 H0。

結論:該銀行客戶中,男性與女性之平均存款無顯著差異。 55


配對樣本 T 檢定 某汽車保養行為了解某汽車省油器之功效,其選取八 部車輛並安裝省油器,並記錄其裝設前與裝設後之耗 油紀錄如下表(每100公里需加侖數) 若車輛耗油為常 態分配,試檢定該省油器是否可節省汽油。

• H0:裝設省油器前後之耗油差異平均值未大於 0(∆µ≦0) • H1:裝設省油器前後之耗油差異平均值大於 0(∆µ>0) 56


57


58


∆µ=0.2125,t=2.773,Sig = 0.028 < 0.05,因此拒絕H0,裝設省油器後可以顯 著的節省汽油。 59


2.2單變量變異數分析 檢定三個以上的獨立母體之平均值是否相等時, 可採用變異數分析(Analysis of Variance; ANOVA)。變異數分析種類繁多,如下表: 依變數個數 1 (單變量變異數分析) 單變量變異數分析) 2( (以上) 以上) (多變量變異數分析) 多變量變異數分析)

自變數個數 1 2( (以上) 以上) 1 2( (以上) 以上)

名稱 單因子變異數分析 多因子變異數分析 單因子多變量分析 多因子多變量分析 60


範例:單因子變異數分析 以全校學生成績為例,探討不同科系之 平均數學成績是否有差異。 • 操作: •

– 1.點選Analyze/Compare Means/One-Way ANOVA – 2.假說: • H0:各科系數學平均分數皆相等(µ1= µ2= µ3) • H1:各科系數學平均分數不全相等

61


62


63


64


判斷方法:p-value=Sig.=0.000<0.05,reject H0 結論:科系間之平均數學分數有顯著差異

65


範例:雙因子變異數分析 • 當懷疑某一屬量的依變數可能同時受到兩 個屬質的自變數的影響,較正確的分析方 法應是採用雙因子變異數分析,例如:如 下表想要探討「性別」與「居住區域」對 「存款」的影響。性別與居住區域對存款 的影響效果稱為主效果;性別與區域是否 同時對存款造成不同的效應則為交互效果。

66


檢定內容

67


68


69


70


分析結果 • 由交互效果的檢定結果(上表)可知,性 別與居住區域存在交互效果F=5.886 (sig.=0.003<0.05)。因而必須進一步控制某 主要效果,檢定在該主要效果下之交互效 果。

71


2.3類別資料關係探討―卡方檢定 • 以「銀行客戶資料」為例,探討客戶信用 等級與居住區域是否有關係。建立假說如 下: – H0:客戶信用等級與居住區域無關 – H1:客戶信用等級與居住區域有關

72


73


74


卡方檢定的關聯性檢測 1/2 • 依據質化資料的性質(名目或順序),而有不 同的相關係數。 – Phi 相關:適用於兩個變項均為二分法之名目 變項(例如性別)。 – Cramer’s V:是名目變數相關性最常用指標。 其值介於0與1之間(0≦V≦ 1);數值愈接近 1 表示相關愈強 – Contingency coefficient(列聯相關係數):建議 此數值應用在大於 5×5 以上的列聯表。 75


卡方檢定的關聯性檢測 2/2 – Eta相關:如果兩個變數中ㄧ個是名目尺度,另ㄧ個為 連續變數由不同數值區間所訂出的區間尺度(例如依年 齡分為四組),則選用Eta值。 – McNemar相關:用於重複試驗時,比較前後的差異性 是否明顯 。 – 斯皮爾曼等級相關(Spearman rank-order correlation): 應用於順序變項線性關係之描述,當兩個變數中有任一 變數或兩個變項都是次序變項的資料時。 – 肯德爾係數(Kendall’s Tau Coefficient):原理同斯皮爾 曼等級相關,但適用於樣本數較少時之狀況

76


Sig.=0.547>0.05 ,無法拒絕Ho

結論:客戶信用等級與居 住區域無顯著關係。

77


2.4相關分析 • 依變數個數區分 – 簡單相關:討論二個變數間的關係 – 複相關:三個以上變數間的關係 • 依線性性質區分 – 線性相關:變數間關係可用直線函數表示 – 非線性相關:曲線相關(指數、乘積) • 依相關程度區分 – 完全相關:變數間可用函數表達 (γ=±1) – 零相關:變數間不具任何關係 (γ=0) – 非完全相關:介於上述之間 78


兩變項間之關係 • 若兩變數均屬於連續的量化資料,則兩變 數間之相關性,適合以Pearson 積差相關 係數來衡量。 – 範例一 – 探討全校成績中,智力測驗與數學成績之相關 性。

79


• 建立假說 – H0:智力測驗成績與數學成績無關(ρ=0) – H1:智力測驗成績與數學成績有關(ρ≠0)

• 程式操作 – 分析(Analyze) →相關(Correlate )→ 雙變數 (Bivariate)出現對話框:(a)設定變數 (Variables)(b)勾選 Pearson(c)設定雙尾或單尾 檢定

• 分析結果 80


81


82


Pearson相關係數=0.901,Sig=0.000<0,因此拒絕H0。 結論:智力測驗與數學成績有顯著之正相關。 83


3.多變量分析 

84


3.1迴歸分析 • 迴歸分析依不同的重點分類,分為以下幾 類: – 依自變數個數區分 • 單變數迴歸(簡單迴歸):討論單一自變數對依變 數的影響。例如: y = β 0 + β1 x • 複迴歸:討論二個以上的自變數對依變數的影響。

 例如: y = β0 + β1 x1 + ... + β k xk – 依線性性質區分 • 線性迴歸:自變數與依變數間具直線特性。

 例如: y = β 0 + β1 x1 + ... + β k xk 85


86


87


88


分析解釋與應用 – 由推估之結果,存款與所得間之關係可呈現如 下, 存款(y) = 78.007 + 1.639 所得(x) 可以解釋為當所得每增加$1000,存款將增加 $1639。

89


90


如果殘差為常態分配,常態 圖中應為一45度之直線。

91


92


93


– 迴歸係數之t檢定 • 由推估結果的係數表得知,所得與年齡之sig=0.000, 顯示所得與年齡皆顯著影響存款。 • 共線性檢測 Coefficients a Unstandardized Coefficients Model B Std. Error 1 (Constant) 47.322 10.186 所得 1.635 .037 年齡 .829 .156 a. Dependent Variable: 存款

Standardized Coefficients Beta .945 .113

t 4.646 44.554 5.311

Sig. .000 .000 .000

Collinearity Statistics Tolerance VIF .999 .999

1.001 1.001

• 在上表的最後,可以看到用來檢驗是否有共線性的 VIF值。VIF若小於10,即屬可接受範圍。檢測結果 VIF=1.001,顯示「所得」與「年齡」無共線性。 94


3.2探索性因素分析 – 因素分析目的: • 將許多的變數減縮為少數幾個因素,以做為建立更 深入的研究模型之基礎。 • 建立一組相互獨立的因素以用於處理共線性 (multicollinearity)對某些研究方法所產生的問題(例 如:迴歸)。 • 找出可能的變數集群(clustering)。

95


因素分析的性質: • 因素彼此間為獨立的,也就是說彼此的相關係數應 該很小(接近於0)。 • 因素的決定並非是唯一的,也就是說不同方法可選 出不同的因素。這也是使用因素分析時的一個問題。 • 使用因素分析時資料不需標準化(也就是說資料不需 要有相同的量測尺度)。

96


範例 • 在〝quality.sav〞檔中,衡量問項為: – 高鐵車站的動線標示清楚 (X1)。 – 高鐵車廂乾淨清潔 (X2)。 – 高鐵服務人員服裝賞心悅目 (X3)。 – 高鐵服務人員的態度輕切 (X4)。 – 乘坐高鐵非常舒適 (X5)。 • 以李克特5點尺度為量度(5為非常滿意,1為非常不滿意)。

97


98


99


100


101


102


103


Descriptive Statistics 動線標示 車廂乾淨 人員服裝 人員態度 舒適

Mean 3.6057 3.6400 3.6457 3.6171 3.5886

Std. Deviation .76487 .82462 .67821 .90130 .84547

Analysis N 175 175 175 175 175

Correlation Matrix Correlation

動線標示 車廂乾淨 人員服裝 人員態度 舒適

動線標示 1.000 .439 .582 .305 .316

車廂乾淨 .439 1.000 .459 .285 .182

人員服裝 .582 .459 1.000 .181 .155

人員態度 .305 .285 .181 1.000 .569

舒適 .316 .182 .155 .569 1.000

104


KMO and Bartlett's Test Kaiser-Meyer-Olkin Measure of Sampling Adequacy. Bartlett's Test of SphericityApprox. Chi-Square df Sig.

.676 217.649 10 .000

• 其中KMO=0.676,Bartlett’s test Chi-sq=217.649 • (Sig.=0.000<0.05),代表資料適合作因素分析。 Communalities Initial Extraction 動線標示 1.000 .692 車廂乾淨 1.000 .580 人員服裝 1.000 .749 人員態度 1.000 .772 舒適 1.000 .791 Extraction Method: Principal Component Analysis.

變數解釋能力:舒適最好

105


在此陡坡圖(scree plot)中,我們可看出下降斜率 最快的是component number=2。 Total Variance Explained Initial Eigenvalues Extraction Sums of Squared Loadings Rotation Sums of Squared Loadings Component Total % of VarianceCumulative % Total % of VarianceCumulative % Total % of VarianceCumulative % 1 2.401 48.026 48.026 2.401 48.026 48.026 1.973 39.455 39.455 2 1.181 23.628 71.654 1.181 23.628 71.654 1.610 32.199 71.654 3 .612 12.247 83.901 4 .416 8.317 92.219 5 .389 7.781 100.000 Extraction Method: Principal Component Analysis. Scree Plot 3.0 2.5 2.0 1.5

E igenvalue

1.0 .5 0.0 1

2

Component Number

3

4

5

106


Rotated Component Matrix a

Component Matrix a

Component

Component 1

2 動線標示 .790 -.259 人員服裝 .707 -.500 車廂乾淨 .691 -.319 人員態度 .652 .588 舒適 .611 .646 Extraction Method: Principal Component Analysis. a. 2 components extracted.

1

2 人員服裝 .865 1.666E-02 動線標示 .790 .260 車廂乾淨 .746 .153 舒適 .110 .882 人員態度 .177 .861 Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. a. Rotation converged in 3 iterations.

Component Plot in Rotated Space 1.0

舒適 人員態度

Component Score Covariance Matrix

.5 動線標示 車廂乾淨 人員服裝

Component 2

0.0

Component 1 2

1 1.000 .000

2 .000 1.000

Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. Component Scores.

-.5

-1.0 -1.0

Component 1

-.5

0.0

.5

1.0

107


3.3量表之信度與效度 潛在變數的衡量,通常是以量表或問卷做為 測量工具,評估量表優良與否的準則為信 度與效度。 • 壹、信度 • 貳、效度

108


• 信度係指測驗結果(受試者的回答)的穩定性 及可靠性(可相信的程度)。信度的衡量有三 種類型:穩定性、等值性與內部一致性。 • 效度指問卷或量表能測量到理論上的構念 或特質之程度。

109


信度的衡量有三種類型: – 穩定性:用同一種測驗對同一群受試者,前後 施測兩次,然後依據兩次測驗分數計算相關係 數。 – 等值性:交替使用一套測驗的多種複本,再根 據一群受試者每個人在各種複本測驗之得分, 計算相關 係數。 – 內部一致性:指量表能否測量單一概念,同時反 映組成量表題項之內部一致性程度。 110


111


112


113


分析結果 • α係數=0.798,代表十五道題目測量結果之內部一致性具 高可信度。若是想要再提高信度,可由”Corrected ItemTotal correlation”及”Cronbach Alpha if item Deleted” 兩欄數字來判斷刪除那些題目可提高內部一致性,價格 的”Corrected Item-Total correlation”數字 -0.069 表示 「價格」與總分間的相關非常的低,如果將之刪除,則可 提高α係數至0.816。

114


115


116


117


118


119


120


4.複選題分析 • 一、家庭意見調查:爺是否同意,…,1.1-1.8。 • 二、上面有8個可複選選項!在SPSS中一般單選題是建一 個變數,但上面複選題要建立8個變數,編碼上若問卷上 有五個人都有勾選,則五個都給1(有勾的給1、沒勾的給 0)! • 三、在SPSS中選「分析-複選題分析-」定義集合,把8個 變數放到「集內的變數」,『二分法」的數值打1,「名 稱」自訂!按「新增」即完成設定。 • 四、按「分析-複選題分析-次數分配表」即可得到你要的!

121


122


123


124


125


126


127


128


129


130


簡報完畢 敬請指教

131


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.