國立臺東大學師範學院(2012, 11, 08) 蔡進士 dachili@hotmail.com
Validity(效度) In the area of scientific research design and experimentation, validity refers to whether a study is able to scientifically answer the questions it is intended to answer. Validity of an assessment is the degree to which it measures what it is supposed to measure. 合法性(效度) 在科研領域的設計和實驗,有效性是指一個研究是否能科學地回答了問題,它旨在回答。 評估的有效性的程度,來衡量它應該是衡量。 問卷可不可以測到想測量的東西即是 Validity,效度的判別是把測量結果用來解釋測量主題的程度, 綜合而言,效度是指概念定義(conceptual definition)及操作定義(operational definition)間契合的程 度。 例:拿體重計去測量身高,每次測量出來的結果都很一致,我們可以說體重計具有很高的 Reliability, 但是由於他沒法真的測出身高,所以 Validity 很低。
內容效度(content validity) 測量工具本身內容的適切程度,又稱邏輯效度(logical validity) 例:在設計「同性戀者對社會適應的程度」的問卷量表時,由於現有文獻不是很充足,我們必須去諮 詢專家的意見,使量表更周延、適切。
表面效度(face validity) 與內容效度相似,此類效度就是由評定者主觀來判斷指標是否真的測量到所欲測量到的構念,換言之, 指測量工具經由受試者或研究者主觀覺得與研究主題相關。 例:設計一份「消費者對機構服務的滿意度」問卷,消費者一看到問卷內容就知道大概是在做滿意度 調查。 效標效度或效標關聯效度(criterion validity 或 criterion-related validity) 又稱實證效度(empirical validity)或統計效度 (statistical validity),係以測驗分數和特定效標之間的相關 係數來表示效性之高低。又區分以下二種: 一、併行效度或同時效度(concurrent validity) :一個新指標必須與既存且已被視為有效的指標相關連。 例:以某校高一學生 145 人為樣本,同時施測「大學入學考試中心興趣量表」 (新 製)與「生活彩虹 探索量表」(既存),結果顯示兩量表在相同興趣類型上具有高度相關,相關係數介於.68 ~ .81 之 間。 二、預測效度(predictive validity) :指測量結果與將來效標資料之相關程度;若相關係數高,則測量 工具的預測效度越高。 例:以大一(之後)樣本中回答所讀的學系符合其志趣者 3,118 人(男 1,484 人,女 1,633 人) ,進行 比對樣本於高三時(先前)的施測所得,檢視其前後一致的命中率。重點:非同時取得的資料
建構效度(construct validity) 建構效度(或構念效度) ,指一個測量工具能測得一個抽象概念或特質的程度。用於多重指標的測量, 又區分以下二種: 一、聚合效度或聚歛效度(convergent validity):如果這個測量工具與某些概念的相關聯性很高,我 們即認為具有 convergent validity;反之,測量工具與另一些概念沒有相關性則稱為 discriminant validity。 例:一份關於量度「自尊」的問卷,由於自尊跟「自信」的概念很相似(正相關;即自尊越高,自信 越高),則可透過文獻找出測量兩者的量表,讓同一群受試者填寫,若自尊量表與自信量表測出 的結果有高度正相關,則此量表具有建構效度中的 convergent validity。 ﹝好人:好人﹞與﹝壞人:壞人﹞->好人->聚歛效度 二、區辨效度(discriminant validity):此種效度也稱之為分歧效度(divergent validity),與聚合效度 相反。 例:一份關於量度「自尊」的問卷,由於自尊跟「自卑」的概念剛好相反(負相關;即自尊越多,自 卑越少),則可透過文獻找出測量兩者的量表,讓同一群受試者填寫,若自尊量表與自悲量表測 出的結果有高度負相關,則此量表具有建構效度中的 discriminant validity。 例:與「政治容忍」相關的多重指標應會與「政治不容忍」相關的多重指標間有負向相關。 ﹝好人:壞人﹞與﹝壞人:好人﹞->壞人->區辨效度 建構效度(construct validity) 建構效度(或構念效度) ,指一個測量工具能測得一個抽象概念或特質的程度。用於多重指標的測量, 又區分以下二種: 一、聚合效度或聚歛效度(convergent validity):如果這個測量工具與某些概念的相關聯性很高,我 們即認為具有 convergent validity;反之,測量工具與另一些概念沒有相關性則稱為 discriminant validity。 例:一份關於量度「自尊」的問卷,由於自尊跟「自信」的概念很相似(正相關;即自尊越高,自信 越高),則可透過文獻找出測量兩者的量表,讓同一群受試者填寫,若自尊量表與自信量表測出的結 果有高度正相關,則此量表具有建構效度中的 convergent validity。 ﹝好人:好人﹞與﹝壞人:壞人﹞->好人->聚歛效度 二、區辨效度(discriminant validity):此種效度也稱之為分歧效度(divergent validity),與聚合效度 相反。 例:一份關於量度「自尊」的問卷,由於自尊跟「自卑」的概念剛好相反(負相關;即自尊越多,自 卑越少),則可透過文獻找出測量兩者的量表,讓同一群受試者填寫,若自尊量表與自悲量表測出的 結果有高度負相關,則此量表具有建構效度中的 discriminant validity。 例:與「政治容忍」相關的多重指標應會與「政治不容忍」相關的多重指標間有負向相關。 ﹝好人:壞人﹞與﹝壞人:好人﹞->壞人->區辨效度
※最常提及的建構效度評量技術,係由 Campbell 和 Fiske 於 1959 年所提出的多元特質多重方法矩 陣法(MTMM-multitrait-multimethod matrix),據以考驗聚斂效度(convergent validity)及區辨效度 (discriminant validity)。 ※MTMM 設計的原理是以多種不同方法(如自評法、同儕評量法)測量多種不同的特質,依照這 些標準,研究者得以檢視測驗是否具有聚斂性及區辨性效度。 ※判斷原理: 1.相同方法測量相同特質所得的分數之間應具有最大的相關。 例:教室問卷->測 IQ 2.不同方法測量相同特質所得的分數之間應具有次大的相關。 例:教室問卷、電話問卷->測 IQ 3.相同方法測量不同特質所得的分數之間的相關應較低。 例:教室問卷->測 IQ、測 EQ 4.不同方法測量不同特質所得的分數之間的相關應為最低或無意義。 例:﹝教室問卷->測 IQ﹞與﹝電話問卷->測 EQ﹞ 增益效度(incremental validity) 增益效度(Sechrest, 1963)是指某特定測驗對於準確預測某一效標,在考量其他測量分數對於效標 的影響後的貢獻程度。對於某一個測驗分數 A,效標為 Y 變項,增益效度是指 A 對於 Y 的解釋是 否優於另一個 B 變項對於 Y 變項的解釋。如果 A 變項優於 B 變項,那麼 A 變項對於 Y 變項的解釋, 在 B 變項被考慮的情況下,應仍具有解釋力。 ※例:如果某項能力測驗(A)果真在反應個體的認知能力,那麼該能力測驗應可以用來解釋學生 的學習成果(Y),而且在將努力因素(B)排除之後,能力測驗仍然能夠非常有效的解釋學習成果 的話,即可說明能力測驗具有相當程度的增益效度。 認知能力努力因素學習成果
因素效度(factorial validity) ※因素效度(factorial validity)就是一個測驗或理論其背後的因素結構的有效性。由於傳統的因素 分析主要用於「尋找」因素結構、決定因素的多寡,或作為篩撿試題的工具,並不作為檢驗理論模 式的依據。 ※近年來伴隨驗證性因素分析(confirmatory factor analysis)的發展,因素效度得以用來檢證測驗的 理論意義。 ※例:一個研究人員提出動機的內涵應包括二種成份或因素(例:pull + push) ,可利用其所編製的 量表所測得之分數即應獲得兩個因素,同時,每一個題目應有其指定的因素。如果因素分析的結果 支援此一因素模式,則其因素構念的假設即可獲得支持。
區分效度(differential validity) ※區分效度所反應的是測驗分數 X 與 A、B 兩個不同效標具有不同的相關係數。 ※區分效度的概念特別適用於當一個測驗具有分類的目的與功能時。 例:學生的職業性向分類,不同領域的性向得分必須能夠在不同的職業表現效標上有所差異。智力 測驗(相較於職業性向測驗)對於不同職業的適應與表現就不會有理想的區分效度。 信度(Reliability) ※信度(reliability)與效度(validity)是所有測量的重要議題。兩者都是關心我們所設計的具體指 標與這些指標所欲測之構念(construct)間的關係。構念是指將一些觀念、事實或現象有系統的組 織起來後,所形成的概念。 ※信度本身與測量所得結果正確與否無關,它的功用在於檢驗測量本身是否穩定。 ※信度可以衡量出工具(問卷)的一致性(隨機誤差小)與穩定性。 一致性高的問卷是指同一群人接受性質相同、題型相同、目的相同的各種問卷測量後,在各衡量結 果間,顯示出強烈的正相關(例:3x+1=0,x-2=0) 。穩定性高的測量工具則是指一群人在不同時空 下接受同樣的衡量工具時,結果的差異很小。 各種信度 1. 再測信度(test-retest reliability):使用同一份問卷,對同一群受測者,在不同的時間,前後測試兩 次,求出兩次分數的相關係數,此係數又稱為穩定係數(Coefficient of Stability)。 補充: 前後兩次測驗時間間隔要適當,若間隔太短,受測者記憶猶新通常分數會提高(題數增多則可降低這 種影響);但若間隔太長,穩定係數也可能會降低(例:受測者心智成長的影響)。 2. 複本相關法(Equivalent-Forms Method):複本是內容相似,難易度相當的兩份測驗,對同一群受測 者,第一次用甲份測試,第二次使用乙份,兩份分數的相關係數為複本係數(Coefficient of Forms) 或等值係數(Coefficient of Equivalence)。 3. 折半信度(Split Half Reliability):與複本相關法很類似,折半法是在同一時間施測,將同一量表中 測驗題目(項目內容相似),折成兩半(單數題、偶數題),求這兩個各半的測驗總分之相關係數(折 半信度係數,split-half coefficient)。 4. Cronbach α係數:1951 年 Cronbach 提出α係數,為目前社會科學研究最常使用的信度。量測一 組同義或平行測驗總和的信度,如果尺度中的所有項目都在反映相同的特質,則各項目之間應具 有真實的相關存在。若某一項目和尺度中其他項目之間並無相關存在,就表示該項目不屬於該尺 度,而應將之剔除。
國立臺東大學師範學院(2012, 11, 08) 蔡進士 dachili@hotmail.com
Validity In the area of scientific research design and experimentation, validity refers to whether a study is able to scientifically answer the questions it is intended to answer. Validity of an assessment is the degree to which it measures what it is supposed to measure. http://n91074.pixnet.net/blog/post/23444668-%E7%AC%AC%E5%9B%9B%E7%A B%A0-part-2~validity-%E6%95%88%E5%BA%A6 問卷可不可以測到想測量的東西即是 Validity,效度的判別是把測量結果用來解 釋測量主題的程度,綜合而言,效度是指概念定義(conceptual definition)及操 作定義(operational definition)間契合的程度。 例:拿體重計去測量身高,每次測量出來的結果都很一致,我們可以說體重計具 有很高的 Reliability,但是由於他沒法真的測出身高,所以 Validity 很低。
內容效度(content validity) 測量工具本身內容的適切程度,又稱邏輯效度(logical validity) 例:在設計「同性戀者對社會適應的程度」的問卷量表時,由於現有文獻不是很 充足,我們必須去諮詢專家的意見,使量表更周延、適切。
表面效度(face validity) 與內容效度相似,此類效度就是由評定者主觀來判斷指標是否真的測量到所欲測 量到的構念,換言之,指測量工具經由受試者或研究者主觀覺得與研究主題相 關。 例:設計一份「消費者對機構服務的滿意度」問卷,消費者一看到問卷內容就知 道大概是在做滿意度調查。 效標效度或效標關聯效度(criterion validity 或 criterion-related validity) 又稱實證效度(empirical validity)或統計效度 (statistical validity),係以測驗分數和 特定效標之間的相關係數來表示效性之高低。又區分以下二種: 一、併行效度或同時效度(concurrent validity) :一個新指標必須與既存且已被視
為有效的指標相關連。 例:以某校高一學生 145 人為樣本,同時施測「大學入學考試中心興趣量表」 (新 製)與「生活彩虹探索量表」(既存),結果顯示兩量表在相同興趣類型上具 有高度相關,相關係數介於.68 ~ .81 之間。 二、預測效度(predictive validity) :指測量結果與將來效標資料之相關程度;若 相關係數高,則測量工具的預測效度越高。 例:以大一(之後)樣本中回答所讀的學系符合其志趣者 3,118 人(男 1,484 人, 女 1,633 人),進行比對樣本於高三時(先前)的施測所得,檢視其前後一 致的命中率。重點:非同時取得的資料
建構效度(construct validity) 建構效度(或構念效度),指一個測量工具能測得一個抽象概念或特質的程度。 用於多重指標的測量,又區分以下二種: 一、聚合效度或聚歛效度(convergent validity):如果這個測量工具與某些概念 的相關聯性很高,我們即認為具有 convergent validity;反之,測量工具與另 一些概念沒有相關性則稱為 discriminant validity。 例:一份關於量度「自尊」的問卷,由於自尊跟「自信」的概念很相似(正相關; 即自尊越高,自信越高),則可透過文獻找出測量兩者的量表,讓同一群受 試者填寫,若自尊量表與自信量表測出的結果有高度正相關,則此量表具有 建構效度中的 convergent validity。 ﹝好人:好人﹞與﹝壞人:壞人﹞->好人->聚歛效度 二、區辨效度(discriminant validity):此種效度也稱之為分歧效度(divergent validity),與聚合效度相反。 例:一份關於量度「自尊」的問卷,由於自尊跟「自卑」的概念剛好相反(負相 關;即自尊越多,自卑越少),則可透過文獻找出測量兩者的量表,讓同一 群受試者填寫,若自尊量表與自悲量表測出的結果有高度負相關,則此量表 具有建構效度中的 discriminant validity。 例:與「政治容忍」相關的多重指標應會與「政治不容忍」相關的多重指標間有 負向相關。 ﹝好人:壞人﹞與﹝壞人:好人﹞->壞人->區辨效度
國立臺東大學師範學院(2012, 11, 15) 蔡進士 dachili@hotmail.com
建構效度(construct validity) 建構效度(或構念效度),指一個測量工具能測得一個抽象概念或特質的程度。 用於多重指標的測量,又區分以下二種: 一、聚合效度或聚歛效度(convergent validity):如果這個測量工具與某些概念 的相關聯性很高,我們即認為具有 convergent validity;反之,測量工具與另 一些概念沒有相關性則稱為 discriminant validity。 例:一份關於量度「自尊」的問卷,由於自尊跟「自信」的概念很相似(正相關; 即自尊越高,自信越高),則可透過文獻找出測量兩者的量表,讓同一群受 試者填寫,若自尊量表與自信量表測出的結果有高度正相關,則此量表具有 建構效度中的 convergent validity。 ﹝好人:好人﹞與﹝壞人:壞人﹞->好人->聚歛效度 二、區辨效度(discriminant validity):此種效度也稱之為分歧效度(divergent validity),與聚合效度相反。 例:一份關於量度「自尊」的問卷,由於自尊跟「自卑」的概念剛好相反(負相 關;即自尊越多,自卑越少),則可透過文獻找出測量兩者的量表,讓同一 群受試者填寫,若自尊量表與自悲量表測出的結果有高度負相關,則此量表 具有建構效度中的 discriminant validity。 例:與「政治容忍」相關的多重指標應會與「政治不容忍」相關的多重指標間有 負向相關。 ﹝好人:壞人﹞與﹝壞人:好人﹞->壞人->區辨效度
※最常提及的建構效度評量技術,係由 Campbell 和 Fiske 於 1959 年所提出的多 元特質多重方法矩陣法(MTMM-multitrait-multimethod matrix),據以考驗聚 斂效度(convergent validity)及區辨效度(discriminant validity)。 ※MTMM 設計的原理是以多種不同方法(如自評法、同儕評量法)測量多種不 同的特質,依照這些標準,研究者得以檢視測驗是否具有聚斂性及區辨性效 度。 ※判斷原理: 1.相同方法測量相同特質所得的分數之間應具有最大的相關。 例:教室問卷->測 IQ
2.不同方法測量相同特質所得的分數之間應具有次大的相關。 例:教室問卷、電話問卷->測 IQ 3.相同方法測量不同特質所得的分數之間的相關應較低。 例:教室問卷->測 IQ、測 EQ 4.不同方法測量不同特質所得的分數之間的相關應為最低或無意義。 例:﹝教室問卷->測 IQ﹞與﹝電話問卷->測 EQ﹞
增益效度(incremental validity) 增益效度(Sechrest, 1963)是指某特定測驗對於準確預測某一效標,在考量其他 測量分數對於效標的影響後的貢獻程度。對於某一個測驗分數 A,效標為 Y 變 項,增益效度是指 A 對於 Y 的解釋是否優於另一個 B 變項對於 Y 變項的解釋。 如果 A 變項優於 B 變項,那麼 A 變項對於 Y 變項的解釋,在 B 變項被考慮的情 況下,應仍具有解釋力。 ※例:如果某項能力測驗(A)果真在反應個體的認知能力,那麼該能力測驗應 可以用來解釋學生的學習成果(Y) ,而且在將努力因素(B)排除之後,能 力測驗仍然能夠非常有效的解釋學習成果的話,即可說明能力測驗具有相當 程度的增益效度。 認知能力努力因素學習成果
因素效度(factorial validity) ※因素效度(factorial validity)就是一個測驗或理論其背後的因素結構的有效性。 由於傳統的因素分析主要用於「尋找」因素結構、決定因素的多寡,或作為篩 撿試題的工具,並不作為檢驗理論模式的依據。 ※近年來伴隨驗證性因素分析(confirmatory factor analysis)的發展,因素效度 得以用來檢證測驗的理論意義。 ※例:一個研究人員提出動機的內涵應包括二種成份或因素(例:pull + push), 可利用其所編製的量表所測得之分數即應獲得兩個因素,同時,每一個題目應 有其指定的因素。如果因素分析的結果支援此一因素模式,則其因素構念的假 設即可獲得支持。
區分效度(differential validity) ※區分效度所反應的是測驗分數 X 與 A、B 兩個不同效標具有不同的相關係數。 ※區分效度的概念特別適用於當一個測驗具有分類的目的與功能時。 例:學生的職業性向分類,不同領域的性向得分必須能夠在不同的職業表現效標
上有所差異。智力測驗(相較於職業性向測驗)對於不同職業的適應與表現 就不會有理想的區分效度。
信度(Reliability) ※信度(reliability)與效度(validity)是所有測量的重要議題。兩者都是關心我 們所設計的具體指標與這些指標所欲測之構念(construct)間的關係。構念是指 將一些觀念、事實或現象有系統的組織起來後,所形成的概念。 ※信度本身與測量所得結果正確與否無關,它的功用在於檢驗測量本身是否穩 定。 ※信度可以衡量出工具(問卷)的一致性(隨機誤差小)與穩定性。 一致性高的問卷是指同一群人接受性質相同、題型相同、目的相同的各種問卷測 量後,在各衡量結果間,顯示出強烈的正相關(例:3x+1=0,x-2=0) 。穩定性高 的測量工具則是指一群人在不同時空下接受同樣的衡量工具時,結果的差異很 小。
各種信度 1. 再測信度(test-retest reliability):使用同一份問卷,對同一群受測者,在不同 的時間,前後測試兩次,求出兩次分數的相關係數,此係數又稱為穩定係數 (Coefficient of Stability)。 補充: 前後兩次測驗時間間隔要適當,若間隔太短,受測者記憶猶新通常分數會提高(題 數增多則可降低這種影響);但若間隔太長,穩定係數也可能會降低(例:受測 者心智成長的影響)。 2. 複本相關法(Equivalent-Forms Method):複本是內容相似,難易度相當的兩份測 驗,對同一群受測者,第一次用甲份測試,第二次使用乙份,兩份分數的相 關係數為複本係數(Coefficient of Forms)或等值係數(Coefficient of Equivalence)。 3. 折半信度(Split Half Reliability):與複本相關法很類似,折半法是在同一時間施 測,將同一量表中測驗題目(項目內容相似),折成兩半(單數題、偶數題),求 這兩個各半的測驗總分之相關係數(折半信度係數,split-half coefficient)。
4. Cronbach α係數:1951 年 Cronbach 提出α係數,為目前社會科學研究最常使 用的信度。量測一組同義或平行測驗總和的信度,如果尺度中的所有項目都 在反映相同的特質,則各項目之間應具有真實的相關存在。若某一項目和尺 度中其他項目之間並無相關存在,就表示該項目不屬於該尺度,而應將之剔 除。
國立臺東大學師範學院(2012, 12, 6) 蔡進士 dachili@hotmail.com
敘述性統計(描述統計)包括集中量數、離散量數二大類,它可以瞭解資料整體 的分布狀況。 ※集中量數(Measures of Central Tendency):代表分布之典型或平均狀況。 ※離散量數(變異量數):分布之變異狀況。 最常見的集中量數有三種,即眾數(Mode)、中位數(Median)、和算術平均數 (Mean)。
眾數(Mode) 1.資料中出現最多的數值。 2.眾數適用於各種測量尺度。 3.當變項為名目尺度時,這是唯一可用的集中量數。 4.在名目尺度變項,或次數分配表中,眾數是指含件數或次數最多的類別。 ※眾數雖是最簡單之集中量數,但有缺點。 1.有些分布不一定有眾數,換言之,分布很平均時或眾數很多時,眾數即失去意 義和功能。 2.最常出現之數值,不一定代表最接近整體分布之中心的數值,亦即可能不是最 具代表性之數值,例:78、77、76、75、74、73、72、71、70、55、55、55。
中位數(Median)或中數 中位數是一種和位置有關之數值,當我們將資料中所有個案(cases)之分數依大小 順序排列,站在中間位置之個案的分數,即為中位數。 25 27 43 64 190(中位數為 43) 25 27 43 64 75 190(中位數為(43+64)/2 = 53.5) ->全部資料中有 50%的樣本是高於此分數,也有 50%的樣本低於此分數或數 值。
1
四分位數(Quartiles) 是將樣本數目 N 分成四等份,因此第 1 個四分位之分數是指有 25%的樣本數目 的分數低於此分數。所以,第 2 個四分位數也就是中位數。
算術平均數(Mean) (或 X ) 所有分數之總和除以 N。算數平均數是這個分布的平均數值,這是最常用的集中 量數。 X = Σ(Xi)/N
算術平均數有以下特性: 1.Σ(Xi- X )=0,即資料中每一分數與平均數之差的總和是 0。 2.Σ(Xi- X )2=minimum,亦即每一分數與平均數之差的平方總和是最小的,也 就是說所有分數與平均數之距離總和最小。這也說明了算數平均數相對於其他 集中量數來說,是最接近資料中所有分數的數值。 3.平均數受到資料中每一分數的影響,這是和 Mode 或 Median 的計算不同。也 因此,Mean 很容易受資料中極大或極小數值之影響。
※當資料中有幾個極端數值時,分數分布就會有偏態(Skew),只有當分布是無偏 態或對稱之情形下,Mean 和 Median 會是同一數值。當一分布有一些極高的數 值時,Mean 的值會較 Median 為大,這時是為正偏態(a positive skew)。如下圖:
2
※反之,若分布中有一些極低的數值時,Mean 的值會較 Median 為小,這時是為 負偏態(a negative skew)。如下圖:
※只有當分布沒有偏態時,mean、median 的數值才會完全一樣。
離散量數(變異量數)或差量 (Measures of Dispersion) 1.描述資料整體之異質性或是變化、變異的程度 2.通常是差量愈大時,資料所呈現的異質性或變異程度愈大。 3.兩個樣本的分布可能有同樣的集中量數,但卻有不同的差量。 例:73、73、73、73、73 ; 71、72、73、74、75 3
※常用的變異量數包括:全距(Range,R) 、四分位差(Interquartile Range) 、標 準差(Standard Deviation)、以及變異量(Variance)。
全距 Range (R) 1.Range (R) 即資料中之最大數減去最小數。 2.全距就是表示資料分布中最大數與最小數間的距離。 3.最大數或最小數常有可能是極端之數值,因此常以四分位差(QR)來表示差量。
四分(位)差 Interquartile Range (QR) 四分位差即將資料依數值大小排列後,找出第 1 個四分位數及第 3 個四分位數之 數值後(第 1 個四分位數之數值,表示資料中有 25%之 cases 之數值低於此數值, 而第 3 個四分位數,是有 75%之 cases 低於此數值),計算出這 2 個四分位之差 距。
25%
25% Q1
25% Q2
25% Q3
QR =(Q3-Q1)/2
標準差及變異量(The Standard Deviation 及 The Variance) ※Range 或 Interquartile Range 的大缺點:只用到資料中兩個數值來表示變異程 度,而無法說明平均變化程度為何。 ※平均差 (average deviation) 或 AD:取各數值與平均數差距的絕對值,然後求其 總和後,再將總和除以資料的件數。也就是計算 Σ∣Xi- X ∣,然後除以 N
(次數),即
| X i X |
N
。統計上很少利用此種差量。
變異量(variance) 先算出各差距(各數與平均數之差)的平方,再將所有的平方加總,之後除以資 4
料的件數,以此方法得到的差量叫變異量(variance)。 例 1:6、6、7、7、7、9 平均:7 ->1+1+0+0+0+4=6 6/6=1(variance) 例 2:4、6、7、7、7、11 平均:7 ->9+1+0+0+0+16=26 26/6=4.3(variance) 計算母群體的變異量時,其公式是: σ2=
2 ( X i )
N
計算樣本的變異量時,則公式為: s2=
2 (Xi X )
N 1
標準差(standard deviation) 標準差(standard deviation)的計算方法就是取變異量的平方根。 母群體之標準差的公式是: σ=
2 ( X i )
N
,μ是母群體的平均數。
樣本的標準差: s=
2 ( Xi X )
N 1
※樣本之 Standard deviation 以小寫 s 代表。 ※母群體之標準差以 σ 代表(休閒研究中較少用到)。 ※若以樣本來計算變異數或標準差,會出現低估母體變異數或標準差的情形。 ※在離均差的計算上,自由度為樣本數減 1,表示在 N 個觀察值中,只有 N-1 個 數字可以自由運用於離均差的計算(因為在均值確定後,如果知道了其中 n-1 個數的值,第 n 個數的值也就確定了)。 ※統計學上的自由度(degree of freedom, df) ,是指當以樣本的統計量來估計總體 的參數時,樣本中獨立或能自由變化的數據的個數稱為該統計量的自由度。 ※自由度的概念在小樣本時影響非常明顯(母群體夠大,不明顯)。
5
國立臺東大學師範學院(2012, 12, 13) 蔡進士 dachili@hotmail.com
思考 樣本數不同(或不同組別有不同的 size)可否進行檢測?
卡方檢定(Chi-square) 1.卡方檢定適用於探討二個類別變數的相關,例:性別與休閒阻礙的關係;性別 與睡眠障礙的關係;性別與素食行為;「是否有大學學歷」與休閒行為。 2.卡方檢定的變數不是連續變數,也不是 ordinal variable,而是名目變數(nominal variables,又稱為 categorical variable),也就是「是與否」 、 「男與女」這種變數。 3. 卡方檢定測的是「比例」,換言之,測真實的「比例」(樣本觀察到的次數) 與假設上的「期望值」 (理論或母群體的次數)之間是否存有差異。相對而言, T-test 與 Anova 測的是「平均」的差異。 4.當樣本數不大時,不適用。
T-test 1.T 檢定主要是檢驗兩組之間是否存有差異(檢定 2 個獨立樣本的平均數差異是 否達到顯著的水準。獨立樣本是受測者隨機分派至不同組別,各組別的受測者 没有任何關係,也稱為完全隨機化設計。)。 2.組別是類別變數(categorical variable),例:性別、種族、國籍。 3.如果是連續變數,可以設一個標準,例:多少以上是好的,以下是差的,以此 來產生類別變數。 4.換言之,T 檢定時需要 2 個變數,例:將自變數 x 分為 2 個組別,檢定這 2 個 獨立樣本的平均數是否有差異(達顯著水準),這可以從 2 個母體(男的、女的; 好的、壞的)隨機抽樣後,檢測其平均數差異的情形。 4.如果超過兩組,必須用 Anova 來分析。 ※One-Samples T test(單一樣本 T 檢定,對照於 2 個獨立樣本 T 檢定),是檢測 單個變數的平均數與假設(自設)檢定值(樣本平均數和總體平均數的比較)。 例:檢測某地區勞工體檢資料,使用單一樣本 T 檢定來檢定該地區的工作人口的 總膽固醇是否與標準值 200 有顯著性差異。 ※另外,常犯的錯誤就是把前、後測是否有顯著差異用 two-sample t-test 來檢定, 不能「假裝」把前測當一組,後測當一組,拿來做 two-sample T 檢定,而是應 1
該用 paired-sample t-test 來檢測前後是否存有差異。 ※成對樣本 T 檢定 (Paired-Sample T test),成對樣本 T 檢定是使用於相依樣本, 是最常用在相依樣本下的重複量測設計(repeated measure design),也就是同一個樣 本, 前後量測二次,例如:消費者對於使用筆記型電腦前和使用筆記型電腦後, 態度是否存有差異。
ANOVA ※One-way Anova(單因子變異數分析)是只有一個類別變數當作 independent variable,檢驗此類別變數與其它連續變數(continuous variable)和結果的關係。 例如:運動量(X)與睡眠品質(Y)之關係研究,運動量(X)可以分成低、 中、高,睡眠品質(Y)是連續變數。 Factorial Analysis of Variance(多因子變異分析),以 Two-way Anova 為例: ※Two-way Anova(雙因子變異數分析)分析中有二個的類別變數作為 independent variables(換言之,有 2 個 X)。 如:運動量(X1) 、運動時段(X2)與睡眠品質(Y)之關係研究,運動量(X1) 可以分成低、中、高;運動時段(X2)可以分成白天、夜晚,睡眠品質(Y) 是連續變數。 多因子變異分析較複雜,因含有主要效果與交互效果。 主要效果(main effects):XY(例:X1Y,X2Y)。 交互效果(interaction effects):多個 X 共同(例:X1* X2Y)對 Y 的影響,X1 與 X2 之間彼此有調節作用(moderation effects)。 Three-way Anova(三因子變異分析) ,或三因子以上,過於複雜,所以甚少出現。
2
國立臺東大學師範學院(2012, 12, 20) 蔡進士 dachili@hotmail.com
作業內容 Chapter III Methodology Research Setting(研究設計) Variables Sampling Plan and Data Gathering Quantitative Measuring Instruments Instrument Translation Validity Issues of Instrument Plan for Data Analysis Human Subjects Research Review
迴歸分析(Regression Analysis) 1.迴歸分析(Regression Analysis)是一種統計學上分析數據的方法,主要是探討 數據之間是否存有一種特定關係。 2.迴歸使用的變數都是計量的,也就是說,依變數與自變數二者皆為計量的。 3.迴歸分析(Regression Analysis)可以分為簡單迴歸(Simple Regression)和複迴歸(多 元迴歸,Multiple Regression)。 4.簡單迴歸是用來探討 1 個依變數(Y)和 1 個自變數(X)的關係。 5.複迴歸(多元迴歸)是用來探討 1 個依變數(Y)和多個自變數(X)的關係。 ※Y(依變數,response variables, dependent variables) ※X(自變數或獨立變數,predictors, independent variables) 簡單迴歸表示式: Y= β
0 +β 1X1 +
ε
β
0
為常數,β 1為迴歸係數,ε 為誤差
複迴歸表示式: Y= β β
0
0+
β 1X1+β
為常數,β
1
2 X 2 +….+
βnXn + ε
….. βn 為迴歸係數,ε 為誤差
迴歸分析的二大應用(解釋和預測) 解釋:計算出迴歸的方程式->得知每個自變數(X)對依變數(Y)的影響力(貢 獻),當然也可以找出最大的影響變數。 預測:迴歸方程式是線性關係->可以估算自變數(X)的變動,會帶給依變數 (Y)多大改變。 迴歸分析的基本假設有下列四項 線性關係:Y 與 X 之間的關係必須是線性(若 Y 與 X 呈現非線性關係,可以透 過轉換(transform)成線性關係,再進行迴歸分析)。 常態性(normality):資料與誤差項皆呈現常態分配 (normal distribution)。 誤差項的獨立性:自變數的誤差項,相互之間應該是獨立的,也就是誤差項與誤 差項相互間没有關係。 誤差項的變異數相等(Homoscedasticity):自變數的誤差項之變異量數需要相等 (在 spss 軟體中,可以使用 Levene test,來測試變異數的一致性,當變異數 的不相等發生時,可以透過轉換(transform)成變異數的相等後,再進行迴歸分 析)。 最佳的迴歸模式 目標:以較少的自變數就足以解釋整個迴歸模式最大量。 ※然而,應該選取多少個自變數,又應如何選取呢? 方式如下: 1.確認性的指定(以理論或文獻上的理由為基礎,指定哪些變數納入迴歸方程式 中)。 2.順序搜尋法:向前增加(Forward Addition)、往後刪除除(Backward Elimination)、 逐次估計(Stepwise Estimation)。 向前增加:自變數的選取是以達到統計顯著水準的變數,依解釋力的大小,依次 選取進入迴歸方程式中,以逐步增加的方式,完成選取的動作。 往後刪除:先將所有變數納入迴歸方程式中求出一個迴歸模式,接著,逐步將最 小解釋力的變數刪除,直到所有未達顯著的自變數都刪除為止。 逐次估計:逐次估計是結合向前增加法和往後刪除法的方式,首先,逐步估計會 選取自變數中與應變數相關最大者,接著,在剩下的自變數中選取,相關係數 與應變數較高者 (解釋力較大者),每新增一個自變數,就利用往後刪除法檢
驗迴歸方程式中,是否有需要刪除的變數,再透過向前增加,選取自變數,再 往後刪除進行檢驗,直到所有選取的變數都達顯著水準為止,如此就會得到迴 歸的最佳模式。 ※迴歸模式的顯著性檢定,一般都使用F test (檢定),F 檢定將所有自變數計 算進來,看依變數Y 和所有自變數Xn 是否有統計的顯著性。 ※決定係數(coefficient of determination) R2 是用來解釋線性迴歸模式的適配度 (goodness of fit),R2 =0時,代表依變數(Y)與自變數(X n )没有線性關係,R2 ≠0 時,代表依變數(Y)被自變數(X n )所解釋的比率。 補充: 1. 0≦ R2 ≦1 2. R2 越大,表示迴歸模型解釋能力越強,模型適配度越大
※在迴歸模式中,R2 會用來說明整個模式的解釋力(自變數對依變數有多少的 解釋力,亦即可解釋的變異量佔總變異量的比值),但是 R2 會受到樣本大小的 影響而呈現高估現象,樣本愈小,愈容易出現此問題(高估),因此,大多數的研 究者都採用調整後的 R2 (adjusted R2 )。 表示 De Veaux, Velleman, and Bock (2005) emphasized that “data from observational studies and surveys often show relative weak associations because it’s so difficult to measure reliable responses. An R2 of 0.50 to 0.30 or even lower might be taken as evidence of a useful regression” (p. 151). 解釋迴歸的變異量 ※在迴歸模式具有統計顯著性後,那些自變數(X n )對依變數(Y)有較大的影響 力,若是衡量的尺度不一致(例如:體重的公斤、公克:身高的公尺、公分), 都會產生解釋迴歸變異量的問題。 ※因此,必須使用標準化的係數,也就是對原始的自變數(Xn)予以標準化,標準 化後的變數,不會受到不同尺度衡量的影響,由標準化的自變數所計算而得到 的迴歸係數,稱為β係數 (beta 係數),擁有β係數愈高的自變數(X n ),對 依變數(Y)的影響力愈大。 1.β絕對值越大,預測力越大(簡單迴歸中,只有一個 X,所以β=相關係數)。 2.正負號表示方程式中預測變項(Xn 自變項)與效標變項(Y 依變項)之關係方向。 共線性問題(Collinear) 當自變數們(X n )有共線性的問題時,代表自變數(X n )之間有共同(重疊)解
釋的部份,因此,導致個別的自變數(X),無法確認對依變數(Y)有多大的影響。 ※如何辨識共線性的問題? 1. 查看自變數(X n )之間相關係數,若超過0.8 ,可能有共線性問題。 2. 查看容忍值(tolerance),容忍值 = (1-自變數被其它變數所解釋的變異量), 容忍值( 0~1 之間)愈大,代表共線性問題愈小;容忍值的倒數 = 變異數膨脹 因素 (VIF, variance inflation faction),VIF 的值愈小愈好,代表愈没有共線性 問題。 ※當發生共線性問題時 1.忽略高相關變數。 2.只作預測,不作解釋迴歸係數(不確認自變數們(X n )對依變數(Y)的影響力)。 3.用來瞭解關係。 4.使用其它迴歸分析,來處理共線性的問題。
Table 4.25: Summary of Regression at Individual-Level and Group-Level _____________________________________________________________________ Individual-Level Predicted Value (Y)
Predictor (X)
R2
(β, t, p-value)
F-value
F(3, 599)=163.17
(β=.32, t=6.50, p-value<.001)
1. effectiveness
vision
會議效能
safety
(β=.30, t=5.66, p-value<.001)
創新視野、參與安全
task
(β=.12, t=2.73, p-value=.007)
.45
工作導向 2. approachability
3. mutual influence
vision
F(3, 599)=73.50
(β=.24, t=4.14, p-value<.001)
safety
(β=.20, t=3.35, p-value=.001)
task
(β=.14, t=2.72, p-value=.007)
safety
F(2, 600)=92.37
(β=.28, t=4.96, p-value<.001)
.27
.24
(β=.24, t=4.23, p-value<.001)
vision
4. participation
vision
F(1, 601)=147.46
(β=.44, t=12.14, p-value<.001)
.20
5. trust vs. competitive
safety
F(2, 600)=41.22
(β=.43, t=7.73, p-value<.001)
.12
(β=-.13, t=-2.31, p-value=.021)
support
Group-Level Predicted Value (Y)
1. effectiveness
Predictor (X)
vision
F(2, 45)=59.19
R2
(β, t, p-value)
F-value
(β=.50, t=2.96, p-value=.005)
.73
(β=.38, t=2.22, p-value=.032)
safety 2. approachability
safety
F(1, 46)=92.37
(β=.70, t=6.57, p-value<.001)
.48
3. mutual influence
safety
F(1, 46)=19.83
(β=.55, t=4.45, p-value<.001)
.30
4. participation
vision
F(1, 46)=24.99
(β=.59, t=5.00, p-value<.001)
.35
5. trust vs. competitive
safety
F(1, 46)=28.67
(β=.62, t=5.35, p-value<.001)
.38
_____________________________________________________________________ Note. All F-tests were significant at the less than 0.001 level.顯著水準 0.001(99.9%的信心水準) F-value (df of “Between Groups,” df of “Within Groups”): a ratio of explained variance to unexplained variance β: the standardized regression coefficients, the values vary between +-1 t (t-ratio or t-statistics): B (coefficient) divided by the standard error of B P-value: the Type I error rate. R2: the coefficient of determination.
p-value 是什麼? a 組孕婦:有妊娠糖尿病之產婦(17 位)是 31.6 週 b 組孕婦:沒有妊娠糖尿病之產婦(76 位) 是 35.2 週 推論:有妊娠糖尿病之產婦其生產的週數比較小嗎? ※如果這 17 位「有妊娠糖尿病」產婦之生產的週數都比這 76 位「沒有妊娠糖尿 病」產婦之生產的週數來得大,下這個統計結論應該是沒有疑問的。 ※但是通常不會有這樣完美的資料,因沒有妊娠糖尿病之產婦其生產週數有一部 份也會小於 31.6 週,這要如何是好? ->用 T-test,發現 one-tailed p-value<0.01 at 0.05 significance level(在 95%的信 心水準) ->甚麼是 p-value<0.01? H0 ( null hypothesis):無差異。 HA (alternative hypothesis):有妊娠糖尿病之產婦其生產的週數比較小。
->p-value:the Type I error rate(H0 為真,卻拒絕它)
根據研究結果的判斷 拒絕 Ho
真實 情況
Ho 是真實 的 Ho 是錯誤 的
接受 Ho
錯誤判斷 正確判斷 (型一錯誤) 錯誤判斷 正確判斷 (型二錯誤)
民調
公告:民調支持度 57% 95%的信心水準 抽樣誤差為正負 3.1%(2σ ≈ 0.031) 信賴區間為(0.539, 0.601)->54%--60% 0.57-0.031-0.57+0.031=0.539-0.601
國立臺東大學師範學院(2012, 12, 27) 蔡進士 dachili@hotmail.com
皮爾遜積差相關分析(Pearson product-moment correlation coefficient) 利用共變異數(covariance)的概念,分析二個變數間的相關程度,並以積差相關係 數作為這二個連續變數間的直線線性相關的指標。 ※「共變異數」是兩個變數的總體誤差(離散),這與僅是一個變數的變異數之 誤差(離散)不同。 (註:總體離散的概念不是將各自的離散「相加」 ,而是彼 此「相乘」) ※如果兩個變數的變化趨勢一致,也就是說,如果其中一個大於自身的期望值(例: A 的母體均值) ,另外一個也大於自身的期望值(例:B 的母體均值) ,那麼兩個 變數之間的共變異數就是正值。 ※如果兩個變數的變化趨勢相反,即其中一個大於自身的期望值,另外一個卻小 於自身的期望值,那麼兩個變數之間的共變異數就是負值。 ※積差相關法的基本條件 1.受測樣本數最好在 25 人以上。 2.變項間均為連續變項(等距/比率變項)。 3.變項母群體均呈常態分佈。 4.二者相關型態為直線相關,而非曲線相關。 ※解讀 1. 相關係數介於-1 與+1 之間,正負符號表示相關的方向(負表示斜率為負,正 表示斜率為正) ,0 代表 X 與 Y 完全沒有線性關係(不過並不代表兩者之間沒 有其他型態的關係存在)。 2. 相關係數(r)的平方(r2)即為決定係數或解釋變異量的比例。 3. 相關係數的意涵與樣本數大小有關,若受測的樣本很大,即使相關係數的值 很小,也很容易達到顯著(在相關分析中,除說明兩個變項是否達顯著相關 外,也應呈現決定係數的大小)。 4. 不論相關係數或決定係數只能說明兩者關係密切的程度(預測能力) ,而不能 隨意推論兩者間有因果關係。 1
5. 若 X 變項與 Y 變項的相關係數為 0.50 (p<0.001)、決定係數為 0.25,這相關 係數 0.50 意謂 X 變項與 Y 變項間有顯著的正相關,且「Y 變項的變異量中,可 被 X 變項解釋的變異量百分比為 25 %」 ;相對的, 「X 變項的變異量中,可被 Y 變 項解釋變異量百分比也是 25 %」。 註:此處的 X 變項與 Y 變項僅是虛擬,而非 IV 與 DV 的關係,如果變數可以區 分 IV 與 DV,則使用線性迴歸分析來探討變數間的線性關係。。 ※相關係數(r) 相關程度 0.8 以上 極高 0.6-0.8 0.4-0.6 0.2-0.4 0.2 以下
高 普通 低 極低
Table 4.12: Individual-Level Means, Standard Deviations, Alpha Coefficients, and Correlations between Investigating Variables Based on All Respondents of Members Variable
M
SD
1
2
3
4
5
6
7
8
1. vision climate
3.45
.65
(.78)
2. task climate
3.25
.72
.66**
(.66)
3. support climate
3.15
.68
.69**
.70**
(.75)
4. safety climate
3.43
.66
.77**
.70**
.72**
(.80)
5. effectiveness
3.22
.50
.63**
.54**
.54**
.63**
(.81)
6. approachability
3.11
.48
.48**
.43**
.43**
.48**
.71**
(.72)
7. mutual influence
3.34
.51
.45**
.31**
.37**
.46**
.46**
.44**
(.67)
8. participation
3.36
.61
.44**
.33**
.27**
.38**
.63**
.47**
.37**
(.65)
9. trust vs. competit.
3.05
.66
.27**
.23**
.18**
.34**
.54**
.52**
.08*
.39**
9
(.73)
** Correlation is significant at the 0.01 level (one-tailed). Cronbach’s alphas are reported in parentheses. * Correlation is significant at the 0.05 level (one-tailed). Sample size for individual-level: n=603.
單尾或是雙尾的 T 檢定,是取決於:是全部放在一邊或是平均分配在兩邊。 單尾 T 檢定是用在只關心特定方向的結果時;而雙尾 T 檢定則是結果的兩個方向 都關心。 單尾或是雙尾 T 檢定之選擇,考量各種不同的假設檢定情況。
2
抽樣 隨機抽樣:在母群體中,每個個體具有一個大於 0 的中選機會,且中選的機會是 隨機(random)的。 單純隨機抽樣(擲骰子、擲銅板、亂數表)。 等距抽樣(或稱系統抽樣)。 分層隨機抽樣(或稱比率抽樣,依照某些特徵分類,例:性別、居住地區,然後 在各層之內進行獨立的隨機抽樣)。 集束抽樣(將母群體分割成許多小集群,例:學校的班級,該班所有成員均為樣 本)、多步驟抽樣(每一步驟所使用的方法,都是機率抽樣即可)等。
非隨機抽樣:在母群體中,每個個體的中選機會不均等,常有未納入抽樣架構中 之個體。 偶遇樣本或便利抽樣(或稱偶遇樣本)。 立意取樣(具有代表性)。 自願樣本(通常用於人體試驗)。 配額選樣(在配額內,進行非機率抽樣)。 滾雪球取樣(通常用於探索性研究)等。
3
國立臺東大學師範學院(2012, 01, 03) 蔡進士 dachili@hotmail.com
總結 統計依功能區分 ※敘述統計(Descriptive Statistics),又稱「描述性統計」,描述觀察到的現象(集 中量數、離散量數二大類)。 ※推論統計(Inferential Statistics),又稱「分析性統計」,假設->檢定->推論 研究性質與統計方法 差異性研究:1.分布的差異-頻度(次數分布)、交叉表(例:行和列的比對)。 2.平均的差異-t 檢定(二個組別,單樣本、2 獨立樣本、成對樣本)。 -ANOVA(三個或以上組別)。 關係性研究:1.Pearson Correlation(二個變項)。 2.Mutiple Regression(三個或以上變項)。
迴歸係數與相關係數的關係 http://cable.nhri.org.tw/paper/pdf/TrainingBioStatistics.pdf 相關:沒有單位。 迴歸:有單位。 相關係數 r:指此種預測的準確度有多高 迴歸係數β:意指 x 每增加一個單位,y 增加β個單位。 相關係數 r:數值介於-1~1,正負號表示兩變項為正相關或負相關,絕對值越大 代表相關越大,0 代表無相關。 迴歸係數β:正負號表示,x 每增加一個單位,y 增加或減少β個單位,數值的 絕對值越大代表斜率越大。 相關與迴歸:兩者的正負號一定相同。 相關與迴歸:兩者的數值沒有一定的關係,即β大,r 不一定大;反之亦然。 http://www.mcu.edu.tw/department/management/stat/ch_web/etea/SPSS/Applied _Multivariate_Data_Analysis_ch7.pdf
1
因素分析(Factor Analysis) ※因素分析是相關分析與變異數分析的綜合進階應用。 ※因素分析起源於心理學上不能直接量測的因素,例如:休閒行為,因此,可以 經由一些可以測量的變數,並加以定出這些因素。 ※因素分析的二大目標:資料簡化和資料摘要。 ※因素分析的主要目的是對資料找出其結構,以少數幾個因素加以命名來解釋一 群相互有關係存在的變數,而又能保有原來最多的資訊。 ※相互有關係存在的變數受共同因素(Common Factor)及獨特因素(Specific Factor) 的影響。 ※因素分析包括:探索性因素分析(EFA, Exploratory Factor Analysis)與驗證性因 素分析(CFA, Confirmatory Factor Analysis)。 ※探索性因素分析是在沒有任何限制之下,找出因素的結構。目的在萃取構念 (construct)-或稱隱性因素(latent factor),並用以建構量表。 ※驗證性因素分析是在已知可能的結構下,驗證是否仍適用,如線性結構方程式 (LISREL,LInear Structural RELation, 線性結構關係)。是檢驗「因素效度」-或稱 「因素組合」-確認構念存在、以及應用構念發展理論的方法。 ※LISREL 係屬於「結構方程模式(structural equation modeling, SEM)」家族的一員, 因此 LISREL 之最大能耐在於探討多變項或單變項之間的因果關係。 ※SEM 一族的成員包含「共變數結構分析(covariance structure analysis)」、「潛在 變項分析(latent variable analysis)」、「驗證性因素分析(confirmatory factor analysis)」、以及「LISREL 分析(LISREL analysis)」等等, ※SEM 結合了多元迴歸與因素分析,可以同時分析一堆互為關連之依變項間的關 係。
2
因素分析的應用 1. 2. 3. 4. 5. 6.
做資料簡化 找出潛在因素 篩選變數 對資料做摘要 由變數中選取代表性變數 (在因素中挑選一個變數使用) 因素效度
因素效度(factorial validity)註:第 9 週 ※因素效度(factorial validity)就是一個測驗或理論,其背後的因素結構的有效 性。由於傳統的因素分析主要用於「尋找」因素結構、決定因素的多寡,或作 為篩撿試題的工具,並不作為檢驗理論模式的依據。 ※近年來伴隨驗證性因素分析(confirmatory factor analysis)的發展,因素效度 得以用來驗證測驗的理論意義。 ※例:一個研究人員提出動機的內涵應包括二種成份或因素(例:pull + push), 其所編製的量表所測得之分數即應獲得兩個因素,同時,每一個題目應有其指 定的因素。如果因素分析的結果支援此一因素模式,則其因素構念的假設即可 獲得支持。 因素分析無收斂於一致的應用法則,因為: 1.因素分析的每一程序的選擇涉及許多的決定,而每一決定都會影響因素分析的 結果。 例:樣本大小的議題、萃取方法的選用、萃取因素數目的爭議、以及轉軸方法的 應用等都留下許多討論的空間。 對探索性分析(exploratory analysis) 過程中最常被使用的萃取方法:共同因素分 析法 (common factor analysis) 與主成份分析法 (principal component analysis)。
因素分析與主成分分析的比較 主成分分析,其主要目的在於企圖找出一群互不相關的少數變項組合以解釋原始 資料所含的最大訊息。 1. 主成分分析(Principal Component Analysis):是以變異數分析為導向。因素分析 (Principal Factor Analysis):是以共變異數分析為導向,關心每個變數與其他變 數共同享有部分的大小。註:「共變異數」是兩個變數的總體誤差(離散), 這與僅有一個變數的變異數之誤差(離散)不同。 2. 主成分分析是選擇一組成份(Component),盡可能的解釋原變數的變異數。因 3
3. 4. 5. 6.
素分析是選取少數因素(Factor),解釋原變數的相關情形。 主成分分析是所有變數的變異都考慮在內。因素分析只考慮每一變數與其他 變數共同享有的變異。 主成分分析較適合做資料(變數)的簡化。因素分析較適合做偵測資料結構。 主成分分析不需要旋轉。因素分析可能需要旋轉才能對因素命名與解釋。 主成分分析是資料(變數)做變換(線性組合),對資料(變數)不需要任何假設。因 素分析是假設資料(變數)滿足某些結構而得到的結果。
因素的命名 負荷愈大表示該因素對變數的影響愈大,藉以對因素命名。 因素分析模式的旋轉 直交旋轉 斜交旋轉 KMO and Bartlett’s test of sphericity(KMO 值愈大(>0.6)表示共同因素愈多,愈適 合進行因素分析。
因素分析的樣本數 能否作 EFA 的前提與樣本數密切相關。樣本數當然是愈多愈好,文獻有 3 種主 張: 1.樣本數:雖然有出現過底限 100 的記錄,一般仍以 200 為底限。 2.[樣本/項目]之比:5:1 到 20:1 。 3.依據各種相關指標(如 Communality, KMO),對個案作反復評估。(Zhao, MacCallum et al.) 第 3 種途徑最完整,此一途徑的目的是希望若遇較少樣本,也能執行因素分析。 因素分析範例 http://tx.liberal.ntu.edu.tw/Jx/Methodology/Analy-TxStatisticsCanon-Factor.htm
4
國立臺東大學師範學院(2012, 01, 10) 蔡進士 dachili@hotmail.com
主要質性研究方法 訪談法、觀察法、焦點團體討論(focus group discussion)、文獻法、民族誌 (ethnography)、歷史研究、紮根理論(grounded theory)方法、敘事分析(narrative analysis)、行動研究、多元方法(multi-method)…等。 訪談法(interviewing) ※基於特定的目的去拜訪他人, 藉由對談的方式而獲知受訪者對特定事項的意 見,即為訪談。 ※訪談有如一種口頭問卷,受訪者的答覆紀錄,常以逐字稿的方式寫下來。 訪談過程主要著重於受訪者個人的感受(perception)、生活與經驗(life and experience)的陳述,藉著彼此的對話,研究者得以獲得、了解及解釋受訪者 個人對社會事實(social reality)的認知。 ※依訪談整體結構分: 1.結構性訪談 2.非結構性訪談 3.半結構性訪談 深入訪談(In-depth interview) 研究者與受訪者之接觸,不同於一般訪談之角色不平衡狀況,意味著深入訪談兩 者角色較為平等。 焦點團體討論(focus group discussion) 1.焦點團體研究是在一個無威脅的情境下進行一系列的討論。 2.目的是瞭解特定的議題、產品或是服務項目的感受與意見。 3.每個團體由一個技巧優良的主持人(moderator)帶領 4 到 12 個參與者。 4.參與者均具有與該焦點團體的主題有關的某些特質。 5.同一議題可進行若干場次,以便於發覺該主題的趨勢與規律性(pattern)。 6.研究者至少會比較對照三組以上的焦點團體。 7.研究者會運用縝密與系統的分析討論資料,提供對某一項產品、服務項目或是 8.機會的研究結論與建議。 文獻法 主要指蒐集、鑒别、整理文獻,並通過對文獻的研究形成對事實的科學認識的方 1
法。 特點:歷史性、靈活性、繼承性和創造性 1.歷史性:文獻法是一種“歷史”的研究。 2.靈活性:文獻法不受時空限制。 3.繼承性和創造性:是一種繼承與批判的過程,而創造出新理論。 民族誌 民族誌是一種相當個人及想像的工具,比純粹的描述性文體(實證主義式的說明), 更可以自主地表達意見。 1.強調發現知識,而非驗證理論。 2.依賴兩種文化經驗的對照,研究者以自身原有的「背景知識」為基礎,去詮釋 在被研究的文化中所觀察到的經驗。 3.採取立意抽樣(purposive sampling)——因為不作量的描述,也不作統計推論。 4.方法:觀察、訪談、利用現有資料、蒐集生活史。 歷史研究 探討人類過去活動真相的方法,有系統的搜集與客觀的評鑑與過去發生之事件有 關的資料,並提出準確的描述與解釋。 行動研究 1.1930 年代由美國社會心理學家 Lewin 所提出,來鼓勵社會工作者運用研究以促 成社會的改變。 2.1960 年代由於「量化研究」興起,使得行動研究有衰退的現象。 3.1980 年代初期 Schon 提倡「反省」(reflection)的觀念,行動研究再度抬頭。 4.行動研究就是由實務工作者,針對工作場所的特定問題進行研究,並結合學者 專家的力量(intervention,介入),採取有計畫的行動,來解決實際所遭遇的 問題。 5.EntryStart-UPAssessment & FeedbackAction Planning Intervention Evaluation[Adoption and Separation (Disengage—OD consultant 脫 出]Start-UP 換言之,包括:1.診斷問題、2.選擇方案、3.尋求合作、4.執行實施、5.評鑑反應
紮根理論 Grounded Theory ※An innovative method of qualitative analysis widely used in sociology, nursing, education, social work, and organizational studies. ※The first grounded theory (GT) methodology of Glaser appeared in 1967 co-authored with Strauss: The Discovery of Grounded Theory. 2
Barney G. Glaser (born 1930) is an American sociologist and one of the founders of the grounded theory methodology. Anselm Leonard Strauss (December 18, 1916 – September 5, 1996) was an American sociologist internationally known as a medical sociologist and as the developer (with Barney Glaser) of grounded theory. 紮根理論的理論淵源:「實用主義」(pragmatism)和「符號互動論」(symbolic interactionism) 「實用主義」(pragmatism):研究主題的來源是日常生活,研究成果也是回歸日 常生活。 「符號互動論」(symbolic interactionism):人類行為的意義是透過「解釋」做為 中介,特定行為的定義都是經由人與人互動(協商)而得。
※紮根理論被認為是質化方法中最科學的一種方法(Hammersley, 1989)。 ※針對量化研究者對質性研究的批評,所提出的依循操作原則,尤其是在資料蒐 集的過程、資料分析的原理。 1.紮根理論 Grounded Theory 不是理論,是一種方法。是要讓研究者紮根在所獲 得的資料上,而發展出一套新理論。 2.紮根理論沒有一定的學科限制,或是方法論立場的預設。但特別適用於探討行 動/互動的意義。 3.主要建立理論(發現的邏輯,logic of generation)而非驗證假設(驗證的邏輯, logic of verification)或既有理論。 According to Pandit (1996), "The Creation of Theory: A Recent Application of the Grounded Theory Method", The Qualitative Report: Pandit 將紮根理論的研究程序整理為以下五個階段、九個步驟: 階段一(phaseⅠ):研究設計(research design) 第 1 個步驟(step 1):文獻探討(review of technical literature) 第 2 個步驟(step2):立意取樣幾個典型個案來試做(selecting cases) 階段二(phase Ⅱ):蒐集資料(data collection) 第 3 個步驟(step3):設計嚴謹的資料蒐集方法(develop rigorous data collection protocol) 第 4 個步驟(step4):進入研究場域(entering the field) 3
階段三(phase Ⅲ):資料整理(data ordering) 第 5 個步驟(step 5):資料整理(data ordering) 階段四(phase Ⅳ):資料分析(data analysis) 第 6 個步驟(step 6) :分析第一個個案(case)的資料(analyzing data relating to first case) ,資料分析的程序包括:開放式編碼(open coding)、主軸編碼(axial coding) 和選擇編碼(selective coding )。 第 7 個步驟(step7):理論取樣(theoretical sample),第一個案例分析所形成的 「理論發展」 ,能否解讀第二個案例分析的結果,若否,則修正理論發展的方向, 以此方式形成更完整理論。 第 8 個步驟(step8) :形成理論飽和(reaching closure,收網),理論已能解讀所 有案例,而建立完整理論。 階段五(phase Ⅴ):文獻比較 第 9 個步驟(step 9):導出的理論與既存的文獻做比較。
資料分析-譯碼(編碼)的程序 開放性譯碼(open coding) 藉著仔細檢驗資料且為特定現象命名,換言之,對所得之資料做逐句逐段的分解、 檢視、和概念化(conceptualizing),以形成「概念」(concept)。 主軸譯碼(axial coding) 把前一階段分析所得的各種「概念」整合起來,組成「範疇」。也就是說,依各 種「概念」所擁有的屬性(properties)及面向(dimensions)進行群組歸類,以 更抽象且更高層次的概念加以命名,此一特有的「概念群組」稱為「範疇」 (category)。 選擇性譯碼(selective coding) 將之前所歸納出的「範疇」整合連結成更上層的「核心範疇」 (core category, central category)關聯圖,並用所有的資料來驗證這些關係的存在(利用紮根法所建立 起來的理論,必須有資料的強力佐證),若達理論飽和,即可建構理論。 其他有關紮根理論的補充 1.採用紮根理論研究法,於參與觀察時通常會預先設定觀察的項目。 2.採用紮根理論研究法的深度訪談,通常採用無結構的訪談。 3.參與觀察或深度訪談,都是在觀察與訪談過程中,不斷修正觀察的重點與訪談 4
的問題。 4.常與紮根理論一起出現的名詞就是理論觸覺(theoretical sensitivity),理論觸覺指 的是研究者的一種個人特質,一種能察覺資料內涵意義精妙之處的能力。 5.如遇特例而否定「理論發展」時,可待更多的資料搜集,以更高抽象層次的概 念來包含對立特例的解讀。
質性的資料分析-分類 1.內容分析法(Content analysis) 2.樣版式分析法(Template analysis) 3.編輯式分析法(Editing analysis) 4.融入/ 結晶化分析(Immersion/Crystallization analysis) 內容分析法常被稱作「類統計分析(Quasi-statistical analysis),係根據訪談內容 的字或句分門別類歸納,加以計算頻率或進行深入的統計分析。內容分析法中最 常被用來分析訪談資料的方法是口語資料分析法(Protocol analysis)。 樣版式分析法主要是建立在既有的理論、行為模式等架構觀念下所發展出來的分 析方法。 編輯式的分析法以主觀及詮釋性為主的分析,像編輯一般直到詮釋者探尋出有意 義的論點。 融入化分析方法最常被使用在個人深度的質性研究的分析方法,如傳記、回憶錄、 人物誌等。
質性研究的三大取徑(approach) 1.實證取徑:實證取徑強調避免主觀的、感性的影響,其終極目的在於找到法則, 或對事物提出因果的說明。質性研究採實證取徑,常因研究尚屬不便採行計量 方法的階段。 2.詮釋取徑:詮釋取徑是為了便於掌握特定意義,並對此特定意義加以陳述。 3.批判取徑:為了發掘社會的深層結構,以便進行批判。 ※從詮釋與批判取徑出發,質性研究方法的獨立性與優越性才能獲得充分的肯 定。
5
質性研究的特徵 1.深描(thick description):包括經驗的脈絡、組織經驗的意向與意義、呈顯過程 經驗。因此,詮釋學(hermeneutics)與現象學(phenomenology)成為質性研究在哲 學方法論與知識論的基礎。 2.自然主義(naturalism):在研究過程中以不操弄(manipulate)被研究者為原則。被 研究者基本上是以其原有生活方式參與研究。 ※研究者是否應該以中立、不介入、不涉入感情的方式進行研究,現有不同的主 張。 3.反身性(reflexivity):檢視被研究者所持的觀點,也必須檢視研究者自身所持的 觀點。 4.重視默會知識(tacit knowledge):默會知識是指未明言的知識(說不出的知識、 隱性知識),常存在於以下的認識狀態中:可行動而未具備可明言的了解,有 了解卻無完整連結,懂得結論卻無論證等。默會知識扮演構成性(constitutive) 角色,也就是構成人們的經驗認識的基礎。忽略默會知識,將無法充分掌握人 們構成其經驗的過程與方式。 5.多元方法(multi-method)原則:不只用一種資料蒐集、分析、與詮釋的方法。多 元方法可促成交互檢證(cross-validation),可提升研究的效度或值得信任 (trustworthiness)的程度。
質性研究的三種基本效度 1.可信度(credibility):即內在效度,指研究者真正觀察到所希望觀察的。 2.可轉換性(transferability):即外在效度,指被研究者的經驗能被有效地轉換成文 字陳述。 3.可靠性(dependability),即內在信度。 綜合而言,就是以公平性、真實性(authenticity)建構起的「值得信任」 (trustworthiness)為原則。
資料來源 ※常見的質性研究資料來源:包括書面文獻、觀察、訪問、聲音與影像記錄等。 6
※書面文獻:歷史文獻、日記、書信,或各種有文字、圖像等。
自我辯護 自我辯護(self-justification):辯護自己所選用的方法,辯護所選用的觀點…等。
7