抽樣方法
第一章: 緒論
周子敬
1
抽樣方法 社會科學家執行調查(survey survey )來蒐 集「樣本」,自然科學家作實驗 (experiments experiments )以驗證事實學理 以驗證事實學理
周子敬
22
抽樣方法 現代統計學的目標在於推論(inference inference )
周子敬
3 3
抽樣方法 抽樣方法的焦點(focus focus ):: 抽樣方法焦點大致可以歸納如下44 點,而以下44 點也可 以作為抽樣方法計算的依據,一般在初階的「敘述統計 學」未含括如此詳細,但實際上,如果研究者想要精確 的算出所要抽取的樣本,大體上應考慮到以下44 點: 點: • 確認抽樣程序(sampling procedure sampling procedure ) ) • 母體參數(population parameters population parameters ) ) • 估計值(estimators estimators ) ) • 估計誤差(errors of estimation errors of estimation ) ) 周子敬
4 4
抽樣方法 社會科學家經常選擇數百人或 數千人來研究,由研究結果推論數百 萬人的情形,而不需直接去研究數百 萬人,這就是抽樣的精隨。 萬人,這就是抽樣的精隨。 周子敬
5 5
抽樣方法 抽樣方法 “有22%的美國人懷疑大屠殺(the Holocaust)從來沒有發生過”
德國納粹黨大屠殺猶太人的事件對您來說可能或是不可能?
周子敬
6
抽樣方法 結果: 有可能發生
不知道
不可能從未發生過
22 22 ﹪
12 12 ﹪ ﹪
65 65 ﹪ ﹪
周子敬
7
抽樣方法 檢討起來,以上的問題最大的缺陷在於雙 重否定 重否定 (double negative) 用語模糊了回答者應 該回答的選擇。
周子敬
8
抽樣方法 所以之後Roper Roper 組織對於以上的問題再 做出了適當的問題修正: 大屠殺通常是指在第二次世界大戰時,在納粹 死亡營中被殺的幾百萬猶太人;依您的觀念,大屠殺 「確實發生」、「或許發生」、「或許沒有發生」、 或「確實沒有發生」?
周子敬
9
抽樣方法 結果: 大屠殺確實發生 大屠殺或許發生 大屠殺確實沒有發生 83 13 11 ﹪ 83 ﹪ 13 ﹪ ﹪ ﹪
周子敬
10
兩種問法的結果大相逕庭!!
周子敬
11
抽樣方法 民意及調查逐漸地增加政治、研究及商業決策的 引導,但它們的應用可能非常危險或易變的,而且顯為 人知。在Cynthia Crossen Crossen 所著一本有關於現行資料蒐集 及使用趨勢非常好的『敗壞事實(Tainted Truth Tainted Truth )』一 書中指出: 我們是會懷疑統計及真實的資訊,但卻不是我們想像的那樣懷疑
周子敬
12
抽樣方法 她繼續說到:
我們尊重數字而且我們不得不相信它們,然而,我們過往所相 信、選擇、忠告及治療的資訊已被創造成不是擴展我們的知識, 而是販售產品或促銷貨物。
周子敬
13
抽樣方法 我們依賴資料來作出明智之舉,然而,我們 時常看到資料被曲解。誠如美國諺語:”” 垃圾進、垃 圾出(garbage in – garbage out garbage out )”” ,但進入數字遊 戲範疇時,常常有許多人落入另一美國諺語:”” 垃圾 進、福音出(garbage in – gospel out gospel out )”” 的圈套中。 消費者及製造者對於一系列不偏依真實資料的認知 需要有所瞭解,諸如:調查是如何進行的?一個好 的調查是如何設計的?以及調查資料是如何經過合 適的分析? 周子敬
14
抽樣方法 抽樣調查網站(以美國為例) 網站名稱
網址
美國國家環境衛生科學研究院 (National Institute of Environmental Health Sciences ) Sciences ) 蓋洛普調查 蓋洛普調查
www.niehs.nih.gov/emfrapid (可找到對於暴露於高壓電線,對健康 造成的可能影響報告) www.gallup.com www.gallup.com /poll (民意調查)
當前人口調查 當前人口調查
www.bls.gov www.bls.gov (當前人口調查)
尼爾森媒體研究 尼爾森媒體研究
www.nielsenmedia.com (收視率調查)
全面社會調查 全面社會調查
www.norc.uchicago.edu www.norc.uchicago.edu (全面社會調 查) 周子敬
15
抽樣方法 抽樣(sampling)
x
母群體 母群體 population
樣本 樣本 samples 推論(inference)
周子敬
16
抽樣方法 抽樣方法 抽樣程序步驟:: •• 選定母群體 選定母群體 •• 選擇抽樣架構 選擇抽樣架構 •• 選擇抽樣方法 選擇抽樣方法 •• 選擇抽樣單位 選擇抽樣單位 •• 界定誤差範圍 界定誤差範圍 •• 決定樣本大小 周子敬
17
抽樣方法
x
決策常面臨不確定性,機率便是對不確定性量 測的指標,而表達機率的方法則以隨機變數最佳,不 論是離散型或連續型的隨機變數都是提供決策不可或 缺的工具。由抽樣的少數樣本資訊對整個母體(或參 數)作決策,這種方式在統計領域尚稱之為統計推 論。同學們對於抽樣分配的基本動作應該會由一組樣 本的資料算出一統計量(如樣本平均數或樣本標準差 本的資料算出一統計量(如樣本平均數或樣本標準差 ss ),對感興趣的母體參數(如母體平均數μ或標準差 σ)作估計或決策。 作估計或決策。 周子敬
18
抽樣方法 由看到樣本資料x 1 , x 2 , x 3 , … … . x n 推估母體參數μ或 σ,此種由抽樣資料推估母體的長相,統計上稱為統計 推論。一般統計推論分為估計與檢定兩大領域,而點估 x x
計又分成點估計與信賴區間兩種,點估計是探討要用何 種估計量估計參數的問題,例如估計母體平均數μ時, 到底要用樣本平均數,或是樣本中位數Me Me ,或是眾 數,那一個統計量較好。 數,那一個統計量較好。 周子敬
19
抽樣方法 【例11 】南極海域藍鯨存量的估計:南極海域藍鯨捕獲 量越來越少,捕鯨協會想研究南極的藍鯨存量有多少? 「方法11 」:將南極海域的水抽光後,數一數有多少尾藍鯨,就 能得到藍鯨存量的答案,此為”” 普查”” 的想法,但實際上不可 行。 「方法22 」:”” 捕獲量比較法”” ,如第一次捕捉到270 270 尾,第二次捕 捉到243 243 尾,少了10 10 ﹪。則估計為原有270 / 0.1 = 2700 270 / 0.1 = 2700 尾,但現在 則有2187 2187 尾。 「方法33 」:”” 記號法”” ,設第一次捕捉到鯨魚150 150 尾,作記號 後放回。第二次再捕100 100 尾,其中有66 尾有記號,則估計鯨魚 存量為: 100 150 ´ = 2500 尾 尾 6 資料來源: 陳順宇教授 資料來源:陳順宇教授
周子敬
20
抽樣方法 估計與誤差 估計與誤差 1 我們常為某種目的作統計調查,例如在例1中由於 生態學家認為南極海域的藍鯨存量瀕臨絕種邊緣,因 此,想知道現在的藍鯨存量有多少?在這個問題中, 藍鯨存量就是我們感興趣的參數(如果我們感興趣的 雄藍鯨在此海域中所佔的比例, 那麼參數就是雄藍 鯨之比例)。 周子敬
21
抽樣方法 估計與誤差 估計與誤差 2 要得到母體參數(藍鯨存量)是多少,也許想到的方 法有很多(33 種方法),較可行的方式是透過統計的手 法獲的資料在作推估,但資料的獲得有時會因使用的蒐 集方法(抽樣調查)不正確,造成方法偏差(實驗方法 不好,造成的估計差異),有時雖然抽樣方法沒有偏差 ,但因樣本太少或運氣不好,抽到的資料不具代表性, 這種由於抽樣資料算出的估計與母體參數之間的誤差, 稱為抽樣誤差。所以, 一般估計值有下面的關係式 周子敬
22
抽樣方法 估計與誤差 估計與誤差 3
估計值 = 參數 + 方法偏差 + 抽樣誤差
樣本資料 所推估
母體真正 的特性
不當抽樣 方法所造成
抽樣對象 不同所造成
資料來源: 陳順宇教授 (remodel) (remodel) 資料來源:陳順宇教授 周子敬
23
抽樣方法 抽樣方法 抽樣方法 抽樣方法
常用隨機方法 採行方式(步驟)
簡單隨機抽樣 (simple random sampling ) (simple random sampling)
(1)採用摸彩法 (1) 採用摸彩法 (2)利用亂數表( random number tables) ) (2) 利用亂數表(random number tables (3)僅限於構成群體的個數均屬同質時使用較佳 (3) 僅限於構成群體的個數均屬同質時使用較佳
分層隨機抽樣(stratified 分層隨機抽樣(stratified random sampling) random sampling )
(1)取樣前,根據研究目的有關已有的標準,將群體中之個體 (1) 取樣前,根據研究目的有關已有的標準,將群體中之個體 分為若干類,每類稱為一層 分為若干類,每類稱為一層 (2)在各層隨機抽取若干個體作為樣本 (2) 在各層隨機抽取若干個體作為樣本 (3)層與層間主要變數平均數差異最大,層內變異數最小 (3) 層與層間主要變數平均數差異最大,層內變異數最小
系統(間隔)抽樣 (systematic sampling ) (systematic sampling)
(1)從母體中第 1至 至k k個值之中隨機抽取一個元素,以後每隔 個值之中隨機抽取一個元素,以後每隔k k (1) 從母體中第1 個元素抽取一個 個元素抽取一個 (2)抽樣區間( sampling interval) ) 兩個樣本間的標準距離 兩個樣本間的標準距離 (2) 抽樣區間(sampling interval (3)週期性 – 抽樣區間與樣本區間相同,容易產生誤差 抽樣區間與樣本區間相同,容易產生誤差 (3) 週期性 –
集群抽樣 (cluster sampling ) (cluster sampling)
(1)以團(集)體為單位,而不以個人為單位 (1) 以團(集)體為單位,而不以個人為單位 (2)將群體按某種標準(如班級、地區)分為若干類,稱為團 (2) 將群體按某種標準(如班級、地區)分為若干類,稱為團 體,對各團體隨機抽取若干小團體 體,對各團體隨機抽取若干小團體 (3)對小團體之各團體,全部加以訪問 (3) 對小團體之各團體,全部加以訪問 周子敬 24
資料來源: 古永嘉教授 資料來源:古永嘉教授
抽樣方法 抽樣方法 分層抽樣
圖解說明 ○ ○ ○ ○ ○ ○ ○ ○ □□□□□□ □□□□□□ Δ Δ
Δ Δ
抽樣
○
○
○
□ □ □ □
Δ Δ
Δ
Δ
集群抽樣 群別
單位
1
x 1 , x 2 , x 3 , …, x 6
2
x 7 , x 8 , x 9 , …, x 12
3
x 13 , x 14 , x 15 , …, x 18
周子敬
資料來源: 古永嘉教授 資料來源:古永嘉教授
25
抽樣方法 抽樣方法
常用非隨機方法及採取方式 採行方式(步驟)
抽樣方法 簡便抽樣(convenience sampling ) 簡便抽樣(convenience sampling)
街頭訪問(街訪)
判斷抽樣(judgment sampling ) 判斷抽樣(judgment sampling)
主觀認定
配額抽樣(quota sampling ) 配額抽樣(quota sampling)
(1)選擇「控制特徵」( control (1) 選擇「控制特徵」(control characteristics) characteristics ) (2)母體按控制特徵加以細分成幾個子母體 (2) 母體按控制特徵加以細分成幾個子母體 (3)決定各子母體的樣本大小 (3) 決定各子母體的樣本大小 (4)選擇樣本單位 (4) 選擇樣本單位
滾雪球抽樣(snowball sampling ) 滾雪球抽樣(snowball sampling)
向滾雪球一樣,越滾越多
周子敬
資料來源: 古永嘉教授 資料來源:古永嘉教授
26
抽樣方法 抽樣方法
抉擇點
有代表性嗎(樣本對於整體研究重要嗎)?
有
沒有
選擇隨機抽樣設計
選擇非隨機抽樣設計
如果研究目的主要是下列各項:
通則化
簡單隨 機抽樣
系統 抽樣
評估母群體中 次組別不同的 參數
集群抽樣(如果 成本不夠的話)
在地方區域 中蒐集資訊
區域抽樣
如果研究目的主要是下列各項:
在樣本中的次組別 中蒐集資訊
雙重抽樣
所有次組有相同元素數
有
比例分層隨機
獲得較快,即使 是不可靠的資訊
獲得某些類別上 的相關資訊
便利抽樣
只有少數專家可以提供
沒有
非比例分層隨機
判斷抽樣
周子敬
需要特別少數民族的回應
配額抽樣
27
資料來源:Sekaran , 2003 資料來源:Sekaran, 2003