第一章 導論 ..................................................................
1-1
第二章 機率與診斷 ......................................................
2-1
第三章 機率函數與常用分配 ......................................
3-1
第四章 估計方法 ..........................................................
4-1
第五章 假設檢定 ..........................................................
5-1
第六章 變異數分析 ......................................................
6-1
第七章 屬質資料分析 ..................................................
7-1
第八章 迴歸分析 ..........................................................
8-1
第九章 無母數統計方法 ..............................................
9-1
附錄一 最新試題暨解析 .............................................. 10-1 附錄二 常用查表&重要公式整理 ............................... 11-1
1 導 論
1-1
1-1 導論暨抽樣方法 、為何要學生物統計 實驗後所歸納出的結果即是真理? 過去人們總認為實驗所做出來的結果,經過歸納出的現象即是真理,而我 們總認為真理是必然性,如同著名物理學家愛因斯坦的名言「上帝不會擲 骰子」。雖然真理存在必然性,但我們觀察到的事物發展卻呈現隨機性, 如天氣的變化總是難以捉摸,所以宇宙的運轉的必然性與隨機性是一體兩 面,統計學即將這個不確定性給予量化,並且可以用機率表達、分析來加 以推論,以供決策者參考。 生物統計學的目的與功用 由描述事件的型態,即描述性統計,可以讓我們很清楚的知道事件的概況 ;機率理論的應用,除了讓我們知道頻率與危險外,還可用於診斷檢定, 因為沒有檢驗是完美的;而當我們想要推論時,可以利用樣本資訊來分析 因子的效應。生物統計學方法可確認各種關聯性,並藉由發現關聯性,進 一步找出流行病學中的因果關係。 、生物統計的定義 統計學是一門教我們如何從雜亂的數據資訊中,提煉出有用的資訊,以利作 成結論,並加以應用,進一步成為決策的依據的學問。 統計的研究探討範圍包含數據資料的蒐集、組織、分析以及解釋。統計應用 在不同的領域上,如商業、工業、心理、教育等,當我們的重點是生物及醫 學衛生領域時,我們特別使用生物統計(Biostatistics)一詞。 、依實施的順序先後所作的統計的分類 敘述統計學(Descriptive Statistics) 將資料作分類、編表、畫圖,予以量化成有意義的數值,以達成整理、歸 納、比較、簡化的目的,強調資料的表現和整理,作的是「陳述」的動作。 推論統計學(Inferential Statistics) 從被調查的母體(Population)中,抽出真正「可代表母體的樣本」,再
2
1 利用此樣本「推論」母體的特性,作的是「猜測」的動作。 【高考二級生物】 、統計的架構:描述母體與樣本的關係 抽取
理論部分
機率的問題 樣本
母體 統計的問題 推論
方法部分
、母體與樣本 母體 研究者欲研究對象的全體集合成為母體(Population)。其可能具有某些 共同的特徵,母體可大可小,取決研究者的興趣。母體大小一般用 N 來 表示,我們可使用 X1, X2, …, XN 表示母體內的觀察數值。 樣本 有時因為母體過於龐大,或研究者實際無法全面觀察等因素,只能抽取其 中的一小部分來進行研究,此為母體的子集合,我們稱之為樣本(Sample )。樣本大小一般用 n 來表示,我們可使用 X1, X2, …, Xn 表示母體內的觀 察數值。 、抽樣(Sampling)的概念 什麼是抽樣 人們每天都在面對不完整的資訊上,經由適當的判斷作出合適的決策。譬 如買了一箱柳丁,一般人通常都是看上層柳丁的好壞來決定是否買整箱柳 丁。如果柳丁的好壞是相當均勻的分散在箱子裡,那麼最上層的柳丁就可 以說是好的樣本,當然你也許會採用別的方式作檢查,例如隨便翻動箱子 看看其他的柳丁是否優良。這樣的過程就是「抽樣」的過程,因為你並沒 有全部的柳丁都看過。 為何要抽樣 全體的「抽樣」調查即是普查(Census)。普查雖可以獲得正確的資訊, 但既費力又費時,在成本與時間的考量下並不可行。所以從母體中抽取一 部份具有代表性的樣本,用以推論母體的特性。但如何抽、怎樣抽,才可 抽出有效的樣本?便是抽樣方法的重點。
1
chapter 導 論
1
3
、抽樣調查 在母體中以特定的抽樣方法,選取部分的個體或元素形成樣本,再對樣本的 特性進行測量或調查,進而推論出母體的特徵。抽樣調查的方法可分為隨機 抽樣(Random Sampling,亦可稱為機率抽樣)、非隨機抽樣(Nonrandom Sampling)兩類。 機率抽樣法 樣本變數資料必須具備隨機性,以決定是否被抽中納入樣本。 簡單隨機抽樣(Simple Random Sampling):母體中每一個體被抽到機 率均相同,且彼此之間不會影響彼此被抽中的機會,稱為簡單隨機抽樣 法。 系統隨機抽樣(Systematic Random Sampling):隨機自母體中取出第 一個單位後,然後每隔 k 個單位取一個單位,直到取遍了整個母體為止。 分層隨機抽樣(Stratified Random Sampling):將母體按某種標準分為 若干子母體,這些子母體就稱為層。再從各層中,利用簡單隨機抽樣取 出樣本。 群集隨機抽樣(Cluster Random Sampling):將母體按某種標準分為若 干類或若干部落,這每一類或部落就稱為群。將每一個群視為一個抽樣 單位,再利用簡單隨機抽樣取出數個群集,被選出群集中的每一個元素 都是所選取的樣本。 非機率抽樣法: 取得的樣本並非依照機率模型設計去取得,而是任意或主觀地選定樣本。 便利抽樣(Convenience Sampling):單以方便抽出為考量的抽樣,費 時甚短,正式調查時很少使用。 配額抽樣(Quota Sampling):與分層抽樣方法類似,但子母體若並未 如分層抽樣劃分的原則,相較分層抽樣是按隨機原則在層內抽選樣本, 而配額抽樣則是由調查人員在配額內主觀判斷選定樣本。但配額抽樣還 是可以保證讓我們的研究樣本中,包含我們所感興趣的各種性質的研究 個體,所以配額抽樣是非機率抽樣方法中較常使用的方法。 判斷抽樣(Judgement Sampling):根據抽樣設計者的主觀判斷來決定 樣本的選取,設計者必須對母體的特徵具有相當的瞭解。有時也稱立意 抽樣或專家抽樣。例如健保局先透過電腦系統了解某家醫院在那些治療 項目、科別或醫師的申報費用成長最快,然後針對該範圍密集抽取案件 來做審查。
4
1 雪球抽樣(Snowball Sampling):母體本身難以尋到樣本,及子母體罕 見或稀少時使用,由起始的受查者所提供的資訊去取得其他受查者。抽 樣時難免會造成非隨機的樣本。例如基因的罕見疾病個案收集,可能需 透過收集初始個案的親戚或鄰居。 、統計誤差 抽樣誤差 樣本無法完全代表母體,在抽樣過程中,一定會產生不可避免的誤差。通 常抽樣誤差不會太大,常是沒有原因、不可解釋的,但可以控制與衡量。 【普考海洋】 非抽樣誤差 是抽樣過程中想要避免的誤差,通常誤差較大,一但被發現,常是有特殊 原因造成,可解釋的。 操作誤差:問卷無答覆性誤差與不精確答覆誤差。 工具誤差:例如設計上的誤差,以致缺乏信度、效度。 選擇偏誤:抽樣單位與樣本數未照原始設計執行。 統計偏誤:使用了不恰當的公式,或者錯誤的計算。
、請解釋隨機取樣(Random Sampling)。 【原特四等衛政、普考衛政、高考二級生物】
在母體中隨機抽取若干個體為樣本,母體的每一個個體有同等被抽取的機會 ,在抽取樣本過程中,不受研究者或取樣者任何人為的影響,完全按隨機方 式取樣,這樣的抽選方式稱隨機抽樣(Random Sampling)。 、請解釋下列名詞:等距抽樣(Systematic Sampling)與分層隨機抽樣( Stratified Random Sampling)。
【地特三等衛生】
等距抽樣又稱系統抽樣,為隨機自母體中取出第一個單位後,然後每隔 k 個 單位取一個單位,直到取完了整個母體為止。 分層隨機抽樣是將母體按某種標準分為若干子母體,這些子母體就稱為層。
1
chapter 導 論
1
5
再從各層中,利用簡單隨機抽樣取出樣本。 、「分層抽樣」(Stratified Sampling)與「集束抽樣」(Cluster Sampling )是社區調查常用的抽樣方法,請說明兩種方法的內容及適用狀況。 【地特四等海洋、簡任衛技】
兩抽樣法均把母體看成數個子母體,子母體在分層抽樣稱為層,在集束抽樣 稱為集群。分層抽樣是在「層內差異小,層與層差異大」的情形下採用,每 層各別抽出數個樣本,集合而成分層抽樣樣本,其樣本才能對母體有代表性 ;集束抽樣是在「群內差異大,群與群差異小」之情形下採用,每次抽取整 群的樣本,集合數個群集形成群集抽樣樣本,即能代表母體的特性。 、某衛生單位想估計社區內 65 歲以上老人的失能盛行率,衛生單位內有 人認為應該採取簡單隨機抽樣的方式選取樣本,但另外有人則表示應該 先將社區內老人族群按年齡與性別分層,再於各分層中採取簡單隨機抽 樣。你認為相較於簡單隨機抽樣,採取分層隨機抽樣有哪些優點? 【薦任衛政】
簡單隨機抽樣法抽出樣本較為分散,所需成本較高。並且相較於分層抽樣法 ,較無效率。而分層隨機抽樣法可以根據母體的特性,逐層抽取出特定屬性 的樣本,若層間差異愈大,層內差異愈小時,抽出樣本的精確度較高。
1-2 資料的整理與彙整量 、資料的整理與測量尺度 資料的規模可小至數個,大至數千個數值,若沒有按系統的整理方式,將使 得分析工作窒礙難行。敘述統計學(Descriptive Statistics)是組織和歸納觀 察數值的方法,它能幫助研究者對一組資料的整體特性作瞭解。描述性統計 可藉由統計表(Tables)、統計圖(Grapgs)和運算某些數值摘要統計量( Statistic)來敘述資料。但在決定採用最適宜的表達資料的方法之前,研究 者必須先審視其處理資料的種類。 屬質資料(Qualitative)
6
1 包含類別資料(Nominal Data)與次序資料(Ordinal Variable Data),其 中類別資料只能區別類別,無大小的區別,其運算後的結果並無意義;而 次序資料能衡量大小的次序,但無法衡量出其中大小的差距。 屬量的資料(Quantitative) 包含等距資料(Interval Data)與比例資料(Ratio Data),可以衡量彼此 之間的大小,並且清楚瞭解其差距,運算上具有意義。兩者最大的差別在 於等比資料大小有倍數關係,而等距資料則無。例如體重為等比資料,而 溫度為等距資料。 變數的測量尺度 名義尺度(Nominal Scale):只能區別類別,無大小的區別,又稱類別 變項,名目變項,其運算後的結果並無意義。例如:以 0 代表女性,1 代表男性;樂透彩的號碼。 次序尺度(Ordinal Scale):能衡量大小的次序,但無法衡量出其中大 小的差距,運算亦無意義,又為順序變項。例如:班級名次、鞋子的尺 寸。
【原特四等衛政】
等距尺度(Interval Scale):可衡量出差異大小,但不具絕對零點。例 如:溫度、亮度、智商分數。 比例尺度(Ratio Data):可衡量相對比例,存在倍數關係,具絕對零 點,運算有意義。例如:身高、體重、金錢等。 、質的資料之整理 編表 次數分配表(Frequency Distribution)可將資料在各分組中實際出現次數 ,整理成易觀察的分類形式。 350 筆調查資料,喜歡喝可樂的人有 50 人,喜歡喝烏龍茶的 75 人,喜 歡喝果汁的 100 人,喝綠茶的 75 人,喜歡喝牛奶的 50 人,次數分配表 如下: 可樂 50 圖型表達
烏龍茶
果汁
綠茶
牛奶
75
100
75
50
長條圖(Bar Chart):用長條的長度來表現不同類別次數的大小,僅適 用於離散型的變數資料。組與組之間有間隔並不相連。
1
chapter 導 論
1
37
、母群體有 5000 人,每隔 10 個人抽出一位,若使用系統抽樣法,開始的第 一位應該如何抽出? 、唯心希望針對花蓮縣某家醫院員工之樂觀態度進行一項問卷調查。由於此 醫院中的醫師與護士比例為 1:4,因此,唯心希望在選取的樣本中,醫 師人數占 20%、護士人數占 80%。試問何者為最適切的抽樣方法? 、當研究母體性質,為組間同質性高、組內異質性高時,適合的取樣法為何? 、透過良好謹慎的抽樣設計,可以把隨機誤差降為零。(是非題) 、一位心理學教授在他任教的班上,以學生來作為某項心理學實驗的受試者 ,這是屬於何種抽樣? 、不論抽樣方法為何,樣本的代表性與樣本的大小成正比。(是非題) 、員工的出生地點、在家中的排行與年齡的資料,請分別說明這三者分別屬 於何種層次的變數? 、試問下列資料「最適合」以何種變項或量尺呈現? N:名義變項、O:次序變項、I:等距變項;又各變項屬於連續變項(C )或間斷變項(D)?(寫代碼即可) 性別。 裁縫師想要決定如何裁剪,所以用尺測量出相關尺寸。 學生就讀的年級。 進行便利商店滯銷商品種類調查。 動物學家為了決定野生動物園區的面積大小,進行老虎、獅子以及大象 的計數。 、「小明在班上國語成績是第三名,因為他答對 9 題。」其中三和 9 分別是 屬於哪一種量尺? 、下列圖~分別由 3 組抽樣的資料所繪製而成的直方圖(Histogram) ,圖~分別是根據這 3 組抽樣的資料所繪製而成的盒形圖(Box Plot ):
38
1
請問: 依據上述直方圖(Histogram),您認為圖~的資料分別可以對應 至圖~那一個圖? 在繪製盒形圖(Box Plot)時,除了最大值及最小值,是由哪 3 種統計 量所繪製而成? 、衡量中央位置或趨中性(Central Tendency)的介量(Parameter)有幾種 ?
【普考衛政】
、為瞭解市售高麗菜農藥 Acephate 殘留狀況,定期在批發市場隨機抽取高 麗菜樣本檢驗: 除了平均數與標準差以外,請指出其他可以描述農藥殘留的集中趨勢與 分散程度的量數各兩種,並說明每一種量數之計算方法或公式。 請提出兩種適用來呈現這種類型資料的圖示法。
【地特三等衛生】
、小明每年用 420 元買蛋,第一年每斤 10 元,第二年每斤 12 元,第三年每 斤 14 元,試問三年內平均每斤蛋為多少元? 、一個新上市降血脂 Statin 類的藥聲稱服用 5 日就有效,尤其是三酸甘油脂 ,幾位高血脂的人服用此藥 5 日前後抽血檢驗的三酸甘油脂(mg/dL)數 據如下: 服用前
服用後
325
318
280
272
298
271
1
chapter 導 論
1
43
、此為系統抽樣,每隔 10 個人抽出一位,所以需從 1 到 10 之間隨機抽出 第一位。 、不同特質的族群,適用分層隨機抽樣。 、群集抽樣是在「群內差異大,群與群差異小」之情形下採用。 、False,只要是抽樣,必有抽樣誤差。 、僅取單一班級的樣本為便利抽樣,結果不具有代表性。 、False,若是設計不良的抽樣方法,樣本抽越多,亦沒有代表性。 、出生地點:名義變項;家中的排行:順序變項;年齡:比例變項。 、 N;D I;C O;D N;D I;C 、第三名為順序量尺;答對 9 題為比率量尺。 、對稱且集中的分布,盒形圖應為;右偏的分布,盒形圖應為; 資料較為分散,盒形圖應為。 需要有第 1 四分位數、中位數、第 3 四分位數方可繪製。 、平均數、中位數、眾數。 、集中趨勢除了平均數外,尚可使用中位數以及眾數來衡量。 中位數是將資料由小而大排列後,最中央的數,即有一半的資料小於 等於中位數,有另一半的資料大於等於中位數。 次數出現最多的稱眾數。 分散程度的量數除了標準差外,亦可使用四分位距或變異係數。 四分位距(IQR) Q3 Q1 其中 Q1 是第 1 四分位數,Q3 是第 3 四分位數。 變異係數是衡量相對離散量數,藉以標準差除以平均數,得到標準差 佔平均數的比例。 C.V 100% 屬量的資料可以利用莖葉圖、盒鬚圖來呈現資料分布的情況。 莖葉圖是一個與直方圖相類似的特殊工具,但與直方圖不同處是莖葉圖 保留原始資料的資訊。 盒鬚圖是第 1 四分位數與第 3 四分位數中間的區域繪成方框,此圖中盒 子包含資料中間 50%部分。並直接連接最小值與最大值,即鬚的部分