Chapter
1
緒 論
2
一. 統計學的意義 5 二. 生物統計學與統計學 5 三. 統計學的應用 7 四. 統計學相關領域的準備和學習 五. 抽樣 10 六. Excel 操作範例 17 Chapter
2
統計資料的整理
9
32
一. 統計方法的順序 35 二. 統計資料的內容 37 三. 資料變項的分類 39 四. 敘述統計學 41 五. 統計資料的表格化──統計表的製作 六. 統計資料的圖樣化──統計圖的製作 七. Excel 操作範例 58 Chapter
3
統計資料的整理
70
一. 統計資料集中趨勢的測量 73 二. 統計資料分散性的測量──差異量數 三. Excel 操作範例 85 Chapter
4
機率概論
98
一. 機率的意義 101 二. 機率法則 103 三. 機率的運算 107 四. 貝氏定理 114
41 44
80
Chapter
5
常見的機率分配
124
一. 隨機變數 127 二. 隨機變數的種類及其機率分配之特性 129 三. 隨機變數之期望值(平均數)與變異數 132 四. 常見之機率分配 136 五. Excel 操作範例 142 Chapter
6
抽樣分配
148
一. 常態分配 151 二. 標準常態分配 154 三. 樣本平均數的抽樣分配 158 四. 大數法則與中央極限定理 160 五. 樣本平均數之抽樣分配的計算 163 六. Excel 操作範例 166 Chapter
7
估計與檢定
172
一. 估計 175 二. 假設檢定 183 三. 型Ⅰ與型Ⅱ錯誤 185 四. 大樣本情形下之母群體平均數 µ 之檢定 五. 小樣本情形下之母群體平均數 µ 之檢定 六. 決定母群體平均數的假設檢定之樣本數 七. Excel 操作範例 199 Chapter
8
相關與簡單直線迴歸
206
一. 相關分析的意義 209 二. 散布圖與直線相關 210 三. 相關係數及其計算 212
189 193 196
4
Chapter 機率概論
四. 解釋相關係數之注意要點 217 五. 迴歸分析 220 六. 簡單直線迴歸與最小平方法 220 七. 殘差圖 225 八. 判定係數、迴歸係數與相關係數的關係 九. Excel 操作範例 228 Chapter
9
組間平均數的比較
242
一. 變異的概念 245 二. 組內變異及組間變異 248 三. 兩組平均數差異的實驗設計及顯著性考驗 四. t 檢定的限制 259 五. 變異數分析 263 六. 事後檢定 276 七. 其他的變異數分析方法 276 八. Excel 操作範例 277 Chapter
10
間斷變數和 x2 檢定
226
292
295 一. x 分配 二. 2 2 交叉表 295 三. 費雪正確概率考驗 301 304 四. 2 J 交叉表 五. 配對樣本比例差異之比較 六. Excel 操作範例 308 2
307
251
51
52 生物統計入門
Chapter
11
無母數統計
316
一. 正確概率考驗 319 二. 符號考驗及符號等級考驗 321 三. 魏可遜等級總和考驗 327 四. 克-瓦氏檢定 330 五. 斯皮爾曼等級相關 333 Chapter
12
醫學論文之閱讀
344
一. 流行病學常用之統計量 347 二. 效度與信度 350 三. 偏差、偶然與干擾因子 351 四. 干擾因子的控制 354 五. 流行病學研究設計 355 六. 醫學論文之組成及其閱讀要領 Chapter
13
生命統計學
366
一. 生命統計量運用之注意事項 二. 死亡率 370 三. 生育率 372 四. 自然增加率與人口年齡結構 Chapter
14
359
電腦統計軟體的運用
369
374
380
一. 利用電腦分析資料的步驟 383 二. 利用 STATA 進行統計運算 386 三. 使用 SAS 進行統計運算 395 四. 使用 SPSS 進行統計運算 399 五. 結論 420
參考文獻
423
附
424
錄
附表 1 附表 2 附表 3 附表 4 附表 5 附表 6
常用統計公式 索
引
標準常態分布表 標準常態分布表 t 分配表 427 2 428 x 分配表 F 分配表 430 亂數表 442 443
455
425 426
3
Chapter 統計資料的整理
Chapter
3
統計資料的整理
一. 統計資料集中趨勢的測量 二. 統計資料分散性的測量──差異量數 三. Excel 操作範例
70
71 生物統計入門
‧算術平均數(arithmetic average) ‧平均數(mean) ‧幾何平均數(geometric mean) ‧加權平均數(weighted mean) ‧中位數(median) ‧眾數(mode) ‧全距(range) ‧四分位法(quartile) ‧變異數(variance) ‧標準差(standard deviation) ‧平均偏差(mean absolute deviation; MAD) ‧變異係數(coefficient of variance; CV)
72 生物統計入門
在上一章我們運用表格及圖形來整理及表達統計資料(data), 這樣的資料整理方式可以藉視覺上的幫忙,使得我們更能有效率了 解資料的特性。這一章將介紹幾種以數字型態的敘述方式來表示, 甚至分析和推論統計資料。這些以數字型態的測量數(measures)中 最重要的包括: 集中趨勢的測量(measure of central tendency)。 分散性的測量(measure of dispersion)。 如果測量數所測量的統計資料來自樣本(sample),則稱為樣 本統計值(sample statistics);如果測量數所測量的統計資料來自母 群體(population),則稱為母群體參數(population parameters,簡 稱母數)。事實上,學習統計學的重要目的之一便是自樣本來推論 母群體,意即透過樣本統計值來推論母群體參數。 在了解測量數之前,我們需要認識一些希臘文大、小字母的寫 法及用法,因為統計學中的許多符號及公式表達、運算常使用希臘 字母,正如同數學一樣。有關希臘字母的排序、英文名稱,請參見 表 3-1。
3
Chapter 統計資料的整理
表
3-1 希臘字母及英文字母的對照表
希臘字母 英文名稱 (大小寫)
英文字母
希臘字母 英文名稱 (大小寫)
英文字母
Aα
alpha
a
Ν ν
nu
n
Bβ
beta
b
Ξ ξ
xi
x
Γ γ
gamma
g
Ο ο
omicron
o
∆ δ
delta
d
Π π
pi
p
Ε ε
epsilon
e
Ρ ρ
rho
r
Z ζ
zeta
z
Σ σ
sigma
s
Η η
eta
Τ τ
tau
t
theta
Y υ
upsilon
Ι
iota
i
Φ
phi
Κ κ
kappa
k
Χ χ
chi
Λ λ
lambda
l
Ψ
psi
Μ µ
mu
m
Ω ω
omega
u或y
一 統計資料集中趨勢的測量 我們研究一組統計數據時,無論來自樣本或母群體,首先 應該求出其集中趨勢,以了解該組資料的集中狀況,即平均值 (average)。平均值是一種測量數,有許多種類,常見的包括算 術 平 均 數(arithmetic average)、幾 何 平 均 數(geometric mean)、加權平均數(weighted mean)、中位數(median)及眾 數(mode),分述如下:
73
74 生物統計入門
算術平均數(Arithmetic Average) 算術平均數簡稱平均數(mean),是測量集中趨勢最常見的 測量數。其定義如下: 假設一組樣本觀測值(observations)為 x1、x2、……xn,則其 樣本平均數(sample mean)如公式 3-1。
公式 3-1 1 1 x = n (x1 + x2 +……+ xn) 或是 x = n Σ xi
也就是將所有觀測值的總和,除以觀測值的個數即是。這個 “Σ”符號唸成“sigma”,是第十八個希臘字母的大寫字形,代 表總和之意。
例題3-1 某一市立醫院洗腎室,某日 7 位洗腎病人之血紅素值如下 (mg/dl):8.3、12.8、6.1、8.5、9.4、7.9、8.6,求這些觀測值 的平均血紅素值? 解答: 1 x = (8.3 + 12.8 + 6.1 + 8.5 + 9.4 + 7.9 + 8.6) 7 = 8.8(mg/dl)
另外,若我們要求出母群體平均數的話,則其母群體平均數 1 (population mean) µ = Σ xi,其中 N 表示母群體所有觀測值的 N 個數。
3
Chapter 統計資料的整理
幾何平均數(Geometric Mean) 幾何平均數是一種常用於具有幾何級數或等比性質的觀測值 集中趨勢之測量數,例如某地區之人口數、某品牌礦泉水生菌數 等,均具有等比級數的傾向,故用幾何平均數當成中心值,較有 代表性。其定義如下: 假設一組樣本觀測值為 x1、x2、……xn,則其樣本幾何平均數 如公式 3-2。
公式 3-2 n
樣本幾何平均數(G)= x1• x2••• xn=n
n i=1
xi
(Π 讀作 pi,為吾人常用圓周率 π = 3.14159……的希臘 大寫字形,代表連乘之意)
例題3-2 已知某地區 1991 年人口數為 5 萬人,2011 年人口數為 15 萬 人,問 2001 年該地區人口數約有多少人? 解答: n
幾何平均數(G)=n
i=1
xi
= 50,000 150,000 86,600(人)
加權平均數(Weighted Mean) 加權(weight)之意義在於某觀測值重要性不同,而分別課 予不同之比重,其定義如下: 假設一組樣本觀測值為 x1、x2、……xn,其加權比例分別為 w1、w2、……wn,則其加權平均數如公式 3-3。
75
76 生物統計入門
公式 3-3 n
wi xi
xw =
i=1 n
wi
i=1
例題3-3 某護理技術學院學生本學期修「流行病學」、「生物統計 學」、「兒科護理」及「精神科護理」共四門科目,其學分數分 別為 1、2、3 及 2 學分,其學期成績分別為 80、88、76 及 82 分, 試問其加權平均數,即學期總平均成績為何? 解答: 學期總平均成績=加權平均數(xw) n
wi xi
=
i=1 n
wi
i=1
80 1 + 88 2 + 76 3 + 82 2 1+2+3+2 = 81 分 =
中位數(Median) 中位數又稱二分位數,常以“Md”表示,作法是先將觀測值 資料由小至大依序排列,若觀測值個數為奇數,則位於排序後觀 測值正中央的數值便是中位數;若為偶數,則取正中央的兩個觀 測值之平均數為中位數。其定義如下:
3
Chapter 統計資料的整理
公式 3-4 若 n 為奇數,則中位數為第
n+1 個觀測值 2
公式 3-5 若 n 為偶數,則中位數為第 第
n 個觀測值與 2
n + 1 個觀測值之平均數 2
例題3-4 試求出例題 3-1 中洗腎病人血紅素值之中位數。 解答: 首先將 7 個觀測值由小到大排列如下: 6.1、7.9、8.3、8.5、8.6、9.4、12.8 由於本例之數據為奇數個,所以中位數取中央值,即 Md = 8.5(mg/dl) 假若另一組觀測值由小至大排序為:8、13、14、16、23、26、 28、33、39、61 共 10 個觀測值,那麼中位數為第 5 與第 6 個觀 測值之平均數,即 23 + 26 49 Md = = = 24.5 2 2
眾數(Mode) 眾數是指統計資料中,出現次數最多的數值稱之,常以 “Mo”表示。眾數可以文字型態表示,是測量數的一個例外。
77
78 生物統計入門
例題3-5 下表為某醫院產房全體護理人員投票表決護理站布置色調之 結果,試求其眾數。 色 調
次數(frequency)
色
調
白 色
2
淡藍色
4
乳黃色
3
草綠色
1
粉紅色
6
總
16
和
次數(frequency)
解答: 此題色調出現次數最多的是粉紅色,因此在這一組數據中, 「眾數」便是「粉紅色」。
算術平均數或平均數、幾何平均數、加權平均數、中位數及 眾數是數據化測量及描述統計資料之集中趨勢最常用到的測量 數,它們具有下列性質: 平均數代表一組統計數據的中心點,而且具有平衡的特性,也 就是說,若將所有數據排放在槓桿上,平均數的所在位置便是 支點(圖 3-1)。
圖
3-1 算術平均數乃是樣本分布平衡的支點
和中位數比較起來,平均數對於極端的觀測值(extreme obser-
3
Chapter 統計資料的整理
vations)較為敏感(圖 3-2)。
圖
3-2 單峰不對稱分布對中位數(median)與 算術平均數(mean)之影響
在單峰且對稱的分布情況,平均數、中位數及眾數相等。 至於我們如何選擇適當測量方法來測其集中趨勢,主要在於 資料的特性(characteristics)和我們欲探求的目標為何。例如: 對門診病患施行醫院醫療服務品質的評估,我們以「很 差」、「差」、「尚可」、「好」、「很好」來決定品質序 位,則中位數最恰當。 若想決定醫院嬰兒室牆壁顏色之好惡,對所有嬰兒父母 做問卷調查,列舉「粉紅色」、「天藍色」、「乳黃色」、 「淡青色」及「橘黃色」等五個類別選項,則眾數最恰當, 眾數對流行及喜好等類別選項之評估最為合適。 而算術平均數是最常用於統計學中集中趨勢的測量,因為適 合代數處理,可以進一步建立許多統計方法及公式。更重要的 是,算術平均數求諸研究變項之利用機率均等,故具有無偏性 (unbiasness),這在後面要談及的推論統計十分重要。
79
80 生物統計入門
二 統計資料分散性的測量──差異量數 算術平均數無法測量群體中各個體的差異程度,即無法測量 差異量數或分散性的測量(measure of dispersion)。了解及測量 統計資料的分散性十分重要,以圖 3-3 為例, 與 之平均數相 等,但明顯地二者資料分布情況殊異。因此在敘述統計資料的數 據化資訊時,差異量數的測量有助於更進一步了解資料的特性。
圖
3-3 平均數相同,差異量數不同的兩群體分布
差異量數的種類,常見的有下列幾種:即全距(range)、四 分位法(quartile)、變異數(variance)、標準差(standard deviation)及變異係數(coefficient of variance; CV),茲分述如下:
全距(Range) 一組統計資料的分散程度最簡單的表示方法就是全距,即這 組資料之最大觀測值和最小觀測值的差稱之。例如某醫院某日出 生新生兒 8 位,體重分別為 2,900 g、3,100 g、3,600 g、3,460 g、 3,050 g、2,870 g、3,680 g、3,810 g,則此組資料全距為最大值
3
Chapter 統計資料的整理
3,810 g 減去最小值 2,870 g,為 940 g。這種資料的差異量數只有 表示統計資料中觀測值的分散程度,但無法考慮每一個觀測值間 變動的情況,所以並非一個良好的變異量數。
公式 3-6 全距=最大值-最小值
四分位法(Quartile) 將統計資料按大小順序排列,然後均分成四等分,則我們可 以得到三個切割點,是為 Q1、Q2、Q3,分別代表第 25、50 和 75 個百分位數,其中 Q2 就是中位數。四分位間距(inter quartile range; IQR)定義成公式 3-7。
公式 3-7 IQR = Q3 - Q1
有些教科書將統計資料中距離 Q3 或 Q1 超過 1.5 IQR 的數據 稱為偏值(outlier)。四分位法並非十分靈敏之差異量數,但優 於全距。
變異數和標準差(Variance & Standard Deviation) 標準差是測定統計資料變異程度(或分散性)最常見測量及 表達的差異量數。標準差的求法如下: 假設一組統計數據之變項有 n 個觀測值,分別為 x1、x 2、…… x1+ x2+……+ xn , xn,其樣本算術平均數 x(唸成 x bar)等於 n 樣本標準差如公式 3-8。
81