Free E-Book ǂ ร ัยยย SPSS คือเหรีย
Written by DataRockie Date: 08 September 2017
CONTENT
1. SPSS คืออัลไล? 2. เปิ ดโปรแกรมมาแล ้ว ทําไงต่อ? 3. สถิตม ิ ก ี แ ีǤ บบ แบบไหนทีต Ǥ อบโจทย์วจิ ัยของเรา 4. Descriptive Statistics a. หาค่าเฉลีย Ǥ สว่ นเบีย Ǥ งเบนมาตรฐาน i.
Gaussian distribution คืออัลไล?
b. หาความถีǤ และร ้อยละ (%) c. ลองทํา crosstabs ง่ายๆ ้ Excel ยังไง? 5. Save Output ไปใชใน ่ ตัวอย่าง? 6. ทําไมต ้องสุม 7. Signi�cance test เหีย ǣ ไรเนีย Ǥ ยยย 8. Type I Type II เหีย ǣ ไรเนีย Ǥ ยยย 9. Inferential Statistics a. ลองทํา Independent T-Test b. ลองทํา Paired T-Test c. ลองทํา One-Way ANOVA d. ลองทํา Chi-Square Test of Association e. ลองทํา Pearson Correlation f. ลองทํา Linear Regression g. ลองทํา Logistic Regression 10.เอาไงต่อกับชวี ต ิ ดี?
1
บททีǤ 1 - SPSS คืออ ัลไล?
ถ ้าหากคุณต ้องทํางานเกีย Ǥ วกับสถิต ิ วิเคราะห์แบบสอบถาม (โดยเฉพาะพวกงาน market ืǤ ว่าหลายตนต ้องเคยได ้ยิน SPSS มาก่อนแน่ๆ research) เชอ SPSS ย่อมาจาก Statistics Packages for the Social Sciences เริม Ǥ แรกถูกพัฒนาโดยบริษัท ืǤ ว่า SPSS inc. โดยเวอร์ชน ัǤ แรกออกมาตังǣ แต่ปี 1968 พอมาถึงปี 2009 ถูกซอ ืǣ และพัฒนาต่อ ชอ ืǤ เต็มคือ IBM SPSS Statistics โปรแกรมสถิตท ้ โดย IBM ชอ ิ ม ีǤ ค ี นใชเยอะมากอั นดับต ้นๆของ โลก โดยเฉพาะพวกบริษัทวิจัยตลาด ไม่วา่ จะเป็ น Nielsen, Ipsos, TNS, GFK หรือ local agency ทัวǤ ไป ้ ล่าสุดเดินทางมาถึง version 25 แล ้ววววว SPSS เป็ นโปรแกรมทีใǤ ชงานง่ ายระดับนึง เพราะเป็ น หน ้าตาแบบ GUI (คือเป็ นโปรแกรมแบบกดคลิǢ กทัวǤ ไปเลย) เด๋วนีส ǣ ามารถตีบวกโปรแกรมด ้วย การ integrate R/Python code เพือ Ǥ เพิม Ǥ ความสามารถได ้ด ้วย 2
ัǤ ใหม่ได ้ทีǤ youtube นีเǣ ลยฮะ ดูวด ี โี อแนะนํ า SPSS เวอร์ชน https://www.youtube.com/watch?v=LMhcmuozM7U
ัǤ ด ้วย สําหรับ freelance researchers ทัวǤ ไป สามารถสมัครใชแบบราย ้ SPSS มีอยูห ่ ลายเวอร์ชน ี หายเริม เดือนได ้ ค่าเสย Ǥ ต ้นเดือนละประมาณ $99 USD หรือประมาณ 3500 บาท ได ้ตัว Base พืน ǣ ฐานมาใช ้ แต่ทม ีǤ ป ี ระโยชน์มากๆคือ custom tables ต ้องจ่ายเงินเพิม Ǥ อีก +$79 USD (แพง เหีย ǣ ๆ) ดูข ้อมูลเพิม Ǥ เติมทีǤ https://www.ibm.com/products/spss-statistics/pricing ข้อดีของ SPSS ้ ● ใชงานค่ อนข ้างง่าย เพราะไม่ต ้องเขียน syntax ต่างๆด ้วยตัวเอง (เหมาะสําหรับผู ้เริม Ǥ เรียนสถิตใิ หม่ๆ ถ ้าเก่งแล ้วอาจขยับไปเป็ น stata หรือ R แทน) ● functions พืน ǣ ฐานถือว่าครบครัน รันผลสถิตเิ บือ ǣ งต ้นได ้ทุกแบบ ้ า ● สงิǤ ทีด Ǥ ท ี ส ีǤ ด ุ ของ SPSS ทีโǤ ปรแกรมอืน Ǥ ยังทําได ้ไม่ดเี ท่าคือ custom tables ทีใǤ ชทํ ิ ธิภาพมากๆ (เหมาะกับงาน market research สุดๆ) report ได ้รวดเร็วและมีประสท ข้อจําก ัดของ SPSS ● ราคาค่อนข ้างแพง ในตลาดมี options ให ้เลือกเยอะมาก แบบ open-source ทีห Ǥ น ้าตา ืǤ ว่า PSPP ดาวน์โหลดใชฟรี ้ ตลอดชวี ต เหมือน SPSS ก็ม ี ชอ ิ ได ้ทีลิ Ǥ งǣ นีเลย ǣ
3
● GUI ไม่ยด ื หยุน ่ เท่ากับเขียนโปรแกรมเองใน R ถึงแม ้ว่าชว่ งหลังๆมานี Ǥ R/Python จะบูมขึน ǣ มามากในเมืองไทย สําหรับงาน data science แต่ SPSS ยังเป็ นเบอร์หนึงǤ ทีม Ǥ หาวิทยาลัยในเมืองไทยใชกั้ นโดยเฉพาะเด็กๆทีเǤ รียนสาย business/ economics/ marketing/ social science ฯลฯ มี skill SPSS ติดตัวไว ้ เป็ นประโยชน์กบ ั การสมัครงานแน่นอน ถ ้ามาทํางานสาย market research เงินเดือน start 25-35K สบายๆสําหรับเด็กจบปริญญาตรี ่ นต ัว แอดเริม ประสบการณ์สว Ǥ ทํา market research ตอนปลายปี 2012 ก็ start 35K+ ตอน จบโทใหม่ๆ มีน ้องคนนึงในออฟฟิ ซเพิงǤ จบตรีจากธรรมศาสตร์ start มากกว่าอีก (เฮย้ เด๋วๆๆ เรียกเงินเดือนผิด ชวี ต ิ เปลีย Ǥ น ถถถ+ #เศร ้าแป๊ ป) พร ้อมแล ้วก็มาลุยกันเลยครัชชช Let the journey begin!! ้ 14 วันได ้ทีล โหลด IBM SPSS Statistics ลองใชฟรี Ǥ งิǣ นีเǣ ลย https://goo.gl/j74Yt1 ้ ตลอดชวี ต หรือถ ้าใครอยากใช ้ PSPP โปรแกรมทีǤ copy SPSS มาทังǣ ดุ ้น 55555+ ใชฟรี ิ ก็โหลด ได ้จากลิงǣ นีเǣ ลยครับ https://goo.gl/rdGRRx ้ ้เหมือนกันเลย แต่ SPSS จะมีฟังชน ัǤ ทีเǤ ยอะกว่าเท่านัน ปล. ทังǣ SPSS และ PSPP ใชได ǣ เอง สําหรับเด็ก ป.ตรี ป.โททัวǤ ไป ใช ้ PSPP ก็พอแล ้วครับ โปรแกรมเล็กมาก เบาเครือ Ǥ ง ทํา ืǤ พีǤ 555+ IS/Thesis สบายๆ เชอ
4
บททีǤ 2 - เปิ ดโปรแกรมมาแล้ว ทําไงต่อ?
้ ั !) เปิ ดโปรแกรมมาแล ้ว ก็อย่างทีเǤ ห็นเลยครับ หน ้าตา SPSS ดูใชงานง่ ายมากๆ (กูประชด สส หน ้าตา plain มากๆ ไม่มอ ี ะไรเลย ืǤ ว่า Data View กับ เหลือบตาไปมองมุมซา้ ยล่าง จะเห็นว่า SPSS มีอยูส ่ องหน ้าต่าง ชอ Variable View 1. Data View ให ้คิดว่ามันเหมือนกับ Excel ธรรมดานีล Ǥ ะ เราสามารถ copy paste ข ้อมูล ่ น ้านีไ จาก Excel มาแปะใสห ǣ ด ้เลย 2. Variable View คือหน ้าต่างทีเǤ ราใชตั้ งǣ ค่าตัวแปรต่างๆของเรา พูดง่ายๆคือ set up ้ ข ้อมูลก่อนทีจ Ǥ ะรันผลอะไรก็ตาม (ปกติเราใชเวลา set up ข ้อมูลประมาณ 20-30% ของ project นัน ǣ ๆเลย) ถ ้า set up ดี รันผลอะไรก็งา่ ย เข ้าใจตรงกันนะ
5
ตอนนีท ǣ ก ุ คนอยูท ่ ห ีǤ น ้า Data View แล ้วลองพิมพ์ข ้อมูลลงไปตามตัวอย่างในรูปด ้านบนครับ หน ้า Data View เหมือนกับ Excel Table ทัวǤ ไปนีแ Ǥ หละ Column คือตัวแปรแต่ละตัว (Variable) สว่ น Row คือผู ้ตอบแบบสอบถามคนทีǤ 1, 2, 3, … n (ภาษาอังกฤษเราเรียกว่า Observation หรือ Record) ในตัวอย่างด ้านบนคือมีผู ้ตอบแบบสอบถาม n=10 คน และมีตวั แปร 3 ตัวได ้แก่ เพศ อายุ รายได ้ ่ งไปในหน ้า Data (Gender, Age, Income) คราวนี ǣ SPSS มันอยากรู ้ว่า ตัวเลขทีเǤ ราพิมพ์ใสล View มันหมายถึงอะไรบ ้าง ?? ่ ยบอกกูดว้ ยคร ับว่า code 1 และ 2 ใน column ถ ้า SPSS พูดได ้ มันจะถามเราว่า “ชว Gender แปลว่าอะไร?” หน ้าทีข Ǥ องเราคือตอบคําถามนีใǣ ห ้ SPSS ด ้วยการตังǣ ค่าตัวแปร/ข ้อมูล ของเราในหน ้าต่าง Variable View (กด CTRL + T เพือ Ǥ สลับหน ้าได ้เลยยย) แล ้วลองตังǣ ค่าตามรูปตัวอย่างด ้านล่างเลยครับ เด๋วเราจะอธิบายให ้ฟั งว่าแต่ละคอลัม Ǥ ในหน ้าต่าง Variable View คืออะไร และอันไหนทีเǤ ราจําเป็ นต ้อง set up บ ้าง
6
มันมีทงั ǣ หมด 11 columns ในหน ้าต่าง Variable View แต่เราไม่จําเป็ นต ้องตังǣ ค่ามันทังǣ หมด ก็ได ้ ทีส Ǥ ําคัญจริงๆมีอยูไ่ ม่กค ีǤ อลัม Ǥ เอง (คอลัม Ǥ ไหน วงเล็บว่า Optional ข ้ามไปได ้เลย ไม่ต ้องตังǣ ค่าก็ได ้ครับ) ืǤ ตัวแปรของเรา ตังǣ ให ้สน ั ǣ ๆเข ้าไว ้ และเป็ นภาษาอังกฤษจะดีมาก (SPSS มัน 1. Name ตังǣ ชอ ืǤ ใน column Name ด ้วยภาษาไทย) ถ ้าอยากตังǣ ชอ ืǤ ยาวๆให ้ไปตังǣ ใน งงถ ้าเราตังǣ ชอ column Label แทน 2. Type ถ ้าเอาเม ้าสไ์ ปคลิǢ กทีค Ǥ อลัม Ǥ นีจ ǣ ะเห็นว่าสามารถเปลีย Ǥ น data type ใน SPSS ได ้ ้ Numeric สําหรับตัวเลข (โค ้ดต่างๆ เหมือนทีเǤ ราใสไ่ ปใน หลายแบบเลย หลักๆเราใชแค่ ่ ชอ ืǤ หน ้าต่าง Data View เมือ Ǥ ตะกี)ǣ กับ String สําหรับข ้อความหรือ text ทัวไป ǤǤ เชน ืǤ บริษัท เป็ นต ้น ลูกค ้า ชอ 3. Width (Optional) ใชกั้ บตัวแปรทีเǤ รากําหนดเป็ นแบบ String ค่าเริม Ǥ ต ้นจะอยูท ่ ีǤ 6 แปลว่าคอลัม Ǥ นัน ǣ จะเก็บได ้แค่ 6 ตัวอักษร ้ บจํานวนทศนิยมของค่าสถิตท 4. Decimals (Optional) ใชปรั ิ เีǤ รารันออกมา ค่าเริม Ǥ ต ้นอยู่ ่ เวลารันค่าเฉลีย ทีǤ 2 เชน Ǥ จะได ้ออกมา 4.23 4.56 เป็ นต ้น ืǤ ยาวๆได ้เลย ภาษาไทยก็ได ้ เอาทีส 5. Label ตังǣ ชอ Ǥ บายใจเลยแจ ้ 6. Values คอลัม Ǥ นีส ǣ ําคัญมาก เอาไว ้บอก SPSS ว่าโค ้ดทีเǤ ราพิมพ์ลงไปในหน ้า Data ่ 1, 2 ในคอลัม ่ 1=ผู ้ชาย 2=ผู ้หญิง เป็ นต ้น คอ View เชน Ǥ Gender หมายถึงอะไร? เชน ั พันธ์กบ ลัม Ǥ Values มีความสม ั คอลัม Ǥ Measure ด ้วย เพราะเราจะตังǣ ค่า Label เฉพาะ ตัวแปรทีเǤ ป็ นแบบ Nominal หรือ Ordinal เท่านัน ǣ ้ 7. Missing (Optional) ไว ้ใชเวลาข ้อมูลเรามีพวก missing value หรือค่าทีเǤ ราไม่อยาก ่ โค ้ด 99 ปฏิเสธทีจ เอามาคํานวณ เชน Ǥ ะตอบแบบสอบถามไรงี ǣ 8. Columns (Optional) ใชตั้ งǣ ความกว ้างของ column ในหน ้า Data View
7
่ ให ้อยูท 9. Align (Optional) ใชตั้ งǣ ค่าการแสดงผลในหน ้า Data View เฉยๆเชน ่ างด ้าน ้ ตรงกลาง หรือขวาสุดของแต่ละ column ซาย 10. Measure คอลัม Ǥ นีส ǣ ําคัญมาก ต ้องตังǣ ค่าให ้ถูก ไม่งัน ǣ รันผลสถิตเิ พีย ǣ นแน่ๆ column นีǣ ถ ้าเราเอาเม ้าสไ์ ปคลิกดูจะเห็นว่ามี options ให ้เราเลือก 3 แบบ ตามนี ǣ
● Scale ไม่บรรทัดเหลือง คือตัวแปรเชงิ ปริมาณ จําง่ายๆคือตัวแปรไหนหาค่าเฉลีย Ǥ ่ อายุ สว่ นสูง นํǣ าหนัก เป็ นต ้น ได ้ ให ้ลงเป็ น scale ให ้หมดเลย เชน ่ อุณหภูม ิ ● Ordinal คือตัวแปรเชงิ คุณภาพ ทีเǤ ราสามารถเรียงสูงกลางตําǤ ได ้ เชน ่ (1=Less (1=Cold, 2=Medium, 3=Hot) รายได ้ต่อเดือนทีถ Ǥ ามมาเป็ นชว่ ง เชน than 10,000 THB, 2=10,000-30,000 THB, 3=More than 30,000 THB) ่ เพศ (1=male, 2=female) สญ ั ชาติ ● Nominal คือตัวแปรเชงิ คุณภาพ เชน ืǣ ของไหม (1=Buy, 2=Not Buy) (1=Thai, 2=UK, 3=Japan) จะซอ ้ 11. Role (Optional) อันนีไ ǣ ม่ต ้องยุง่ กับมันเลย ไม่ได ้ใชเลยแจ ้ แค่เอาไว ้บอกว่าตัวแปร ไหนเป็ นตัวแปรต ้น ตัวแปรตามในโมเดลเราแค่นัน ǣ เอง ข ้ามคอลัม Ǥ นีไ ǣ ปเลยๆ ่ นต ัว Column Measure แอดว่ามีความสําคัญทีส ความเห็นสว Ǥ ด ุ แล ้วในขัน ǣ ตอนการ set up data ของเรา การแยกตัวแปรให ้ออกว่าตัวแปรไหนเป็ น scale (หาค่าเฉลีย Ǥ ได ้) หรือเป็ นตัวแปร เชงิ คุณภาพ (nominal/ ordinal) เป็ น step แรกของการเรียนสถิตเิ ลย แล ้วพวกคําถาม likert ่ 1=ไม่เห็นด ้วยอย่างยิงǤ และ 5=เห็นด ้วยอย่างยิงǤ ตัวแปร scale 1-5 ทีใǤ ห ้คนเรทคะแนนมา เชน พวกนีจ ǣ ริงๆแล ้วควรลงเป็ น Ordinal ให ้หมดเลย และไม่สามารถนํ าไปหาค่าเฉลีย Ǥ ได ้ด ้วย แต่ ั ๆ market researchers สว่ นใหญ่กท ็ ํากัน แอดก็ไม่เข ้าใจว่าทําไม 555+) #งงสส #สรุปบททีǤ 2 คอลัม Ǥ ทีเǤ ราต ้องตังǣ ค่าก่อนรันผลจริงๆมีแค่ 3 columns เท่านัน ǣ ได ้แก่ Name, Values และก็ Measure นอกนัน ǣ Optional ไม่ต ้องยุง่ กับมันก็ได ้ (ถ ้าไม่จําเป็ น) ดูวด ี โี อสอนของเราเรือ Ǥ ง levels of measurement ได ้ทีน Ǥ เีǤ ลย https://goo.gl/DnKRqG 8
บททีǤ 3 - สถิตม ิ ก ี แ ีǤ บบ แบบไหนทีต Ǥ อบโจทย์วจ ิ ัยของเรา
High Level สถิตม ิ แ ี ค่ 2 แบบหลักๆ คือ descriptive และ inferential มันต่างกันยังไง? Descriptive คือการอธิบายลักษณะต่างๆของกลุม ่ ตัวอย่างทีเǤ ราเก็บมาทัวǤ ไปๆ หลักๆทีใǤ ชกั้ นก็ม ี mean (median, mode), standard deviation, frequency, percentage แค่นัน ǣ เอง สถิต ิ แขนงนีย ǣ งั ไม่มอ ี ะไรเกีย Ǥ วกับการทดสอบสมมติฐานเลย (i.e. ยังไม่ต ้องยุง่ อะไรกับค่า p-value) ่ การอธิบายลักษณะเหตุการณ์ในอดีต เชน ่ เดือนทีǤ Descriptive analysis ทีท Ǥ ํากันบ่อยๆ เชน ืǤ ต ้นทุนลดลง 5 แสน แล ้วยอดขายเพิม Ǥ ขึน ǣ 10 ล ้านบาท ได ้ลูกค ้าใหม่เพิม Ǥ ขึน ǣ 10,200 รายชอ บาท หรือบอกว่า market share เราอยูท ่ ีǤ 30% เพิม Ǥ ขึน ǣ จากเดือนก่อน +2% ก็ได ้ หรือบอกว่า ้ Facebook ในประเทศไทยมีผู ้ใชมากกว่ า 40 ล ้านคน ร ้อยละต่อประชากรมากเป็ นอันดับหนึงǤ ใน ื พิมพ์สว่ นใหญ่กเ็ ป็ นเชงิ descriptive ทังǣ นัน South East Asia ฯลฯ ตัวเลขในข่าว หนังสอ ǣ เลย ั ǣ ๆคือทดสอบสมมติฐาน (hypothesis testing) จะเกีย ่ สว่ น Inferential สน Ǥ วข ้องกับการสุม ตัวอย่าง (sampling) และ p-value ล่ะ เรือ Ǥ งนีค ǣ อ ่ นข ้างยาว เด๋วเรากลับมาต่อกันทีบ Ǥ ททีǤ 6-9 9
บททีǤ 4 - Descriptive Statistics
่ นเบีย หาค่าเฉลีย Ǥ และสว Ǥ งเบนมาตรฐาน สถิตท ิ แ ีǤ ม่งโคตรง่ายทีส Ǥ ด ุ ในสามโลกทีท Ǥ ก ุ คนควรทําได ้คือการหาค่าเฉลีย Ǥ และสว่ นเบีย Ǥ งเบน มาตรฐาน (mean & standard deviation) mean (รวมถึง median, mode) อยูใ่ นหัวข ้อของ descriptive statistics ทีเǤ รียกว่า measures of central tendency ภาษาไทย แปลว่าการวัดค่ากลางของข ้อมูล พูดง่ายๆคือถ ้าเรามีข ้อมูลหนึงǤ ชุด แล ้วเราอยากจะเฉลีย Ǥ มันออกมา หรือหาค่ากลางของข ้อมูลชุด ้ ้เลย (คนสว่ นใหญ่ชอบใชค่้ า mean) นัน ǣ เราสามารถเลือกหยิบ mean, median, mode มาใชได
10
สว่ น standard deviation อยูใ่ นหัวข ้อทีเǤ รียกว่า measures of spread/ variability หรือการวัดการกระจายตัวของข ้อมูล ยิงǤ sd สูงแปลว่าข ้อมูลมีการกระจายตัวมากจากค่าเฉลีย Ǥ ยิงǤ sd ตําǤ แปลว่าข ้อมูลกระจายตัวน ้อยจากค่าเฉลีย Ǥ ดูรป ู ตัวอย่างด ้านล่าง
Source: http://wikipremed.com/image_psych_archive/0503000400000000090.jpg
ี ดงกับสน ี ํǣ าเงิน (นักสถิตเิ รียกว่า distribution) มีคา่ เฉลีย กราฟสแ Ǥ เท่ากันที Ǥ 100 แต่ sd ต่างกัน โดยทีǤ sd ของกราฟแดงเท่ากับ 10 และ sd ของกราฟนํǣ าเงินเท่ากับ 50 ยิงǤ sd สูง distribution จะยิงǤ กว ้างงงงงง เพราะมันกระจายตัวมากกกกก make sense? ่ อุณหภูมข ค่า sd ขึน ǣ อยูก ่ บ ั ธรรมชาติของข ้อมูลทีเǤ ราเก็บมา เชน ิ องประเทศแคนาดา น่าจะมี sd สูงกว่าประเทศไทย เพราะวันนึงอุณหภูมอ ิ าจขึน ǣ ไปสูงถึง 40 องศา และตกลงมาตําǤ กว่าติดลบ ก็ได ้ แต่อณ ุ หภูมใิ นเมืองไทย อาจวิงǤ อยูร่ ะหว่าง 35-40 องศา (ชว่ งแคบ sd ตําǤ ) ฯลฯ อธิบายเพิม Ǥ เติม standard deviation กับ variance จริงๆคือค่าเดียวกัน แต่ unit ไม่เหมือน กัน ถ ้าเราเอาค่า variance มาถอดราก (square root) เราจะได ้ standard deviation ทีม Ǥ ห ี น่วย ่ รายได ้เฉลีย เดียวกับข ้อมูลทีเǤ ราเก็บมา เชน Ǥ ของพนักงานบริษัท A (mean) เท่ากับ 50,000 บาท สว่ นเบีย Ǥ งเบนมาตรฐาน 2,000 บาท (sd) … ทังǣ mean, sd มีหน่วยเป็ นบาทเหมือนกัน 11
กลับมาทีโǤ ปรแกรม SPSS ของเรา สถิตท ิ งั ǣ หมดทีเǤ ราสามารถรันได ้ ถูกรวมอยูใ่ น option ด ้านบน ืǤ ว่า ‘Analyze’ ไว ้หมดแล ้วครับ (รวมหมดเลยทังǣ Descriptive/ Inferential) ไม่ต ้องไป ทีช Ǥ อ มองหาทีอ Ǥ น ืǤ เลย ถ ้าอยากได ้ค่า mean และ sd กดตามในรูปได ้เลย Analyze > Descriptive statistics > Descriptives
อย่าลืมว่าตัวแปรทีเǤ ราจะเอามาหาค่าเฉลีย Ǥ ได ้ต ้องเป็ นแบบ scale #เชงิ ปริมาณเท่านัน ǣ เลือก ตัวแปรอายุ (Age) โยนไปทางด ้านขวา แล ้วกดปุ่ ม OK ได ้เลย ผลจะได ้ออกมาหน ้าตาตามรูป ด ้านบน อ่านค่าตารางตามด ้านล่างเลย ง๊ายง่าย! อายุเฉลีย Ǥ ของกลุม ่ ตัวอย่าง (n=10) คนของเราเท่ากับ 24.5 ปี สว่ นเบีย Ǥ งเบนมาตรฐานเท่ากับ 5.06 ปี (คนทีม Ǥ อ ี ายุมากสุดใน dataset ของเรา เท่ากับ 32 ปี และอายน ้อยสุดเท่ากับ 18 ปี ) ดูวด ี โี อสอนทํา descriptive ใน SPSS ของเราได ้ทีล Ǥ งิǣ นีเǤ ลย https://goo.gl/u2n4Wy
12
Gaussian Distribution คืออ ัลไล?
Source: http://access-excel.tips/wp-content/uploads/2015/05/central_tendency.png
ืǤ ทีห Gaussian distribution หรือชอ Ǥ ลายคนคุ ้นหูคอ ื Normal distribution / Bell-shaped distribution (i.e. ภาษาไทย กราฟทีม Ǥ ันกระจายต ัวปกติ อ่ะเนอะ) ในรูปด ้านบนคือกราฟ อันตรงกลาง ้ ้ ้ สว่ นกราฟทางด ้านซายเรี ยกว่า Left skew หรือเบ ้ซายยยยย (จําว่าหางกราฟยาวไปทางซาย) สว่ นกราฟทางขวาเรียกว่า Right skew หรือเบ ้ขวาาาาาา (จําว่าหางกราฟยาวไปทางขวา) ถ ้า distribution ข ้อมูลของเราเป็ นแบบอันกลาง คือ Normal distribution เมือ Ǥ นัน ǣ เราจะใช ้ mean, median, mode ได ้หมดเลย สามค่านีจ ǣ ะไม่ตา่ งกันเท่าไรในการใชวั้ ดค่ากลางของข ้อมูล แต่ชวี ต ิ จริง (ถามจริงǁ งงง) ว่าเราเจอ Normal distribution บ่อยไหม? ข ้อมูลทีเǤ ราเก็บมา ้ เบ ้ขวาทังǣ นัน สว่ นใหญ่เบ ้ซาย ǣ เลย แปลว่าการใชค่้ าเฉลีย Ǥ มาสรุปผล skewed distribution เป็ น ่ ารวัดค่า อะไรทีผ Ǥ ด ิ มาก (แต่คนแม่งใชกั้ นอย่างเยอะ) ดูในรูปด ้านบนก็เห็นแล ้วว่า mean ไม่ใชก กลางทีด Ǥ แ ี ล ้ว! ก่อนจะใชค่้ า mean (และ sd) เราต ้องดูกอ ่ นว่าข ้อมูลเรากระจายตัวเป็ นยังไง ง่ายทีส Ǥ ด ุ คือ plot กราฟดูเลย ถ ้ามันค่อนข ้างกระจายตัวปกติ ไม่มป ี ั ญหาทีจ Ǥ ะใช ้ mean, sd แต่ถ ้า distribution มันเบ ้ไปทางใดทางนึง ให ้เราเปลีย Ǥ นไปใชค่้ า median แทน นักสถิตเิ รียกค่า median ว่า ‘Robust Statistics” (i.e. robust แปลว่า แข็งแรง = ทนต่อ outliers, extreme values) อ่านเพิม Ǥ เติมเรือ Ǥ ง Gaussian distribution ได ้ทีǤ wikipedia นีเǣ ลย https://goo.gl/BamLTf ดูวด ี โี อสอนทํา normality test ใน SPSS ของเราได ้ทีล Ǥ งิǣ นีเǤ ลย https://goo.gl/cN2h5X
13
หาความถีǤ และร้อยละ (frequency & percentage)
ถัดจาก mean, sd สถิตอ ิ ก ี สองตัวทีเǤ ราใชกั้ นเยอะมากๆเหมือนกันคือ frequency, percentage ่ ผู ้ตอบแบบสอบถามเป็ นผู ้ชายกีǤ ง่ายๆคือแค่นับความถี Ǥ แล ้วเปลีย Ǥ นมันเป็ น % ธรรมดาเลย เชน คน (คิดเป็ นกีǤ %) ผู ้หญิงกีค Ǥ น (คิดเป็ นกีǤ %) ฯลฯ Analyze > Descriptive Statistics > Frequencies
สว่ นใหญ่เราใชคํ้ าสงัǤ Frequencies กับตัวแปรทีเǤ ป็ นแบบ nominal/ ordinal เท่านัน ǣ (ความคิด เห็นสว่ นตัว แอดคิดว่ามันไม่เหมาะไปใชกั้ บพวก scale เท่าไร) เราสามารถกดปุ่ ม options ทาง ่ ปุ่ ม Statistics แล ้วเลือกค่าสถิตท ด ้านขวามือได ้ เชน ิ เีǤ ราต ้องการ หรือปุ่ ม Charts เพือ Ǥ ให ้ ่ bar chart (%) จะได ้ output ออกมาเหมือน SPSS มันสร ้าง chart ให ้เราก็ได ้เหมือนกัน เชน รูปด ้านล่างเลย
14
อ่านค่าง่ายๆ เราเก็บผู ้ชายมา 4 คน คิดเป็ น 40% และผู ้หญิง 6 คน คิดเป็ น 60% ดูวด ี โี อสอนทํา frequency ใน SPSS ของเราได ้ทีล Ǥ งิǣ นีเǣ ลย https://goo.gl/UF593h
ลองทํา crosstabs ง่ายๆ
มาถึง Crosstabs อันนีแ ǣ อดชอบมากกกกกกก market research เราใช ้ Crosstabs โคตรเยอะ ่ เอาตัวแปรเพศ มันคือการเอาตัวแปรสองตัวมา Cross กันง่ายๆ (แต่แม่งโคตรได ้ insights) เชน มาครอสกับรายได ้ต่อเดือนก็ได ้เหมือนกัน i.e. ตัวนึงเป็ น column อีกตัวเป็ น row แค่นีǣ เสร็จ! อธิบาย Crosstabs เกิดจากการผสมคํา ระหว่าง Cross + Table = Crosstabs ดูตวั อย่าง อันหลากหลายของ crosstabs ได ้ทีล Ǥ งิǣ นีเǣ ลย https://goo.gl/fH3MTp
15
Analyze > Descriptive Statistics > Crosstabs ้ นตัวแปรเชงิ คุณภาพทังǣ สองตัว (nominal หรือ ordinal Crosstabs ในระดับเบือ ǣ งต ้นควรใชเป็ อะไรก็ได ้) เอามาครอสกัน ในตัวอย่างด ้านบนเราเอาตัวแปรเพศเป็ น column แล ้วเอารายได ้ต่อ เดือนเป็ น row กด OK รันผลออกมา จะได ้ออกมาเป็ นตารางความถีแ Ǥ บบ 3x2 3 rows x 2 columns อ่านค่าง่ายๆ กลุม ่ ตัวอย่าง 10 คน ประกอบด ้วยผู ้ชาย 4 ผู ้หญิง 6 และในกลุม ่ ผู ้ตอบ แบบสอบถามผู ้หญิง มีอยู่ 3/6 คนทีม Ǥ รี ายได ้ระหว่าง 30,000 - 50,000 บาทต่อเดือน สว่ นผู ้ชาย มีแค่ 1/4 คนทีม Ǥ รี ายได ้เกิน 30,000 บาท ่ จากการทํา survey ของเราพบว่ามีผู ้หญิง 3/6 เราเปลีย Ǥ นความถีǤ เป็ นร ้อยละ (%) ได ้ง่ายๆ เชน (50%) ทีม Ǥ รี ายได ้สูงกว่า 30,000 บาท แต่มผ ี ู ้ชายเพียง 1/4 (25%) ทีม Ǥ รี ายได ้สูงกว่า 30,000 บาทขึน ǣ ไป ฯลฯ #ง่ายอะไรเบอร์น ีǣ ดูวด ี โี อสอนทํา crosstabs part I ใน SPSS ของเราได ้ทีล Ǥ งิǣ นีเǣ ลย https://goo.gl/55qYUu เด๋วเราจะกลับมาเจอกับ crosstabs แบบเต็มๆในบททีǤ 9 นะครัช มันยังทําอะไรได ้อีกเยอะเลย
16
บททีǤ 5 - Save Output ไปใชใ้ น Excel ย ังไง
พอเรากดรันผลเสร็จปุ๊ป SPSS จะสร ้างหน ้าต่าง output ขึน ǣ มาให ้เราใหม่ เราสามารถ save �le นัน ǣ เก็บไว ้ก็ได ้ หรือจะเอาเม ้าสไ์ ปคลิกขวาทีต Ǥ าราง output ทีเǤ ราอยากได ้ แล ้วกด copy เพือ Ǥ นํ า ไปแปะใส่ Excel หรือรายงาน IS/Thesis ของเราสง่ งานอาจารย์ตอ ่ ไปก็ได ้ ง๊ายง่าย #อีกแล ้ว
17
่ ต ัวอย่าง? บททีǤ 6 - ทําไมต้องสุม
่ ตัวอย่างมากๆ (sampling) เรียกได ้ว่านักสถิตห สถิตเิ ป็ นวิชาทีพ Ǥ งึǤ พาการสุม ิ ายใจเข ้าออกเป็ น คําว่า sam (เข ้า) - pling (ออก) เลยก็วา่ ได ้ 55555555+ #ขําแห ้ง ่ ตัวอย่าง มันโคตรตรงไปตรงมา เพราะว่าเราไม่สามารถเข ้าถึงประชากรทีเǤ รา สาเหตุทเีǤ ราต ้องสุม ่ เลือกกลุม ึ ษา สนใจทังǣ หมดได ้ (population) เราเลยต ้องสุม ่ ตัวอย่าง (sample) ขึน ǣ มาศก ่ อย่างถูกวิธ ี (ในทางสถิตวิ ธิ ท โดยถ ้าเราสุม ี ด ีǤ ท ี ส ีǤ ด ุ คือ random sampling) → sample ทีเǤ รา ่ ขึน สุม ǣ มาจะสามารถเป็ นตัวแทนของประชากรได ้ดีในระดับนึงเลย (representative) ่ ตัวอย่างต ้องสุม ่ แบบ random เพือ #สรุป เวลาสุม Ǥ ให ้ sample represents population ่ ตัวอย่างแบบไม่ random เราไม่สามารถรันผลสถิตอ ในทางทฤษฏี ถ ้าสุม ิ ะไรต่อได ้เลย (แม ้แต่
ค่า mean, sd ธรรมดาก็ไม่ได ้) เพราะ sample เรา bias ตังǣ แต่แรกแล ้ว รันไปผลก็เพีย ǣ นอ่ะเนอะ
18
อธิบายเพิม Ǥ เติม sampling ในทางสถิตจิ ะแบ่งออกเป็ น 2 แบบหลักๆ ได ้แก่ ่ แบบใชความน่ ้ ● Probability sampling สุม าจะเป็ น (the best) ่ แบบไม่ใชความน่ ้ ● Non-probability sampling สุม าจะเป็ น (the worst) ่ ทีเǤ ราแนะนํ าให ้ใช ้ มันเริม Probability sampling เป็ นวิธก ี ารสุม Ǥ มาจาก simple random ่ ออก sampling (ดีทส ีǤ ด ุ ในทางทฤษฏี) คือกลุม ่ ประชากรทีเǤ ราสนใจทุกคนมีโอกาสในการถูกสุม มาทํา survey เท่ากันหมดเลย i.e. equal chance of being selected for a survey แต่โลก ่ ความจริงมันทําได ้ยาก นักสถิตเิ ลยคิดรูปแบบต่างๆของ random sampling ขึน ǣ มา เชน ืǤ จะ strati�ed random sampling, cluster sampling, multi-stage sampling เป็ นต ้น ถึงชอ ่ แบบแรนดอม ต่าง แต่ทงั ǣ หมดมี undelying method ทีเǤ หมือนกันคือสุม ่ ทีน อธิบายภาษาคน random คือการสุม Ǥ ักวิจัย
ไม่สามารถเลือกผูต้ อบแบบสอบถามได้เอง แต่
่ ใช ้ Excel ใน computer ต ้องมี mechanic ทีส Ǥ ร ้างขึน ǣ มาเพือ Ǥ เลือกกลุม ่ ตัวอย่างให ้เรา เชน ้ ดหน ้าเหลืองสมัยก่อน แรนดอมเบอร์โทร ฯลฯ randomly select sample หรือใชสมุ ่ แบบนี ǣ เราจะได ้ biased sample ทีǤ เราจะไม่พด ู ถึง non-prob sampling เลยเพราะว่าวิธก ี ารสุม ้ ่ การสุม ่ แบบ convenience sampling ทีǤ ไม่สามารถเอามาใชประโยชน์ ตอ ่ ได ้เท่าไร เชน ึ ษาใชกั้ นเยอะๆ หรือ purposive sampling ไรเง ้ นักศก ข้อยกเว้น แต่บางงานก็จําเป็ นต ้องใช ้ non-prob sampling เหมือนกัน #จําใจๆ เพราะ ่ เวลาทํา study เกีย prob-sampling มันไม่เวิคคคคในบางสถานการณ์ เชน Ǥ วกับกลุม ่ target ั การ reference จากคนแรกทีเǤ ราเจอ i.e. snowball population ทีห Ǥ ายากมากๆ อาจต ้องอาศย sampling แต่ผลทีไǤ ด ้ก็ยงั bias เหมือนเดิมนะ เวลาสรุปผลต ้องระวังมากๆ แล ้วกลุม ่ ตัวอย่าง (sample N) ต ้องใหญ่แค่ไหนดี? การกําหนดกลุม ่ ตัวอย่างขึน ǣ อยูก ่ บ ั สองสาม ่ size of population, con�dence level และ margin error อยากรู ้ ปั จจัยหลักๆ เชน ว่าต ้อง survey กีค Ǥ น ลองคํานวณดูได ้จากลิงǣ ของ Qualtrics เลย https://goo.gl/6vwf15 ปล. เวลาเราเรียน ป.ตรี ป.โท อาจารย์เค ้ายอมๆให ้ทํา convenience sampling ไปงัน ǣ แหละ ผลทีไǤ ด ้เอาจริง bias และไม่คอ ่ ยมีประโยชน์เท่าไรเลย #ร ้องห ้ายยย อ่านเรือ Ǥ ง sampling บน wikipedia แบบเต็มๆได ้ทีǤ https://goo.gl/BJJuQ6 ่ ตัวอย่างแบบต่างๆได ้ทีน อ่านเรือ Ǥ ง การสุม Ǥ ีǤ https://goo.gl/ogc2tv
19
ǂ ไรเนีย บททีǤ 7 - Signi�cance Test เหีย Ǥ ยย
ใชรู้ ปกวางให ้ดู soft … คนอ่านบอก soft พร่องงงง ถถถ+ Signi�cance test ในทางสถิต ิ จะว่าง่ายก็งา่ ย จะว่ายากก็ยาก เปลือกนอกดูเหมือนง่าย แต่ ั อ ้ นเลย !! ความจริง แม่งโคตรซบซ ● ตังǣ แต่ R.A.Fisher คิดค่า p-value ขึน ǣ มาในปี 1925 ● แล ้ว Neyman and Pearson คิดระบบ Ho Ha + critical region ชว่ งปี 1930s รวมถึง con�dence interval ในปี ใกล ้ๆกัน ● วิชาสถิตก ิ ย ็ ากขึน ǣ มาตังǣ แต่วน ั นัน ǣ เลยครัช แหม่ 555555555+ ื เราวันนีจ หนังสอ ǣ ะอธิบายเรือ Ǥ งนีใǣ ห ้ฟั งแบบ high-level เราจะแตะเรือ Ǥ ง technical ให ้น ้อย แต่ ั ญาว่าจะเข ้าใจมากขึน เน ้นความเข ้าใจแทน หายใจลึกๆ แล ้วอ่านต่อได ้เลย (อ่านจบ สญ ǣ แน่นอน) 20
ํ ค ัญทางสถิตด ทําไมเราต้องทดสอบน ัยสา ิ ว้ ย (Why Signi�cance Test) ่ ตัวอย่างมาแล ้ว มาลองดูตวั อย่างนีด บททีǤ 6 เราอธิบายเรือ Ǥ งการสุม ǣ ้วยกันครับ สมมติเราอยากรู ้ว่าคนไทยนอนเฉลีย Ǥ วันละ 8 ชวัǤ โมงจริงเปล่า? จะให ้ไปถาม 68 ล ้านคนก็ไม่ได ้ ่ ตัวอย่างแบบ random sampling ออกมา 1,000 คน เราเลยเลือกสุม ● 68 ล ้านคน คือ population ● 1,000 คน คือ sample ่ ตัวอย่างออกมาผ่านการสุม ่ แบบ probability sampling (ใช ้ random sampling ● เราสุม ่ ทัวǤ ประเทศ) กระจายสุม ● แปลว่า sample เราน่าจะ represent population ได ้ดีระดับนึง สมมติฐานเรือ Ǥ งค่าเฉลีย Ǥ การนอนวันละ 8 ชวัǤ โมง เขียนได ้แบบนี ǣ Ho: คนไทยนอนเฉลีย Ǥ วันละ 8 ชวัǤ โมง (เป๊ ะ) Ha: คนไทยนอนเฉลีย Ǥ วันละไม่เท่ากับ 8 ชวัǤ โมง (เป๊ ะ) เราสามารถเขียน Ho Ha แบบนักสถิต ิ ได ้ยังงี ǣ Ho: average Thai sleeping per night = 8.00 hours Ha: average Thai sleeping per night ≠ 8.00 hours เก็บตัวอย่างมา N=1000 คน เราก็มาดูวา่ ค่าเฉลีย Ǥ ของกลุม ่ ตัวอย่างทีเǤ ราเก็บมา มันเอียงไปทาง Ho หรือ Ha มากกว่ากัน [เพิม Ǥ เติม] นักสถิตเิ รียก Ho ว่า null hypothesis สว่ น Ha ถูกเรียก ว่า alternative hypothesis ถ ้าสมมติผลจากการทํา survey ของเรารอบนีพ ǣ บว่า sample mean เท่ากับ 10.25 ชวัǤ โมง → ต่างจาก 8.00 ทีเǤ ราคิดไว ้ตอนแรก 2.25 แต ้ม แบบนีผ ǣ ลสรุปเราเอียงไปทาง Ho หรือ Ha มากกว่ากัน? แล ้วถ ้าสมมติผล survey พบว่า sample mean เท่ากับ 7.98 ต่างจาก 8.00 ทีเǤ ราคิดไว ้ตอน แรก 0.02 แต ้ม แบบนีผ ǣ ลสรุปเราเอียงไปทาง Ho หรือ Ha มากกว่ากัน?
21
และนีค Ǥ อ ื การทดสอบสมมติฐานในทางสถิตแ ิ บบ high level ถ ้าเกิด sample mean ทีเǤ ราเก็บมา ใกล ้กับ 8.00 ทีเǤ ราตังǣ ไว ้ตอนแรกมากๆ เราจะ failed to reject Ho หรือแปลไทยว่า ไม่ ิ หรือ not signi�cant) ั ǣ ๆว่า ไม่ซก สามารถปฏิเสธสมมติฐานหลักได ้ (ภาษานักสถิต ิ พูดสน ี ดงในรูปด ้านบน เหมือนวงกลมสแ แต่ถ ้าเกิด sample mean ของเรามันออกห่างจาก 8.00 ทีเǤ ราตังǣ ไว ้ตอนแรกมาก เราจะ reject ิ หรือ signi�cant) ั ǣ ๆว่า ซก Ho หรือแปลไทยว่า ปฏิเสธสมมติฐานหลัก (ภาษานักสถิต ิ พูดสน ี ้ าอ่ะเนอะ กรณีคอ ื วงกลมสฟ
Ǥ ั ง่ายๆ Introduction to p-value เวอร์ชน แล ้ว p-value อยูต ่ รงไหนในรูปด ้านบน? ก่อนอืน Ǥ ต ้องทําความเข ้าใจนิยามของค่านีก ǣ อ ่ น R.A.Fisher เขียนนิยามของ p-value ไว ้ในปี 1925 ดังนี ǣ p-value = probability ( observed result | null hypothesis is true ) ภาษาคน p-value คือความน่าจะเป็ นทีเǤ ราจะเห็นผลทีอ Ǥ ยูต ่ รงหน ้า ถ ้าเกิด null hypothesis (Ho) เป็ นเรือ Ǥ งจริง #อย่าเพิงǤ ตกใจ ค่อยๆทําความเข ้าใจเรือ Ǥ งนีไ ǣ ปพร ้อมๆกัน ี ดง จะมี p-value สูงกว่า วงกลมสฟ ี ้ า เพราะว่าสแ ี ดงอยูใ่ กล ้กับ ในรูปด ้านบน วงกลมสแ ี า วงกลมสด ํ (null hypothesis) มากกว่า
22
แปลว่ายิงǤ sample mean อยูใ่ กล ้กับ null hypothesis มากเท่าไร (ใกล ้ 8.00) ค่า p-value จะ มีคา่ สูงมาก → โอกาสทีเǤ ราจะเห็น sample mean = 7.98 มีสงู มาก ยิงǤ sample mean อยูใ่ กล ้ null hypothesis ค่า p-value จะยิงǤ ใกล ้ 1.00 ในทางตรงก ันข้าม ยิงǤ sample mean ไปตกไกลจาก null hypothesis มากเท่าไร ค่า p-value จะมีคา่ ลดตําǤ ลงเรือ Ǥ ยๆ → โอกาสทีเǤ ราจะเห็น sample mean = 10.25 จะมีน ้อยมาก ยิงǤ ไกลจาก null ค่า p-value จะยิงǤ ลดตําǤ ลงเข ้าใกล ้ศูนย์ เหมือนในรูปด ้านล่าง
#สรุป อ่านตรงนีเǂ ลยก็ได้ ถ ้าเกิดคนไทยนอนเฉลีย Ǥ วันละ 8 ชวัǤ โมงจริงๆ (null hypothesis is true) ความน่าจะเป็ นทีเǤ รา จะเห็น sample mean เท่ากับ 7.98 ก็จะสูงมาก → p-value สูง แต่ถ ้าเกิดคนไทยนอนเฉลีย Ǥ วันละ 8 ชวัǤ โมงจริงๆ แต่เราได ้ sample mean เท่ากับ 10.25 ความ น่าจะเป็ นทีจ Ǥ ะเห็น mean สูงขนาดนีแ ǣ ทบจะเป็ นไปไม่ได ้เลย (ถ ้าเรายังคิดว่า true mean = ัǤ คลอน 8.00 จริงๆ) กรณีนีǣ p-value จะตําǤ และ null hypothesis ของเราเริม Ǥ สน Fisher เสนอให ้เปรียบเทียบค่า p-value กับ 0.05 โดยเสนอให ้ reject null hypothesis (Ho) ถ ้าเกิด p-value <= 0.05 และสรุปผลว่า signi�cance โดยทีค Ǥ า่ 0.05 ต่อมาถูกเรียกว่าค่า alpha โดย Jerzy Neyman & Egon Pearson ชว่ งปี 1930s และเป็ นกฏทีน Ǥ ักสถิตใิ ชต่้ อเนือ Ǥ ง กันมาเกือบ 100 ปี แล ้วคือ reject Ho when p-value <= alpha 23
ǂ ไรเนีย บททีǤ 8 - Type I Type II เหีย Ǥ ยยย
ยินดีดว้ ยคร้าบบบ ถ ้าทุกคนอ่านจบมาถึงบท 7 เราผ่านจุดทีǤ ยากสุดของโลกสถิตม ิ าแล ้วฮะ p-value มันยากกกก น ้อยคนจะ เข ้าใจมันจริง ตะกีย ǣ งั เป็ นแค่เรือ Ǥ งราวสว่ นนึงของมันเอง (ยังมีให ้ งงกว่านีอ ǣ ก ี เยอะ แต่เราจะไม่ไปแตะตรงนัน ǣ แล ้ว วางใจได ้ 5555+) ให ้พักหายใจ หายคอแป๊ ปนึง แล ้วเด๋วเรามาต่อกับ Type I และ Type II errors
24
Source: http://access-excel.tips/wp-content/uploads/2015/05/central_tendency.png
รูปนีรǣ ป ู เดียวตอบเรือ Ǥ ง Type I & Type II errors ได ้เฉียบบบบบเลย เวลาเราสรุปผลทางสถิต ิ มี โอกาสทีเǤ ราจะสรุปผลผิดอยูส ่ องแบบ คือ Type I และ Type II นีเǤ องฮะ นิยามตามด ้านล่างเลย ้ ● Type I error คือรูปซายบน หมอบอกผู ้ชายว่าท ้อง (หืมมม) ●
Type II error คือรูปขวาบน หมอบอกผู ้หญิงว่าไม่ได ้ท ้อง (เย ้ยยยยยยยย)
สรุปง่ายคือ Type I error เราไป reject Ho ทังǣ ทีเǤ ราไม่ควร reject (บอกผู ้ชายว่าท ้อง ทังǣ ๆทีม Ǥ น ั ท ้องไม่ได ้) … สว่ น Type II error คือเรา failed to reject Ho ทังǣ ๆทีเǤ ราควรจะ reject (บอกผู ้ ั ขนาดนัน หญิงว่าไม่ได ้ท ้อง ทังǣ ทีม Ǥ น ั ท ้องชด ǣ ) ํ ค ัญก ับ Type I error มากกว่า เราพยายามจะ reject Ho ่ นใหญ่น ักสถิตจ สว ิ ะให้ความสา ิ อย่างถูกต ้องให ้มาก) และพยายามไม่ปฏิเสธ Ho แบบโง่ๆ ให ้ถูกมากทีส Ǥ ด ุ (สรุปผลซก ่ ตัวอย่างบางสว่ นออกมาจาก อธิบาย ทําไมถึงมี errors เกิดขึน ǣ แบบนี?ǣ ตอบ เพราะเราสุม ่ สุม ่ ออกมา 1,000 คน จากคนไทย 68 ล ้านคน เลยมีโอกาสสรุปผลผิด เพราะ population เชน เราไม่รู ้ว่าความจริงคืออะไร เราเองก็ไม่รู ้ว่าจริงๆแล ้วคนไทยนอนเฉลีย Ǥ 8 ชวัǤ โมงจริงเปล่า? 25
บททีǤ 9 - Inferential Statistics
บท 6-8 ทีเǤ ราเรียนกันไปตะกี ǣ เป็ นพืน ǣ ฐานสําคัญของ inferential statistics เลยครับ เพราะการ สรุปผลจาก sample กลับไปหา population ทังǣ หมดเรียกว่าการทํา inference (เลยกลายเป็ น inferential statistics) ่ ตัวอย่าง (sampling) เข ้าใจการทดสอบสมมติฐาน (signi�cance test) และเข ้าใจ เข ้าใจการสุม เรือ Ǥ ง possible errors (type I & II) จะทําให ้เราเข ้าใจและเก่งสถิตข ิ น ึǣ แบบก ้าวกระโดดเลย สถิตไิ ม่มอ ี ะไรแน่นอนเลย (สถิตเิ ป็ นพีน Ǥ ้องกับเรือ Ǥ งความน่าจะเป็ น) ผลทีเǤ ราเก็บได ้จาก survey นีǣ ่ ตัวอย่างใหม่ อย่ายึดติดกับตัวเลข แต่มองหา pattern/ อาจจะเปลีย Ǥ นไปเรือ Ǥ ยๆถ ้าเกิดเราสุม insights ในสงิǤ ทีเǤ ราได ้รับกลับมาจากผู ้ตอบแบบสอบถามหลายร ้อยคนทีเǤ ราเก็บมาดีกว่า บทที Ǥ 9 จะนํ าเสนอ inferential statistics ตัวพืน ǣ ฐานสําคัญทีเǤ ราใชกั้ นบ่อยในงานวิจัย IS/ Thesis รวมถึง market research study ทังǣ หลายแหล่ อ่านบทความเรือ Ǥ งการตังǣ สมมติฐานได ้ทีǤ Facebook page เราเลย https://goo.gl/FmteXu
26
Inferential statistics แบ่งได้เป็น 3 สาขาหล ักๆคือ 1. Comparative เปรียบเทียบ ้ กๆ ได ้แก่ t-test และ one-way ANOVA a. สถิตท ิ ใีǤ ชหลั ั พันธ์ 2. Associative หาความสม ้ กๆ ได่แก่ correlation และ chi-square test a. สถิตท ิ ใีǤ ชหลั 3. Predictive พยากรณ์ตวั แปรตาม ้ กๆ ได ้แก่ ตระกูล regression ทังǣ หลายแหล่ a. สถิตท ิ ใีǤ ชหลั เวลาเราจะทดสอบสมมติฐาน ก็ขน ึǣ อยูก ่ บ ั ว่าตัวแปรเราเก็บมาบน measurement แบบไหน (scale, ordinal, nominal) และสงิǤ ทีเǤ ราอยากจะทดสอบ อยากจะหาคําตอบคืออะไร? มองหา ้ อกสถิตท keyword ในสมมติฐานของเราเพือ Ǥ ใชเลื ิ เีǤ หมาะสมกับโจทย์ข ้อนัน ǣ ๆ Example 1 - ถ ้าเราอยากจะเปรียบเทียบค่าเฉลีย Ǥ รายได ้ของคนกรุงเทพกับคนต่างจังหวัด ( แบบนีเǣ ข ้าข่าย comparative) ึ ษาในชน ั ǣ เรียนของเราตอนต ้น Example 2 - ถ ้าเราอยากจะเปรียบเทียบคะแนนสอบของนักศก เทอมกับตอนเรียนจบเทอมหลังผ่านไปสามเดือน ว่าสอบได ้คะแนนวิชานัน ǣ ดีขน ึǣ ไหม? (แบบนีก ǣ ็ เข ้าข่าย comparative) ั พันธ์ระหว่างหน ้าตากับสถานะโสด? (แบบนีเǣ ข ้าข่าย Example 3 - อยากหาความสม associative) ืǣ ของเราในเดือนหน ้าบ ้าง? (แบบนีเǣ ข ้าค่าย Example 4 - อยากรู ้ว่าลูกค ้าคนไหนจะกลับมาซอ predictive มองไปในอนาคต) ้ Example 5 - อยากรู ้ว่าปั จจัยอะไรทีส Ǥ ามารถใชพยากรณ์ การเกิดโรคหัวใจอย่างมีนัยสําคัญ ทางสถิตไิ ด ้บ ้าง? (แบบนีก ǣ เ็ ข ้าค่าย predictive) ้ ตไิ ม่ยากเลย รีววิ ให ้ แค่น ีǣ !! ง่ายๆเลย ถ ้ารู ้ว่าเรากําลังจะทดสอบอะไรแบบไหน การเลือกใชสถิ ้ ยบเทียบค่าเฉลีย อ่านแบบเร็วๆ ตระกูล t-test ใชเปรี Ǥ สองกลุม ่ , สว่ น one-way ANOVA ใช ้ ้ ั พันธ์ระหว่างตัวแปร เปรียบเทียบค่าเฉลีย Ǥ มากกว่าสองกลุม ่ ขึน ǣ ไป, correlation ใชหาความส ม ้ ั พันธ์ระหว่างตัวแปรเชงิ คุณภาพสองตัว (ได ้ทังǣ scale สองตัว, chi-square ใชทดสอบความส ม nominal, ordinal), ท ้ายสุดตระกูล regression ใช ้ quantify relationship ระหว่าง x กับ y
27
ลองทํา Independent T-Test
Source: https://www.numberanalytics.com/image/t_test1.png
Independent t-test ใชบ่้ อยมากกกกกกกกกทังǣ ในงาน academic และ business research เลย (เคยเห็นแว่บๆมาว่ามันเป็ นสถิตท ิ ใีǤ ชบ่้ อยทีส Ǥ ด ุ แล ้วในรอบ 100 ปี ทผ ีǤ า่ นมา จํา reference ไม่ ้ ้เป็ นเลย ได ้) ถือว่าเป็ นสถิตข ิ น ั ǣ พืน ǣ ฐานทีท Ǥ ก ุ คนควรใชให เราใช ้ independent t-test ในการเปรียบเทียบค่าเฉลีย Ǥ ของกลุม ่ ตัวอย่างสองกลุม ่ โดยคําว่า ่ นๆเดียวก ัน (หรือเป็ นอิสระต่อกัน) เชน ่ เปรียบ independent แปลว่า สองกลุม ่ ต้องไม่ใชค เทียบค่าเฉลีย Ǥ ยอดขายรถยนต์ mazda vs. benz ใครขายได ้สูงกว่ากันในชว่ ง 10 ปี ทผ ีǤ า่ นมา ึ ษาทดสอบก่อนว่า ฯลฯ ก่อนทีเǤ ราจะใช ้ t-test ได ้ อาจารย์มหาวิทยาลัยสว่ นใหญ่ชอบให ้นักศก ข ้อมูลของทังǣ สองกลุม ่ กระจายตัวปกติหรือเปล่า (ทํา normality test ก่อน) เพราะถ ้าข ้อมูลเป็ น ่ ารวัดค่ากลางทีด แบบ non-normal ค่าเฉลีย Ǥ จะไม่ใชก Ǥ แ ี ละทําให ้ผลการเปรียบเทียบของเรา เพีย ǣ นได ้ แต่ในทางปฏิบต ั จิ ริงๆ มีสถิตห ิ ลายตัวเลยที Ǥ robust ต่อ normality assumption ่ t-test นีแ เชน Ǥ หละ รวมถึง one-way ANOVA และ Regression แปลว่า เราไม่จา ํ เป็นต้องไป ทดสอบว่าข้อมูลกระจายต ัวปกติหรือเปล่าก่อนร ันสถิตพ ิ วกนี ǂ มาถึงรันเลยยยย จบ เย ้ (อ่าน เพิม Ǥ เติมเรือ Ǥ ง non-normal data ได ้ทีǤ minitab blog อันนีǣ https://goo.gl/bS6he3) อ่านบทความเก่าของเราบน Facebook page เราได ้ทีน Ǥ เีǤ ลย https://goo.gl/UGPmAZ ดูวด ี โี อสอนทํา independent t-test ใน SPSS ของเราได ้ทีล Ǥ งิǣ นีǣ https://goo.gl/izsUwi
28
ลองทํา Paired T-Test
Source: https://www.numberanalytics.com/image/t_test1.png
Paired t-test ต่างจาก Independent t-test นิดเดียว ตรงทีก Ǥ ลุม ่ ตัวอย่างทังǣ สองกลุม ่ ในกรณี ่ งเวลา เชน ่ อาจารย์อาจจะทํา pre-test สอบ จะเป็ น คนๆเดียวก ันแต่ทา ํ การทดลองสองชว เด็กนักเรียนในห ้องก่อน พอสอนเสร็จค่อยทํา post-test อีกรอบ แล ้วเอาคะแนนสอบ pre/post มาเปรียบเทียบกัน i.e. compare means อีกตัวอย่างทีเǤ ห็นบ่อยในงาน medical คือคุณหมอนัดคนไข ้มาตรวจร่างกาย ให ้ยากิน แล ้วอีก ั ดาห์นงึ นัดมาตรวจร่างกายอีกทีเพือ สป Ǥ ดูวา่ ยาได ้ผลไหม i.e. เปรียบเทียบค่าเฉลีย Ǥ ความดัน อัตราการเต ้นหัวใจ หรือค่าสถิตอ ิ น ืǤ ๆในร่างกายของเรา ก่อนและหลังรับยา Analyze > Compare Means > Paired Samples T-Test เสร็จแล ้วเลือกตัวแปร pre score ลงไปที Ǥ variable 1 และ post score ลงไปที Ǥ variable 2 แล ้วกด OK รันผลได ้เลย เวลาอ่านผลให ้ดูคา่ p-value เหมือนเดิม (ใน SPSS ค่า p-value จะ อยูใ่ นคอลัม Ǥ sig. 2-tailed) ถ ้าน ้อยกว่า 0.05 หรือ alpha ทีเǤ ราตังǣ ไว ้ เราสามารถ reject Ho และ สรุปผล signi�cance ได ้เลย i.e. ค่าเฉลีย Ǥ pre vs. post แตกต่างกันอย่างมีนัยสําคัญทางสถิต ิ ทีรǤ ะดับ alpha นัน ǣ ๆ อ่านบทความเก่าของเราบน Facebook page เราได ้ทีน Ǥ เีǤ ลย https://goo.gl/6xGJpo ดูวด ี โี อสอนทํา paired t-test ใน SPSS ของเราได ้ทีล Ǥ งิǣ นีǣ https://goo.gl/5QxCbw
29
ลองทํา One-Way ANOVA
Source: http://spsswizard.com/wp-content/uploads/2016/11/ANOVA-one-way.png
เราใช ้ one-way ANOVA สําหรับเปรียบเทียบค่าเฉลีย Ǥ มากกว่าสองกลุม ่ ขึน ǣ ไป และทุกกลุม ่ ต ้อง เป็ นอิสระต่อกัน เราสามารถใช ้ one-way ANOVA ในการรันผลแทนทีǤ independent t-test ได ้เลยเพราะว่ามันได ้ผลเหมือนกัน (same assumptions lead to same result) Ho: ทดสอบ mean ของทุกกลุม ่ พร ้อมกันเลยว่าเท่ากันหรือเปล่า? ถ ้า F statistics ในตาราง ANOVA มีนัยสําคัญทางสถิต ิ (p-value <= alpha) เราต ้องทํา Post-hoc analysis ต่ออีก ขัน ǣ ตอนหนึงǤ ซงึǤ เป็ นการทํา multiple comparison จับคูช ่ นทุกกลุม ่ (ภาษาไทยเรียกว่า ั เปรียบเทียบรายคู่ งงสสสส) เพือ Ǥ ดูวา่ กลุม ่ ไหนทีǤ mean แตกต่างกันอย่างมีนัยสําคัญบ ้าง Technical knowledge จริงๆแล ้ว one-way ANOVA กับ Simple linear regression เป็ น analysis ตัวเดียวกันเลย ถ ้าใครเคยรัน linear regression มาก่อนจะเห็นใน SPSS มันให ้ ANOVA table ออกมาด ้วย อ่านเพิม Ǥ เติมเรือ Ǥ งนีไ ǣ ด ้ทีล Ǥ งิǣ นีเǣ ลย https://goo.gl/KJg66c อ่านบทความเก่าของเราบน Facebook page เราได ้ทีน Ǥ เีǤ ลย https://goo.gl/TSTXmh ดูวด ี โี อสอนทํา one-way ANOVA ใน SPSS ของเราได ้ทีล Ǥ งิǣ นีǣ https://goo.gl/p9UCPk
30
ลองทํา Chi-Square Test of Association
Source: http://www.rsquaredacademy.com/descriptr/reference/chi_plot-8.png
Chi-square test of association จะถูก produce เวลาเรารัน crosstabs ทีเǤ ราสอนไปในบท ทีǤ 4 เลย เวลาจะรันไปทีǤ Analyze > Descriptive Statistics > Crosstabs กดเลือกตรง option Statistics แล ้วติǢ กเลือก chi-square ง่ายๆ อย่าลืมว่าตัวแปรทีเǤ ราจะทดสอบ chi-square ต ้องเป็ นเชงิ คุณภาพทังǣ สองตัว (nominal หรือ ordinal) Ho ของสถิตต ิ วั นีเǣ คลมว่า
ตัวแปรสองตัวไม่มคี วามสมั พันธ์กนั ถ ้ารันผลออกมาแล ้วพบว่า
Assymptotic Signi�cance (2-sided) ในตาราง chi-square tests i.e. ค่า p-value มีคา่ น ้อยกว่า 0.05 หรือ alpha ทีเǤ รากําหนดไว ้ เราสามารถ reject Ho สรุปผล signi�cance ได ้เลย อ่านบทความเก่าของเราบน Facebook page เราได ้ทีน Ǥ เีǤ ลย https://goo.gl/CCt4Wz ดูวด ี โี อสอนทํา crosstabs 1 ใน SPSS ของเราได ้ทีล Ǥ งิǣ นีǣ https://goo.gl/CLAeXA
ดูวด ี โี อสอนทํา crosstabs 2 ใน SPSS ของเราได ้ทีล Ǥ งิǣ นีǣ https://goo.gl/rgzYjH ดูวด ี โี อสอนทํา crosstabs 3 ใน SPSS ของเราได ้ทีล Ǥ งิǣ นีǣ https://goo.gl/gk8bLX
31
ลองทํา Pearson Correlation
Source: http://guessthecorrelation.com/images/correlations_examples.png
้ ั พันธ์ระหว่างตัวแปรเชงิ ปริมาณสองตัว (scale ทังǣ คูใ่ น Correlation ใชในการประเมิ นความสม ่ การหาความสม ั พันธ์ระหว่างหุ ้น PTT กับ SET index หรือความสม ั พันธ์ระหว่าง SPSS) เชน ืǣ นํǣ ามัน (price & demand) โดยความสม ั พันธ์ต ้องเป็ นแบบเสนตรง ้ ราคานํǣ ามันกับปริมาณการซอ ด ้วย (linear association) ดังรูปกราฟด ้านบน ั พันธ์ระหว่าง Correlation จะวิงǤ อยูร่ ะหว่าง -1 ถึง +1 เครือ Ǥ งหมาย +/- แค่บอกทิศทางความสม ่ เดียวกัน (เปลีย ตัวแปร ค่าบวกเรียกว่า positively correlated แปลว่า x เพิม Ǥ y เพิม Ǥ เชน Ǥ นแปลง ในทิศทางเดียวกัน) สว่ นค่าติดลบเรียกว่า negatively correlated แปลว่า x เพิม Ǥ y ลด หรือ เปลีย Ǥ นแปลงในทิศทางตรงกันข ้ามกัน ใน SPSS กดไปทีǤ Analyze > Correlate > Bivariate ืǤ คือ coef�cient ทริคเมพๆ ถ ้าเรายกกําลังสองค่า correlation จะได ้ค่า R Square หรืออีกชอ of determination ภาษาคนคือ explained variance ทีแ Ǥ ชร์ระหว่างสองตัวแปร ยิงǤ สูงยิงǤ ดี อ่านบทความเก่าของเราบน Facebook page เราได ้ทีน Ǥ เีǤ ลย https://goo.gl/AQNw8C ดูวด ี โี อสอนทํา correlation ใน SPSS ของเราได ้ทีล Ǥ งิǣ นีǣ https://goo.gl/u3GV9Q
32
ลองทํา Linear Regression
Source: http://access-excel.tips/wp-content/uploads/2015/05/central_tendency.png
ั พันธ์ระหว่างตัวแปรต ้น (independent variable) Linear regression ใช ้ quantify ความสม กับตัวแปรตาม (dependent variable) ปล. ตัวแปรตาม y ต ้องเป็ นเชงิ ปริมาณแบบ scale ใน ้ ตรงได ้เลย ดังนี ǣ SPSS เท่านัน ǣ โดยสมการ linear regression สามารถเขียนแบบสมการเสน y = b0 + b1*x1 + b2*x2 + b3*x3 + … + bk*xk ตัวแปร x ในสมการสามารถมีได ้มากกว่าหนึงǤ ตัว ยิงǤ เราเพิม Ǥ ตัวแปร x ในสมการของเรา sample ื บางเล่มบอกว่าควรมี N อย่างน ้อย 15 ตัวต่อ x หนึงǤ size (N) ก็ควรจะเยอะขึน ǣ เหมือนกัน หนังสอ ่ ถ ้าเรามีตวั แปรต ้น 5 ตัว ควรเก็บตัวอย่างให ้ได ้อย่างน ้อย 15 * 5 = 75 เพือ ตัวในสมการ เชน Ǥ ให ้ ได ้ผลทีǤ robust เพียงพอ ปล. ยิงǤ เยอะยิงǤ ดีอยูแ ่ ล ้ว sample size เก็บมาเยอะๆเลย เวลาจะรันใน SPSS เข ้าไปทีǤ Analyze > Regression > Linear ความแม่นยําของโมเดล linear regression ถ ้าเชงิ relative เราสามารถดู R Square ได ้เลย ยิงǤ เข ้าใกล ้ 1.00 ยิงǤ ดี หรือจะดูแบบ absolute ก็ดไู ด ้ทังǣ RMSE หรือ MSE เลย อ่านบทความเก่า ฉบับเต็มเรือ Ǥ ง correlation & lienar regression ของเราบน Facebook page เราได ้ทีน Ǥ เีǤ ลย https://goo.gl/bHNYtq
33
ลองทํา Logistic Regression
Source: https://qph.ec.quoracdn.net/main-qimg-7c9b7670c90b286160a88cb599d1b733
Logistic regression ใชกั้ บปั ญหาทีǤ data science เรียกว่า classi�cation problem โดยโมเดลพืน ǣ ฐานทีส Ǥ ด ุ ของตระกูลนีǣ เรียกว่า Binary logistic regression (คําว่า binary กล่าว ่ yes/no หรือ buy/ not buy เป็ นต ้น) ถึงตัวแปรตาม y ทีม Ǥ ไี ด ้สองค่า เชน ่ บริษัทบัตรเครดิตสว่ นใหญ่พยายามจะ predict ว่าลูกค ้าบัตรเครดิตคนไหนจะเป็ น ตัวอย่างเชน หนีเǣ น่าบ ้าง (data science เรียก task นีวǣ า่ credit scoring ให ้คะแนนลูกค ้าแต่ละคน ว่าคน ี y=0 คือหนีด ไหนจะเน่า คนไหนจะดีบ ้าง) โดยทีǤ y=1 คือหนีเǣ สย ǣ ี ัǤ หลักในโมเดล logistic กราฟด ้านบน เรียกว่า Sigmoid function (S-curve) เป็ นฟั งชน ี โดยเสนประตรงกลางในกราฟ ้ regression โดยทีแ Ǥ กนตังǣ คือ ความน่าจะเป็ นทีǤ y=1 #หนีเǣ สย เรียกว่า threshold = 0.5 ถ ้าเกิดเรา predict ความน่าจะเป็ นทีน Ǥ าย A จะเป็ นหนีเǣ น่า p=0.89 ( สูงกว่า threshold 0.5 ทีเǤ รากําหนดไว ้ตอนแรก) เราจะ classify นาย A ว่าเป็ นหนีเǣ น่าทันทีเลย อ่านบทความเก่าของเราบน Facebook page เราได ้ทีน Ǥ เีǤ ลย https://goo.gl/rn9yhb
(Logistic regression part I) และ https://goo.gl/LAqazo (Logistic regression part II)
34
บททีǤ 10 - เอาไงต่อก ับชวี ต ิ ดี?
ั พ ักผ่อน จิบเบียร์เย็นๆ ซกแก้ ว อ่านมาจบบททีǤ 10 บอกเลยว่า ทุกคนเก่งมากคร ้าบบบบบบบบ ขัน ǣ ตอนถัดไป คือฝึ กฝนหา data ี ของมัน มาลองรันเล่นดู ยิงǤ รันบ่อย ยิงǤ เก่ง ยิงǤ ใช ้ SPSS มาก ก็ยงิǤ รู ้ข ้อดี ข ้อเสย ื ในตํานานของ Andy Field หาซอ ืǣ ได ้ที Ǥ สําหรับคนทีอ Ǥ ยากเอาดีทางด ้านนีǣ แอดแนะนํ าหนังสอ Amazon หรือลองไปเดินทีǤ Kinokuniya ดูกไ ็ ด ้ (น่าจะมีนะ เคยเห็นแว็บๆ) ถ ้ามัน Ǥ ใจว่าเข ้าใจเนือ ǣ หาทังǣ หมดตังǣ แต่บททีห Ǥ นึงǤ จนถึงบทสุดท ้ายใน e-book เล่มนีǣ ใส่ SPSS ลง ไปใน resume ได ้เลยฮะ career path แบบนักวิจัยตลาดในบริษัทใหญ่ๆ น่าสนใจไม่เบาเลย ( พวก senior research executive เงินเดือน start ถึง 40-50K สบายๆ) ขอบคุณทุกคนทีต Ǥ ด ิ ตามมาจนบทสุดท ้ายครับ แล ้วพบกันใหม่กบ ั e-book เล่มหน ้า CHEERS!
35
ǂ ร ัยยย จบแล ้วววววว SPSS คือเหรีย ่ ด share ให ้เพือ ชอบกด like ใชก Ǥ นได ้อ่านด ้วยนะ! www.facebook.com/datarockie ใครสนใจอยากเรียน basic stats/ data science กด like & see �rst page เราไว ้เพือ Ǥ รับความรู ้สถิตฟ ิ รีๆตลอดชวี ต ิ แล ้วมาเรียนไปพร ้อมๆกันนะฮะ :D
36