สถิติ: ความรู้ฉบับพกพา

Page 1

6

Statistics

คำ�นำ�ผู้แปล

.

เราทุกคนล้วนต้องเกี่ยวข้องกับสถิติ ไม่ว่าจะเป็นสถิติที่ หมายถึงตัววิชาหรือที่หมายถึงตัวเลขข้อมูล สมัยที่ผู้แปลเรียน วิชาสถิติในสถานศึกษา แม้ว่ายุคนั้นมีคอมพิวเตอร์ส่วนบุคคล แพร่หลายแล้ว แต่ซอฟต์แวร์ยังจำ�กัดและราคาแพง การเรียน การสอนวิชาสถิตจิ งึ มีแต่ทฤษฎี สมการ และอสมการมากมายให้ ท่องจำ� ตัวอย่างในตำ�ราก็เป็นเรือ่ งสมมติทปี่ รุงแต่งให้งา่ ยต่อการ คำ�นวณด้วยเครื่องคิดเลข จนกระทั่งผู้แปลได้มีโอกาสทำ�งานที่ เกีย่ วข้องกับงานวิจยั ทีอ่ าศัยกระบวนการทางสถิตอิ ย่างครบถ้วน ตั้งแต่การเลือกเครื่องมือและวิธีเชิงสถิติ การเก็บรวบรวมข้อมูล ภาคสนาม การจัดการข้อมูล ไปจนถึงการวิเคราะห์และสรุปผล จึงได้ตระหนักถึงความสำ�คัญของข้อมูลทีม่ คี ณ ุ ภาพ และเห็นพลัง ของวิชาสถิตใิ นฐานะเครือ่ งมือค้นหาความจริง ทฤษฎีและเนือ้ หา ที่น่าเบื่อสมัยเรียนก็ดูมีความหมายและมีประโยชน์ขึ้นในทันที


A

Very Short Introduction

7

สำ�หรับคนที่ไม่ได้ใช้สถิติเป็นเครื่องมือประกอบอาชีพ การรูจ้ กั แนวคิดและวิธกี ารทางสถิตกิ ม็ ปี ระโยชน์เช่นกัน เพือ่ ให้รู้ เท่าทันเมือ่ มีผนู้ �ำ สถิตไิ ป (แอบ) อ้างหรือบิดเบือนไม่วา่ โดยเจตนา หรือเพราะความไม่รู้ก็ตาม ผลเสียหายที่เกิดขึ้นอาจไม่ใช่เรื่อง ไกลตัวเลย ดังเห็นได้จากคดีของแซลลี คลาร์ก ทีต่ อ้ งติดคุกเพราะ การอ้างสถิติแบบผิดๆ ของกุมารแพทย์ ผู้เขียนได้ยกเหตุการณ์ จริงที่น่าตกใจนี้มาประกอบ และเป็นหนึ่งในตัวอย่างมากมายที่ นำ�มาแสดงให้เห็นความเกี่ยวข้องและอิทธิพลของสถิติที่มีต่อ ทุกแง่มุมของสังคม การแนะนำ�สาขาวิชาที่มีแนวคิดและวิธีการอันหลาก หลายซึ่งครอบคลุมศาสตร์แทบทุกแขนงเช่นนี้เป็นเรื่องยาก แต่ ผู้เขียนเล็งเห็นความจำ�เป็นของการแสดงภาพรวมที่เชื่อมโยง มากกว่าการลงลึกในรายละเอียด จึงทำ�ให้ สถิติ: ความรู้ฉบับ พกพา เล่มนี้ไม่อาจใช้แทน “สรุปย่อ” เพื่อใช้อ่านสอบ (ซึ่งยังเป็น เหตุผลหลักของการอ่านหนังสือแนววิชาการในบ้านเรา) ต้องขอขอบคุณสำ�นักพิมพ์โอเพ่นเวิลด์สที่เห็นคุณค่า ของหนังสือ สถิติ: ความรู้ฉบับพกพา เล่มนี้ ซึ่งเป็นเสมือนคู่มือ แนะนำ�ให้ผู้อ่านได้รู้จักการเตรียมตัวก่อนออกสำ�รวจเพื่อค้นหา ความจริงจากข้อมูลรอบตัว

วิโรจน์ รุจิจนากุล กรกฎาคม 2555


8

Statistics

คำ�นำ�ผู้เขียน

.

แนวคิดและวิธีเชิงสถิติแฝงอยู่ในชีวิตยุคใหม่แทบทุกด้าน ซึ่งบางครั้งก็เห็นชัดเจน แต่ก็มีบ่อยครั้งที่ซ่อนบทบาทอยู่เบื้อง หลัง เพราะความแพร่หลายนี้เองจึงเป็นประโยชน์อย่างยิ่งหาก เราจะทำ�ความเข้าใจกับแนวคิดเหล่านั้น ซึ่งเป็นจุดมุ่งหมายของ หนังสือเล่มนี้ โชคร้ายที่วิชาสถิติต้องเผชิญกับความเข้าใจผิดที่ทำ�ให้ ผู้คนไขว้เขวว่าเป็นเรื่องการคำ�นวณที่เหน็ดเหนื่อย ผลที่ตามมา คือสถิติถูกมองว่าเป็นวิชาที่น่าเบื่อ ไร้จินตนาการ ไม่สร้างสรรค์ หรือไม่น่าตื่นเต้น ซึ่งเป็นมุมมองจากครึ่งศตวรรษที่แล้วและผิด จากภาพลักษณ์ของวิชาสถิตยิ คุ ใหม่ ข้อเท็จจริงคือในยุคนัน้ ไม่มี คอมพิวเตอร์ที่เปลี่ยนโฉมหน้าของสถิติจากเรื่องคณิตศาสตร์ ให้กลายเป็นเรือ่ งของเครือ่ งมือซอฟต์แวร์ทนั สมัยทีส่ �ำ รวจข้อมูล เพื่อค้นหาความเข้าใจและความกระจ่างแจ้ง วิชาสถิติยุคใหม่


A

Very Short Introduction

9

เกีย่ วข้องกับการใช้เครือ่ งมือเพือ่ ช่วยให้เรารับรูแ้ ละเห็นหนทางที่ จะนำ�ไปสูค่ วามเข้าใจ เป็นเครือ่ งมือสำ�หรับตรวจสอบ ชีแ้ นวทาง และช่วยตัดสินใจ ซึ่งทั้งหมดนี้เป็นส่วนหนึ่งของวิชาสถิติยุคใหม่ หนังสือเล่มนี้มีจุดประสงค์เพื่อให้ผู้อ่านเกิดความเข้าใจ ในวิชาสถิตยิ คุ ใหม่บา้ ง ซึง่ ผมคงไม่ลงลึกในรายละเอียด แต่อยาก อธิบายให้เห็นภาพรวมทั้งหมดของสาขาวิชานี้ และพยายาม แสดงให้เห็นสารัตถะของปรัชญาสถิติ แนวคิด เครื่องมือ และ วิธกี ารต่างๆ ผมหวังว่าหนังสือเล่มนีจ้ ะทำ�ให้ผอู้ า่ นเข้าใจว่าสถิติ ยุคใหม่ทำ�งานอย่างไร สำ�คัญอย่างไร และเหตุใดจึงสำ�คัญ ในบทแรกผมเสนอนิ ย ามเบื้ อ งต้ น พร้ อ มตั ว อย่ า งที่ แสดงให้เห็นพลัง ความสำ�คัญ และความน่าตื่นเต้นของวิชาสถิติ บทที่ 2 เป็นการแนะนำ�แนวคิดในระดับพื้นฐานที่สุดของสถิติ ซึ่งได้แก่การสรุปข้อมูลที่ผู้อ่านคงเคยผ่านตามาแล้ว บทที่ 3 เตือนให้เราระมัดระวังเรื่องความถูกต้องของข้อสรุปที่ต้องอาศัย คุณภาพของข้อมูลดิบ รวมทั้งอธิบายกลวิธีในการเก็บรวบรวม ข้ อ มู ล ให้ มี ป ระสิ ท ธิ ภ าพ ถ้ า เปรี ย บกั บ ขาที่ ทำ � ให้ วิ ช าสถิ ติ ยืนหยัดอยู่ได้ ขาข้างหนึ่งคือข้อมูล ส่วนอีกข้างก็คือทฤษฎี ความน่าจะเป็นในบทที่ 4 ด้วยขาทัง้ สองนีท้ ำ�ให้วชิ าสถิตสิ ามารถ ก้ า วไปเพื่ อ อธิ บ ายข้ อ สรุ ป แบบอนุ ม านจากข้ อ มู ล ในบทที่ 5 สำ�หรับบทที่ 6 เป็นการสรุปวิธีเชิงสถิติที่สำ�คัญโดยสังเขปเพื่อ ให้เห็นความเชื่อมโยงระหว่างแนวคิดและวิธีการต่างๆ ในการ สรุปความเข้าใจจากข้อมูล และสุดท้ายในบทที่ 7 ผูอ้ า่ นจะได้เห็น อิทธิพลของคอมพิวเตอร์ที่มีต่อวิชาสถิติ ผมขอขอบคุ ณ เอมิ ลี เคนเวย์ เชลลี ย์ แชนนอน


10

Statistics

มาร์ติน เคราเดอร์ และผู้อ่านทั้งหลายที่ได้แสดงความคิดเห็น ต่อฉบับร่างของหนังสือ ผมได้น�ำ คำ�ติชมของทุกท่านไปปรับปรุง และแก้ไขคำ�อธิบายให้กระจ่าง หากมีที่ใดยังคลุมเครืออยู่ผมขอ น้อมรับความผิดพลาดไว้แต่ผู้เดียว

เดวิด เจ. แฮนด์ อิมพีเรียลคอลเลจ, ลอนดอน




สถิติ •

ความรู้ฉบับพกพา

STATISTICS • A

Very

Short

Introduction

by

David

J.

Hand

แปลโดย

วิโรจน์ รุจิจนากุล


บทที่ 1

/ สถิติรอบตัว


A

Very Short Introduction

15

เวลาที่มีใครบอกว่า “ความเท็จมีสามอย่างคือ เรื่องโกหก เรื่องโคตรโกหก และสถิติ” ผมมักจะยกคำ�พูดของเฟรเดอริก มอสเทลเลอร์ (Frederick Mosteller) ที่ว่า “เป็นเรื่องง่ายที่จะ โกหกด้วยสถิติ แต่จะง่ายกว่าถ้าไม่ใช้สถิติเลย”

วิชาสถิติยุคใหม่ ผมอยากเริ่ ม ต้ นด้ ว ยการบอกว่ า สถิ ติ เ ป็ น วิ ช าที่ น่ า ตืน่ เต้นทีส่ ดุ ซึง่ ผูอ้ า่ นหลายคนคงแปลกใจ ผมเขียนหนังสือเล่มนี้ เพื่อยืนยันและแสดงให้เห็นว่าทำ�ไมเป็นเช่นนั้น ผมหวังว่าจะแก้ ความเข้าใจผิดที่มีมานานเกี่ยวกับสาระของวิชาสถิติ และแสดง ให้เห็นว่าวิชาสถิติสมัยใหม่เป็นอย่างไร รวมทั้งอธิบายอานุภาพ ที่น่าทึ่งและการใช้งานที่พบได้ทุกหนทุกแห่ง ในบทแรกซึ่งเป็นการแนะนำ�นี้ มีสองสิ่งที่ผมต้องการ บอก สิง่ แรกคือ จากการเปลีย่ นแปลงทีเ่ กิดขึน้ ในหลายทศวรรษที่ ผ่านมา ผมอยากอธิบายให้เห็นว่าวิชาสถิติได้เปลี่ยนจากวิชา


16

Statistics

น่าเบื่อสมัยวิคตอเรียที่จัดการตัวเลขด้วยมือจนกลายมาเป็น เทคโนโลยีทันสมัยที่ใช้เครื่องมือซอฟต์แวร์ลํ้ายุคได้อย่างไร ผม อยากอธิบายวิธีที่นักสถิติในวันนี้ใช้เครื่องมือเหล่านั้นสำ�รวจ ข้อมูลเพื่อหาโครงสร้างและรูปแบบ คลายความลี้ลับและความ คลุมเครือออกทีละชั้นๆ เพื่อเปิดเผยความจริงที่อยู่ข้างใน วิชา สถิติยุคใหม่เปรียบเสมือนกล้องโทรทรรศน์ กล้องจุลทรรศน์ รังสีเอกซเรย์ หรือเครื่องสแกนทางการแพทย์ ที่ช่วยให้เราเห็น สิ่งที่มองไม่เห็นด้วยตาเปล่า วิชาสถิติยุคใหม่ทำ�ให้เราสามารถ มองผ่านความคลุมเครือและความสับสนของโลกรอบตัว เพื่อ เห็นความจริงภายใน ดั ง นั้ น สิ่ ง แรกที่ ผ มอยากอธิ บ ายในบทนี้ คื อ พลั ง และ ความน่าตื่นเต้นของวิชาสถิติยุคใหม่ มันมาจากไหนและทำ� อะไรได้บ้าง สิ่งที่สองที่ผมอยากจะสื่อคือการใช้งานที่แพร่หลาย ของวิชาสถิติซึ่งเกี่ยวข้องกับทุกแง่มุมของชีวิต ตัวอย่างเช่น การแพทย์ ยุ ค ใหม่ ก็ อ ยู่ บ นพื้ น ฐานของวิ ช าสถิ ติ การทดลอง เชิงสุ่มที่มีการควบคุมถือว่าเป็น “เครื่องมือวิจัยอย่างหนึ่ง ที่ เรียบง่ายที่สุด ทรงพลังที่สุด และปฏิวัติวงการ” ความเข้าใจใน กระบวนการแพร่กระจายของโรคได้ชว่ ยป้องกันไม่ให้มนุษยชาติ สูญสิ้น รัฐบาลที่มีประสิทธิภาพต้องอาศัยการวิเคราะห์ข้อมูล เศรษฐกิจและสังคมอย่างรอบคอบ (ซึ่งอาจเป็นเหตุผลที่เราควร ยืนกรานให้ทุกคนในรัฐบาลต้องเรียนวิชาสถิติ) แม้แต่เกษตรกร นักเทคโนโลยีอาหาร และซุปเปอร์มาร์เก็ต ก็ล้วนใช้วิชาสถิติ แบบเงียบๆ เพื่อตัดสินใจว่าจะปลูกอะไร จะแปรรูปอย่างไร จะ บรรจุหบี ห่อและจัดจำ�หน่ายอย่างไร นักอุทกวิทยาวิเคราะห์สถิติ


A

Very Short Introduction

17

ทางอุตุนิยมวิทยาเพื่อตัดสินใจว่าจะสร้างแนวป้องกันนํ้าท่วม ให้ สู ง แค่ ไ หน วิ ศ วกรที่ ส ร้ า งระบบคอมพิ ว เตอร์ ใ ช้ ส ถิ ติ ข อง ความเที่ยง (statistic of reliability) เพื่อให้มั่นใจว่าระบบจะไม่ ล่มบ่อยนัก ระบบควบคุมการจราจรทางอากาศสร้างจากโมเดล เชิงสถิติที่ซับซ้อนซึ่งทำ�งานในเวลาจริง คุณอาจไม่ได้สังเกต แต่ทุกแง่มุมของชีวิตยุคใหม่มีแนวคิดและเครื่องมือทางสถิติ ซ่อนอยู่ นิยามต่างๆ ความหมายของวิชาสถิติที่ดูเข้าท่าคือนิยามที่ว่า สถิติ เป็นเทคโนโลยีของการดึงความหมายออกมาจากข้อมูล แต่ไม่มี นิยามใดทีส่ มบูรณ์ครบถ้วน นิยามดังกล่าวไม่ได้พดู ถึงเรือ่ งโอกาส และความน่าจะเป็นซึ่งเป็นพื้นฐานของการประยุกต์ใช้วิชาสถิติ อีกนิยามหนึ่งที่ใช้ได้บอกว่า สถิติคือเทคโนโลยีในการจัดการ กับความไม่แน่นอน มีนิยามอื่นที่เจาะจงกว่านี้ซึ่งเน้นบทบาท ของวิชาสถิติ เราอาจกล่าวว่าสถิติคือสาขาวิชาที่ใช้ ทำ�นาย อนาคต หรือใช้เพื่ออนุมานสิ่งที่ไม่รู้ หรือใช้สร้างข้อสรุปของ ข้อมูลที่นำ�ไปใช้ได้สะดวก เมื่อเอานิยามเหล่านี้มารวมกันเรา จะได้ความหมายกว้างๆ ที่ครอบคลุมสาระสำ�คัญของวิชาสถิติ แม้การประยุกต์ใช้ที่ต่างกันจะให้ภาพของวิชานี้แตกต่างกันมาก ก็ตาม เช่น การตัดสินใจ การพยากรณ์ การเฝ้าติดตามในเวลาจริง การตรวจหาการฉ้อโกง การทำ�สำ�มะโนประชากร การวิเคราะห์ ลำ�ดับยีนส์ ทั้งหมดนี้ต่างเป็นการประยุกต์ใช้วิชาสถิติ แต่กลับ


18

Statistics

ใช้วิธีการหรือเครื่องมือแตกต่างกันไป ผมเจตนาเลือกใช้คำ�ว่า ‘เทคโนโลยี’ ในนิยามเหล่านัน้ แทนทีจ่ ะใช้ค�ำ ว่าศาสตร์ เทคโนโลยี คือการประยุกต์ใช้วิทยาศาสตร์และการค้นพบของวิทยาศาสตร์ ซึ่งวิชาสถิติก็เป็นการประยุกต์ใช้ความเข้าใจของเราว่าจะสกัด สารสนเทศ (information ) ออกจากข้อมูล (data) ได้อย่างไร และเป็นการประยุกต์ใช้ความเข้าใจของเรากับสิ่งที่ไม่แน่นอน อย่างไรก็ตามบางครั้งวิชาสถิติก็ถูกอ้างถึงในฐานะของศาสตร์ เช่ น กั น มี ว ารสารชั้ น นำ � ด้ า นวิ ชาสถิ ติ ที่ ใ ช้ ชื่อ ว่ า Statistical Science ในหนังสือเล่มนี้และโดยเฉพาะในย่อหน้าก่อน ผมพูด ถึงสถิติที่เป็นสาขาวิชา แต่คำ�ว่า ‘สถิติ’ ยังมีอีกความหมายหนึ่ง คือข้อเท็จจริงที่เป็นตัวเลขหรือข้อสรุป เช่น การสรุปข้อมูลที่ อธิบายบางอย่างในประชากร อาจเป็นเรื่องจำ�นวน อัตราการ เกิด หรืออัตราอาชญากรรม ดังนั้นในแง่หนึ่งหนังสือเล่มนี้ก็ เกี่ ย วกั บ ข้ อ เท็ จ จริ ง เชิ ง ตั ว เลข แต่ เ ป็ น ในแง่ ข องวิ ธี ร วบรวม จัดการ วิเคราะห์ และการนิรนัยสิ่งต่างๆ จากข้อเท็จจริงเชิง ตัวเลข ซึ่งวิธีการเหล่านั้นก็เกี่ยวข้องกับเทคโนโลยี ดังนั้นผู้อ่าน ที่หวังว่าจะพบตารางข้อมูลตัวเลข (เช่น สถิติกีฬา) ในหนังสือ เล่มนี้คงต้องผิดหวัง แต่ผู้อ่านที่หวังจะเข้าใจว่าธุรกิจตัดสินใจ อย่างไร นักดาราศาสตร์ค้นพบดาวดวงใหม่ได้อย่างไร นักวิจัย ด้านการแพทย์ระบุยีนส์ที่เกี่ยวข้องกับโรคได้อย่างไร ธนาคาร ตั ด สิ น ใจอย่ า งไรว่ า จะออกบั ต รเครดิ ต ให้ ใ ครหรื อ ไม่ บริ ษั ท ประกันภัยตั้งเบี้ยประกันอย่างไร หรือโปรแกรมกรองอีเมลขยะ ที่คอยกันโฆษณาลามกทำ�งานอย่างไร เหล่านี้เป็นต้น คงจะ


A

Very Short Introduction

19

ได้รับประโยชน์จากหนังสือเล่มนี้ ที่กล่าวไปทั้งหมดนี้เพื่ออธิบายว่า ‘สถิติ’ อาจหมายถึง สาขาความรู้ที่เรียกว่าวิชาสถิติ และอาจหมายถึงตัวเลขสถิติ ต่างๆ เราพูดถึงคำ�ว่า ‘สถิติ’ มามากแล้ว ในนิยามแรกสุด ของผมยังมีคำ�ว่า ‘ข้อมูล’ หรือ data ในภาษาอังกฤษ ซึ่งเป็น รูปพหูพจน์ของคำ�ว่า ‘datum’ ในภาษาลาตินซึ่งหมายถึง ‘สิ่งที่ ได้รับ’ ซึ่งก็มาจากคำ�ว่า dare ที่แปลว่า ‘ให้’ ในภาษาอังกฤษ บางคนมองว่าข้อมูลเป็นพหูพจน์ แต่ภาษาย่อมมีการเปลีย่ นแปลง ปัจจุบันเริ่มมีคนใช้คำ�ว่า ‘data’ แบบเอกพจน์มากขึ้น ข้อมูลมักจะเป็นตัวเลข เช่น ผลจากการวัด การนับ หรือกระบวนการอืน่ ๆ เราอาจนึกถึงข้อมูลเช่นนัน้ ว่าเป็นตัวแทน แบบง่ า ยๆ ของสิ่ ง ที่ เ รากำ � ลั ง ศึ ก ษา ถ้ า เราสนใจเรื่ อ งความ สามารถทางวิชาการกับความเหมาะสมต่ออาชีพต่างๆ ของเด็ก นักเรียน เราอาจเลือกศึกษาตัวเลขที่เป็นผลการทดสอบซึ่งบ่งชี้ ความสามารถหรือความฝักใฝ่ของนักเรียน เป็นที่ยอมรับกันว่า ตัวเลขเหล่านี้ไม่ใช่ตัวแทนที่สมบูรณ์แบบ คะแนนที่ตํ่าอาจบอก ว่ามีบางคนไม่สบายตอนทำ�ข้อสอบ ข้อมูลที่หายไปก็ไม่ได้บอก อะไรเรื่องความสามารถ แค่บอกว่ามีนักเรียนไม่ได้เข้าสอบ ผม จะพูดถึงคุณภาพของข้อมูลในภายหลัง คุณภาพของข้อมูลเป็น เรื่องสำ�คัญเพราะเป็นหลักทั่วไป (ซึ่งใช้ได้ตลอดชีวิตไม่ใช่แค่กับ วิชาสถิตเิ ท่านัน้ ) ทีว่ า่ ถ้าเรามีวตั ถุดบิ แย่ๆ ผลลัพธ์ทอี่ อกมาก็แย่ ไปด้วย นักสถิตสิ ามารถดึงความเข้าใจออกมาจากตัวเลขได้อย่าง น่าทึ่งก็จริง แต่ก็ไม่อาจสร้างปาฏิหาริย์ได้


20

Statistics

แน่ น อนว่ า มี ห ลายสถานการณ์ ที่ ไ ม่ อ าจผลิ ต ข้ อ มู ล เชิงตัวเลขได้โดยตรง ข้อมูลดิบส่วนใหญ่ปรากฏในรูปของภาพ คำ�พูด หรือแม้แต่สัญญาณเสียงหรือสัญญาณอิเล็กทรอนิกส์ ดังนัน้ ภาพถ่ายจากดาวเทียมทีแ่ สดงพืชผลหรือเขตป่า คำ�อธิบาย ผลข้างเคียงจากการใช้ยา หรือเสียงที่เปล่งออกมานั้นแม้ไม่ได้ เป็นตัวเลข แต่ถ้าพิจารณาให้ดีจะพบว่าสิ่งเหล่านั้นเมื่อถูกวัด และถูกบันทึกก็จะถูกแปลงไปเป็นตัวเลขหรือรูปแบบที่จะแทน ด้วยตัวเลขได้ในภายหลัง เช่น ภาพถ่ายดาวเทียมและภาพถ่าย จากกล้องประกอบด้วยจุดเล็กๆ นับล้านที่เรียกว่าพิกเซล ซึ่ง แต่ละพิกเซลก็ถูกบรรยายได้ด้วยความเข้ม (เป็นตัวเลข) ของ สีตา่ งๆ ทีร่ วมกันเป็นพิกเซลนัน้ ข้อความสามารถถูกประมวลผล เป็นจำ�นวนคำ�หรือวัดความคล้ายคลึงระหว่างคำ�และวลี ซึ่ง เป็นการแทนค่าข้อมูลที่ใช้โดยโปรแกรมค้นหาบนเว็บเช่นกูเกิ้ล เสียงพูดถูกแทนค่าในลักษณะความเข้มเชิงตัวเลขของคลืน่ เสียง ที่ประกอบเป็นคำ�ต่างๆ ทางไวยากรณ์ แม้ข้อมูลทุกอย่างไม่ได้ เป็นตัวเลขทั้งหมด แต่ข้อมูลส่วนใหญ่สามารถถูกแทนค่าเป็น ตัวเลขได้ในระดับหนึ่ง และวิชาสถิติก็เกี่ยวข้องกับข้อมูลเชิง ตัวเลขเสียส่วนใหญ่ เรื่องโกหก เรื่องโคตรโกหก และการแก้ความเข้าใจที่ผิด คำ�พูดที่ว่า “ความเท็จมีสามอย่างคือ เรื่องโกหก เรื่อง โคตรโกหก และสถิติ” ซึ่งอ้างไว้ตอนต้นนั้นมีผู้กล่าวไว้หลายคน รวมทั้ ง มาร์ ค ทเวน (Mark Twain) และเบนจามิ น ดิ ส เรลี


A

Very Short Introduction

21

(Benjamin Disraeli) ยังมีผู้ออกความเห็นอื่นๆ ในทำ�นองนี้ อาทิ ฌอง โบดรียาร์ (Jean Baudrillard) กล่าวว่า “สถิติก็เหมือน ความฝัน เป็นการเติมเต็มความปรารถนาแบบหนึ่ง” (Cool Memories บทที่ 4) ทอม เบอร์แนน (Tom Burnan) กล่าวว่า “…การบูชาสถิติส่งผลให้คนที่โกหกหน้าด้านๆ นั้นทำ�งานง่าย ขึ้นไปอีก” (The Dictionary of Misinformation หน้า 246) ออดรีย์ ฮาเบรา (Audrey Habera) และริชาร์ด รันเนียน (Richard Runyon) กล่ า วว่ า “สถิ ติ คื อ ‘การเสก’ ตั ว เลข” (General Statistics หน้า 3) อาร์เธอร์ เฮลีย์ (Arthur Hailey) กล่าวว่า “การพิจารณาคดีก็เหมือนสถิติ ถ้ารู้จักพลิกแพลงคุณจะพิสูจน์ อะไรก็ได้” (Airport หน้า 385) เห็นชัดว่ามีความเคลือบแคลงต่อสถิติอยู่มาก เราอาจ สงสัยว่ามีความกลัวแฝงอยูด่ ว้ ย นักสถิตมิ กั สวมบทบาทเป็นผูใ้ ช้ ความรอบคอบและบางครัง้ ก็เป็นผูแ้ จ้งข่าวร้าย นักสถิตทิ ที่ �ำ งาน วิจัยอย่างเช่นในวิทยาลัยแพทย์หรือในบริบททางสังคม บางครั้ง ต้องอธิบายว่าข้อมูลไม่เพียงพอที่จะตอบคำ�ถามบางอย่างหรือ ต้องบอกคำ�ตอบที่นักวิจัยไม่อยากได้ยิน ซึ่งอาจเป็นโชคร้ายใน มุมมองของนักวิจัย แต่ก็ไม่เป็นธรรมนักหากจะโทษคนแจ้งข่าว ในหลายกรณี ความสงสัยเกิดขึ้นจากผู้เลือกใช้สถิติ ในการสรุ ป ข้ อมู ล ชุ ด หนึ่ ง ถ้ า ทำ � ได้ ม ากกว่ า หนึ่ ง วิ ธี จ ากแง่ มุ ม ที่แตกต่างกันเล็กน้อย แต่ละคนก็อาจเลือกเน้นข้อสรุปที่ต่าง กันได้ ตัวอย่างเช่น สถิติอาชญากรรม ในสหราชอาณาจักร แหล่งข้อมูลที่สำ�คัญที่สุดน่าจะเป็น British Crime Survey ซึ่ง ประมาณการระดับของอาชญากรรมโดยสอบถามกลุ่มตัวอย่าง


22

Statistics

โดยตรงว่าพวกเขาตกเป็นเหยื่อของอาชญากรรมชนิดใดบ้าง ในปีที่ผ่านมา ในทางตรงข้าม เอกสารชุด Recorded Crime Statistics ได้ ร วบรวมการกระทำ � ผิ ด ทั้ ง หมดที่ ร ายงานต่ อ กระทรวงมหาดไทยจากบันทึกของตำ�รวจ ซึ่งไม่รวมการกระทำ� ผิดเล็กน้อยบางอย่าง และที่สำ�คัญคือไม่ได้รวมอาชญากรรมที่ ไม่ได้แจ้งความตัง้ แต่แรก จึงไม่นา่ แปลกใจถ้าตัวเลขระหว่างสถิติ สองชุดนี้จะแตกต่างกัน อาชญากรรมบางประเภทอาจดูลดลง ในข้อมูลชุดหนึ่ง แต่อาจเพิ่มขึ้นถ้ามองจากข้อมูลอีกชุด ตัวอย่างของสถิติอาชญากรรมยังบอกสาเหตุที่เป็น ไปได้ อี ก อย่ า งหนึ่ ง ของความเคลื อ บแคลงในสถิ ติ เมื่ อ ใช้ การวั ด บางอย่ า งเป็ น ตั ว บ่ ง ชี้ ก ารทำ � งานของระบบ เราอาจ ใส่ ใ จที่ จ ะปรั บ ปรุ ง แต่ ก ารวั ด นั้ น โดยแลกกั บ ความสู ญ เสี ย ใน ส่วนอื่นๆ ของระบบ ตัววัดดังกล่าวจึงพัฒนาขึ้นอย่างไม่ได้ สัดส่วน และกลายเป็นตัววัดการทำ�งานของระบบที่ไร้ประโยชน์ ในที่สุด เช่น ตำ�รวจอาจทุ่มเททรัพยากรทั้งหมดเพื่อลดอัตรา การลักเล็กขโมยน้อย จึงทำ�ให้อาชญากรรมประเภทอื่นเพิ่มขึ้น ผลคืออัตราการลักเล็กขโมยน้อยกลายเป็นตัวบ่งชี้ที่ไร้ค่าของ อั ต ราอาชญากรรม ปรากฏการณ์ นี้ มี ชื่ อ ว่ า กฎของกู ด ฮาร์ ท (Goodhart’s law) ตามชื่อของชาร์ล กูดฮาร์ท อดีตที่ปรึกษา ธนาคารแห่งประเทศอังกฤษ ทีก่ ล่าวมาทัง้ หมดนีก้ เ็ พือ่ ชีใ้ ห้เห็นว่าปัญหาไม่ได้อยูท่ ตี่ วั สถิติเอง แต่อยู่ที่การใช้สถิติและความเข้าใจผิดในเรื่องที่มาและ ความหมายของสถิติ เป็นธรรมชาติของมนุษย์ที่จะเคลือบแคลง สิ่งที่ตนไม่เข้าใจ แต่วิธีแก้ไขคือการสร้างความเข้าใจ


A

Very Short Introduction

23

สาเหตุ ข องความเคลื อ บแคลงอี ก อย่ า งหนึ่ ง เป็ น ผล มาจากความก้าวหน้าทางวิทยาศาสตร์ วันหนึ่งเราอ่านข่าว งานวิจัยที่พบว่าอาหารบางอย่างไม่ดีต่อร่างกาย วันต่อมากลับ บอกว่าดีต่อสุขภาพ จึงเป็นเรื่องธรรมดาที่เราจะสับสนและรู้สึก ว่านักวิทยาศาสตร์ไม่รู้คำ�ตอบหรืออาจไม่น่าเชื่อถือ เนื่องจาก การค้นคว้าทางวิทยาศาสตร์อาศัยการวิเคราะห์ทางสถิติ ความ เคลือบแคลงในงานวิจัยจึงถ่ายทอดไปถึงสถิติด้วย แต่แก่นแท้ ของความก้าวหน้าทางวิทยาศาสตร์คอื การค้นพบสิง่ ใหม่ทเี่ ปลีย่ น ความเข้าใจของเรา เราเคยคิดว่าไขมันเป็นสิ่งไม่ดี แต่การวิจัย ต่อมาทำ�ให้รู้ว่าไขมันมีหลายชนิด บางชนิดก็มีประโยชน์ บ้างก็ เป็นโทษ ภาพรวมนั้นซับซ้อนกว่าที่เราคิดในทีแรก จึงไม่น่า แปลกใจที่เห็นการวิจัยเบื้องต้นนำ�ไปสู่ข้อขัดแย้งและข้อสรุปที่ แย้งกันอย่างเห็นได้ชัด สาเหตุที่สี่ของความเคลือบแคลงมาจากความเข้าใจที่ ผิดๆ ในเรือ่ งสถิตขิ นั้ พืน้ ฐาน ลองอ่านข้อความต่อไปนีแ้ ล้วตัดสิน ว่ามีอะไรน่าสงสัย (คำ�ตอบอยู่ในเชิงอรรถท้ายบท ) 1) รายงานกล่าวว่าการวินิจฉัยโรคพบแต่เนิ่นๆ ทำ�ให้คนไข้ มี ชี วิ ต รอดได้ น านขึ้ น ดั ง นั้ น โครงการตรวจหาโรคจึ ง มี ประโยชน์ 2) มีคนบอกว่าราคาที่เขียนไว้เป็นราคาที่ลดแล้ว 25% สำ�หรับ ลูกค้าทีม่ สี ทิ ธิ์ แต่เราไม่ใช่ลกู ค้าพวกนัน้ จึงต้องจ่ายแพงกว่า ราคาที่เขียนไว้อีก 25% 3) เราได้ยินคำ�ทำ�นายที่ว่ามนุษย์จะมีอายุขัยถึง 150 ปีใน ศตวรรษหน้าโดยประมาณแนวโน้มจาก 100 ปีที่ผ่านมา


24

Statistics

4) มีคนบอกว่า “ตั้งแต่ปี 1950 เป็นต้นมา ทุกๆ ปีจะมีเด็ก อเมริกันถูกยิงเสียชีวิตเพิ่มขึ้นเป็นสองเท่า” บางครัง้ ความเข้าใจผิดก็ไม่ได้เป็นเรือ่ งพืน้ ๆ แต่เกิดขึน้ จากแนวคิดทางสถิติที่ค่อนข้างลึกซึ้ง อาจเป็นเรื่องน่าแปลกใจที่ วิชาสถิตซิ งึ่ ผ่านการพัฒนามากว่าร้อยปีมแี นวคิดบางอย่างทีแ่ ย้ง กับสามัญสำ�นึก ตัวอย่างหนึ่งซึ่งรู้จักกันในชื่อ เหตุผลวิบัติของ อัยการ (prosecutor’s fallacy) เป็นความสับสนระหว่างความ น่าจะเป็นทีบ่ างเรือ่ งจะเป็นจริง (เช่น จำ�เลยผิดจริง) ถ้ามีหลักฐาน บางอย่าง (เช่น ถุงมือของจำ�เลยตกอยู่ในที่เกิดเหตุ) กับความ น่าจะเป็นที่จะพบหลักฐานนั้นถ้าสันนิษฐานว่าจำ�เลยผิดจริง ความสับสนนี้พบได้ทั่วไปไม่ใช่แต่ในศาล ซึ่งเราจะพูดถึงโดย ละเอียดในภายหลัง ถ้ามีความเคลือบแคลงหรือไม่เชือ่ ถือสถิติ ก็ไม่ควรโทษ สถิติหรือวิธีคำ�นวณสถิติ แต่ควรโทษการนำ�สถิติไปใช้มากกว่า ดูไม่เป็นธรรมที่จะโทษตัววิชาหรือนักสถิติผู้หาความหมายจาก ข้อมูล แต่ควรตำ�หนิผู้ที่ไม่เข้าใจว่าตัวเลขกำ�ลังบอกอะไร หรือ ตำ�หนิคนทีเ่ จตนานำ�ผลลัพธ์ไปใช้ผดิ ๆ เราไม่ควรโทษปืนว่าทำ�ให้ คนตาย เราควรโทษคนที่ยิงปืนต่างหาก เรื่องของข้อมูล เราได้เห็นแล้วว่าข้อมูลคือแหล่งที่มาของวิชาสถิติ เป็น วัตถุดิบในการคำ�นวณสถิติ และมักเป็นตัวเลข แต่ข้อมูลเป็น


A

Very Short Introduction

25

มากกว่าตัวเลข เพือ่ ให้ใช้ประโยชน์ได้หรือให้เราทำ�การวิเคราะห์ ทางสถิติได้อย่างมีความหมายตัวเลขจึงต้องถูกเชื่อมโยงกับ ความหมายบางอย่าง เช่น เราต้องรู้ว่าการวัดนั้นๆ เป็นการวัด อะไร และอะไรที่ถูกนับเมื่อเห็นการนับ เมื่อเราทำ�การวิเคราะห์ ทางสถิติ เพื่อให้ได้ผลลัพธ์ที่ถูกต้องแม่นยำ�เราจำ�เป็นต้องรู้ว่า ตัวเลขนั้นๆ ได้มาอย่างไร ทุกคนที่ได้รับแบบสอบถามจากเรา ได้ตอบหมดทุกคนหรือไม่ หรือตอบแค่บางคน ถ้ามีแค่บางคน คนที่ตอบเป็นตัวแทนที่เหมาะสมของประชากรที่เรากำ�ลังสนใจ หรือไม่ หรือว่ากลุ่มตัวอย่างมีการบิดเบือน เราตัดคนอายุน้อย ออกไปจนกลุ่มตัวอย่างผิดสัดส่วนหรือไม่ เราจำ�เป็นต้องรู้ว่า มีคนไข้ถอนตัวจากการทดลองหรือไม่ เราได้ข้อมูลล่าสุดหรือ ไม่ เครื่องมือวัดน่าเชื่อถือหรือไม่ มีขีดจำ�กัดสูงสุดในการบันทึก หรือไม่หากว่าค่าที่แท้จริงสูงมากๆ เราจะสันนิษฐานว่าอัตรา การเต้นของชีพจรที่พยาบาลวัดนั้นแม่นยำ�หรือเป็นแค่ตัวเลข คร่าวๆ กันแน่ มีคำ�ถามเช่นนี้มากมาย และเราต้องระวังคำ�ถาม ที่อาจมีผลต่อข้อสรุปที่เราได้ มิฉะนั้นแล้วความเคลือบแคลง ที่กล่าวมาก็อาจเป็นจริง เราอาจมองได้ว่าข้อมูลคือหลักฐาน ถ้าปราศจากข้อมูล ความคิดและทฤษฎีของเราเกี่ยวกับโลกรอบตัวก็จะเป็นแค่การ คาดเดา ข้อมูลให้หลักฐานสนับสนุน เชื่อมโยงความคิดและ ทฤษฎีของเรากับความจริง ช่วยเราทดสอบและพิสูจน์ความ เข้าใจของเราว่าถูกต้อง วิธีเชิงสถิติจึงถูกนำ�มาใช้เปรียบเทียบ ข้อมูลกับความคิดและทฤษฎีของเราว่าสอดคล้องกันเพียงใด ถ้าไม่สอดคล้องกันดีเราก็ต้องกลับไปทบทวน ประเมินความคิด


26

Statistics

และเรี ย บเรี ย งความคิ ด เสี ย ใหม่ เพื่ อ ให้ ส อดคล้ อ งยิ่ ง ขึ้ น กั บ สิ่ ง ที่ สั ง เกตเห็ น แต่ ผ มขอแทรกคำ � เตื อ น ณ ที่ นี้ ว่ า ผลการ เปรียบเทียบที่ไม่สอดคล้องอาจเป็นเพราะข้อมูลด้อยคุณภาพ ก็ได้ เราต้องระวังความเป็นไปได้เช่นนีด้ ว้ ย นัน่ คือ ทฤษฎีของเรา อาจถูกต้องแต่เครือ่ งมือวัดอาจผิดพลาด อย่างไรก็ตามโดยทัว่ ไป แล้ว ความสอดคล้องระหว่างข้อมูลทีส่ งั เกตกับลักษณะของข้อมูล ตามทฤษฎีของเรานั้นก็น่าจะรับประกันได้ว่าเรากำ�ลังมาถูกทาง และช่วยยืนยันว่าความคิดของเรานั้นสะท้อนความจริงของสิ่งที่ กำ�ลังเกิดขึ้น นั ย จากสิ่ ง นี้ คื อ ความคิ ด และทฤษฎี ข องเราจะมี ความหมายถ้าสามารถให้ผลซึ่งเป็นการทำ�นายที่จะใช้เปรียบ เทียบกับข้อมูลของเราได้ ถ้าความคิดและทฤษฎีของเราไม่ได้ บอกสิ่งที่เราคาดว่าจะเห็น หรือถ้าทำ�นายอย่างกว้างๆ เสียจน ข้อมูลทุกอย่างสอดคล้องกับทฤษฎีของเราไปหมด ทฤษฎีนั้น ก็ไร้ประโยชน์เพราะอะไรๆ ก็ใช่ทั้งนั้น วิชาจิตวิเคราะห์และ โหราศาสตร์ถูกวิจารณ์ก็เพราะลักษณะดังกล่าว ข้อมูลยังทำ�ให้เราก้าวสู่โลกที่ซับซ้อน ช่วยเราตัดสินใจ เลือกการกระทำ�ทีด่ ที สี่ ดุ เราทำ�การวัด รวมผล และใช้วธิ เี ชิงสถิติ ในการดึงสารสนเทศออกจากข้อมูลเพื่อนำ�ไปอธิบายพฤติกรรม ของสิ่งรอบตัว และบอกว่าเราควรทำ�อย่างไรให้สิ่งเหล่านั้นมี พฤติกรรมอย่างที่ต้องการ ดังเห็นได้จากการทำ�งานของระบบ นำ�ร่องอัตโนมัติของอากาศยาน ระบบนำ�ร่องด้วยดาวเทียมของ รถยนต์ ตัวชี้ทางเศรษฐศาสตร์เช่นอัตราเงินเฟ้อและผลิตภัณฑ์ มวลรวมภายในประเทศ การติดตามอาการคนไข้ในห้องไอซียู


A

Very Short Introduction

27

และการประเมินนโยบายทางสังคมที่ซับซ้อน เมื่ อ คำ � นึ ง ถึ ง บทบาทพื้ น ฐานของข้ อ มู ล ว่ า เป็ น การ เชื่อมโยงการสังเกตเข้ากับความคิดและความเข้าใจของเราต่อ โลกรอบตัว ข้อมูลและเทคโนโลยีในการสกัดความหมายจาก ข้อมูลจึงเป็นสดมภ์หลักของอารยธรรมยุคใหม่ และเป็นเหตุผล ที่ผมใส่ชื่อเรื่องรองว่า “ข้อมูลครองโลกได้อย่างไร” ในหนังสือ ของผมที่ชื่อ Information Generation (อยู่ในรายชื่อหนังสืออ่าน เพิ่มเติมท้ายเล่ม) สถิติในระดับมหภาค แม้มีรากเหง้าที่ยาวนานกว่าที่ใครคิด แต่ตัววิชาสถิติ จริงๆ นั้นมีอายุเพียงไม่กี่ร้อยปี ราชสมาคมสถิติแห่งอังกฤษ (Royal Statistical Society) ก่อตัง้ ขึน้ ในปี 1834 และสมาคมสถิติ อเมริกัน (American Statistical Association) ก่อตั้งในปี 1839 ภาควิชาสถิติแห่งแรกตั้งขึ้นในปี 1911 ที่ยูนิเวอร์ซิตีคอลเลจ (University College) ในลอนดอน วิชาสถิติในยุคแรกมีหลาย สายซึ่งได้รวมกันจนกลายเป็นวิชาสถิติยุคใหม่ สายวิชาหนึ่งคือ ความเข้าใจเรื่องความน่าจะเป็นนั้นมีมาตั้งแต่กลางศตวรรษที่ 17 ซึ่งส่วนหนึ่งเกิดจากคำ�ถามในการพนัน อีกสายหนึ่งคือความ เข้าใจในเรื่องการวัด โดยตระหนักว่าการวัดย่อมมีความคลาดเคลื่อน จึงต้องมีการวิเคราะห์บางอย่างเพื่อหาความหมายที่ สมเหตุ ส มผลจากการวั ด ซึ่ ง เป็ น เรื่ อ งสำ � คั ญ มากในวิ ช า ดาราศาสตร์ยคุ แรกๆ อีกสายหนึง่ เป็นเรือ่ งการใช้ขอ้ มูลเชิงสถิติ


28

Statistics

ของรัฐบาลที่ค่อยๆ เพิ่มขึ้นเพื่อนำ�ไปบริหารประเทศ ซึ่งการใช้ เช่นนีเ้ องทีน่ �ำ ไปสูค่ �ำ ว่า ‘statistics’ หรือข้อมูลเกีย่ วกับรัฐ (state) ปัจจุบันประเทศที่เจริญแล้วต่างก็มีหน่วยงานสถิติแห่งชาติ วิชาสถิติได้ผ่านการพัฒนามาหลายระยะ ระยะแรกซึ่ง สิ้นสุดราวปลายศตวรรษที่ 19 เป็นการสำ�รวจข้อมูลแบบกว้างๆ อย่างไร้แบบแผน ช่วงครึ่งแรกของศตวรรษที่ 20 สาขาวิชานี้ เริ่มมีความเป็นคณิตศาสตร์มากขึ้นจนถึงขั้นที่หลายคนมองว่า วิชาสถิติเป็นสาขาหนึ่งของคณิตศาสตร์ (ต่างก็เกี่ยวข้องกับ ตัวเลข) อันที่จริงนักสถิติในมหาวิทยาลัยหลายแห่งก็ยังสังกัด ในภาควิชาคณิตศาสตร์ ครึง่ หลังของศตวรรษที่ 20 คอมพิวเตอร์ ได้เปลี่ยนแปลงวิชาสถิติจากความน่าเบื่อให้กลายเป็นความ ตื่นเต้น ทำ�ให้ผู้เรียนวิชานี้ไม่จำ�เป็นต้องมีทักษะที่เป็นเลิศทาง คณิตศาสตร์ ไม่ต้องเสียเวลาหลายชั่วโมงเพื่อจัดการกับตัวเลข เหมือนเปลี่ยนจากการเดินด้วยเท้าไปเป็นการขับรถ ทำ�ให้ร่น เวลาจากหลายวันเหลือแค่ไม่กี่นาที การเดินทางที่แสนไกลก็ กลายเป็นเรื่องเป็นไปได้ ครึ่งหลังของศตวรรษที่ 20 เรายังได้เห็นการวิเคราะห์ ข้อมูลแบบอืน่ ๆ ซึง่ มีตน้ กำ�เนิดจากสาขาอืน่ ทีไ่ ม่ใช่วชิ าสถิตแิ บบ คลาสสิก (โดยเฉพาะวิทยาการคอมพิวเตอร์) การวิเคราะห์ที่ว่า นี้ได้แก่ การเรียนรู้ของเครื่องจักร (machine learning) การรู้จำ� รูปแบบ (pattern recognition) และการทำ�เหมืองข้อมูล (data mining) ระหว่างที่สาขาวิชาอื่นๆ พัฒนาการวิเคราะห์ ก็ย่อม เกิดการกระทบกระทั่งระหว่างสำ�นักคิดต่างๆ กับวิชาสถิติ แต่ จริงๆ แล้วมุมมองจากสำ�นักทั้งหลายต่างมีคุณูปการต่อการ


A

Very Short Introduction

29

วิ เ คราะห์ ข้ อมู ล ถึ ง ขั้ นที่ ว่ า ทุ ก วั นนี้ วิ ชาสถิ ติ ยุ ค ใหม่ ส ามารถ หยิ บ ฉวยเครื่ อ งมื อ จากสาขาเหล่ า นั้ น ได้ โ ดยอิ ส ระ ซึ่ ง จะขอ กล่าวถึงเครื่องมือที่ว่าในภายหลัง เมื่อคำ�นึงถึงประเด็นดังกล่าว หนังสือเล่มนี้จึงขอใช้นิยามของวิชาสถิติแบบกว้างๆ ตาม ‘วิชา สถิติในระดับมหภาค’ (greater statistics) ซึ่งนิยามโดยจอห์น เชมเบอร์ส (John Chambers) นักสถิติผู้โด่งดังว่า “วิชาสถิติ ในระดับมหภาคสามารถนิยามอย่างง่ายๆ โดยไม่เจาะจงว่าคือ ทุกอย่างที่เกี่ยวข้องกับการเรียนรู้จากข้อมูล ตั้งแต่การวางแผน หรื อ การรวบรวมข้ อ มู ล ในขั้ น แรกไปจนถึ ง การนำ � เสนอหรื อ รายงานในขั้ น สุ ด ท้ า ย” ความพยายามที่ จ ะกำ � หนดเส้ น แบ่ ง ระหว่างการวิเคราะห์ข้อมูลในสาขาวิชาทั้งหลายนั้นเป็นเรื่อง เสียเวลาและเปล่าประโยชน์ ดังนั้น วิชาสถิติยุคใหม่จึงไม่ใช่เรื่องของการคำ�นวณ แต่เป็นการสืบสวน บางคนถึงกับอธิบายว่าสถิติเป็นวิธีการทาง วิทยาศาสตร์ในภาคปฏิบตั ิ แต่อย่างทีผ่ มบอกไว้กอ่ นหน้านีว้ า่ ยัง มีนกั สถิตทิ สี่ งั กัดภาควิชาคณิตศาสตร์ของมหาวิทยาลัย บ้างก็อยู่ ในวิทยาลัยแพทยศาสตร์ คณะสังคมศาสตร์ คณะเศรษฐศาสตร์ และคณะอื่นๆ อีกมากตั้งแต่วิศวกรรมศาสตร์ไปจนถึงจิตวิทยา นอกรั้วมหาวิทยาลัยมีนักสถิติจำ�นวนมากทำ�งานในภาครัฐและ ภาคธุรกิจ ในด้านเภสัชกรรม การตลาด โทรคมนาคม การ ธนาคาร และด้านอืน่ ๆ ผูบ้ ริหารต้องใช้ทกั ษะทางสถิตเิ พือ่ ตีความ ข้อมูลของแผนก ของบริษัท ของผลิตภัณฑ์ ของฝ่ายบุคคล ฯลฯ พวกเขาไม่ได้ทำ�ด้วยสูตรและสัญลักษณ์ทางคณิตศาสตร์ แต่ใช้เครื่องมือและวิธีเชิงสถิติเพื่อหยั่งรู้และทำ�ความเข้าใจจาก


30

Statistics

หลักฐานและข้อมูล โดยต้องคำ�นึงถึงประเด็นอื่นๆ ที่ไม่เกี่ยวกับ คณิตศาสตร์ เช่น คุณภาพของข้อมูล วิธีการรวบรวมข้อมูล การนิยามปัญหา การกำ�หนดวัตถุประสงค์ที่กว้างขึ้นของการ วิเคราะห์ (ความเข้าใจ การทำ�นาย การตัดสินใจ ฯลฯ) การ กำ�หนดระดับความไม่แน่นอนในข้อสรุป และประเด็นอื่นๆ จากทีก่ ล่าวมาคงเห็นชัดว่าสถิตเิ ป็นวิชาทีพ่ บและใช้กนั ทั่วไปในทุกสาขาอาชีพ ซึ่งก็ส่งผลต่อการพัฒนาวิชาสถิติด้วย เมื่อมีการนำ�วิธีเชิงสถิติไปใช้ในสาขาใหม่ ปัญหา ความต้องการ และลักษณะเฉพาะของสาขาใหม่นนั้ จะนำ�ไปสูก่ ารพัฒนาวิธแี ละ เครื่องมือใหม่ๆ ทางสถิติ เมื่อถูกพัฒนาขึ้นแล้ว วิธีและเครื่องมือ เหล่านั้นก็จะแพร่หลายออกไปสู่การประยุกต์ใช้ในสาขาอื่นๆ ตัวอย่างการประยุกต์ใช้ ตัวอย่างที่ 1: การกรองอีเมลขยะหรือสแปม ‘สแปม’ (spam) เป็นคำ�ที่ใช้เรียกอีเมลที่เราไม่อยากได้ แต่ถูกส่งโดยอัตโนมัติไปให้ผู้รับจำ�นวนมาก (มักจะเป็นหลัก ล้านคน) อาจเป็นโฆษณาที่น่ารังเกียจหรือการหลอกลวงเอาเงิน เช่น ข้อเสนอเพื่อรวมหนี้ แผนรวยทางลัด ขายยา เคล็ดลับ การเล่นหุ้น และผลิตภัณฑ์เพิ่มความสุขทางเพศที่ชวนสงสัย หลักการของสแปมคือ ถ้าส่งอีเมลให้คนจำ�นวนมากพอก็เป็นไปได้ ว่าจะมีคนสนใจหรือหลงเชือ่ ถ้าไม่ใช่อเี มลจากคนทีเ่ ราเจาะจงขอ ข้อมูลแล้ว คนส่วนใหญ่จะไม่สนใจเนื้อหาในสแปม และไม่มีใคร


A

Very Short Introduction

31

อยากเสียเวลาอ่านหรือคอยลบ เราจึงต้องพึ่งตัวกรองสแปมซึ่ง เป็นโปรแกรมอัตโนมัติที่จะตรวจข้อความในอีเมลแล้วตัดสินว่า น่าจะเป็นสแปมหรือไม่ เราสามารถตัง้ ค่าตัวกรองให้ลบสแปมโดย อัตโนมัติ หรือส่งไปเก็บในโฟลเดอร์อนื่ เพือ่ รอตรวจสอบภายหลัง หรือดำ�เนินการอย่างอืน่ ทีเ่ หมาะสม ระหว่างทีเ่ ขียนหนังสือเล่มนี้ มีการประมาณว่าในแต่ละวันมีสแปมถูกส่งเก้าหมืน่ ล้านข้อความ และเพิม่ ขึน้ เรือ่ ยๆ ทุกเดือน ดังนัน้ กว่าทีค่ ณ ุ จะได้อา่ นหนังสือเล่ม นี้ตัวเลขก็คงเป็นจำ�นวนมหาศาล การป้องกันสแปมมีเทคนิคหลายอย่าง วิธอี ย่างง่ายๆ คือ ตรวจหาคำ�สำ�คัญในข้อความ เช่น ถ้ามีคำ�ว่า ‘viagra’ ก็จะบล็อก ข้อความนัน้ แต่การตรวจหาสแปมก็เหมือนกับการแข่งขันพัฒนา อาวุธ เมื่อคนที่ส่งสแปมรู้ตัวว่าอีเมลของตนถูกบล็อกด้วยวิธี ดังกล่าว พวกเขาก็จะหาทางเลี่ยง เช่น ตั้งใจสะกดผิดเป็น ‘v1agra’ หรือ ‘v-iagra’ ซึ่งคนสามารถรับรู้ว่าคืออะไร แต่ โปรแกรมไม่สามารถแยกแยะได้ โปรแกรมป้องกันสแปมที่ซับซ้อนเริ่มใช้โมเดลเชิงสถิติ ของคำ�ในข้อความที่เป็นสแปม เช่น ใช้ค่าประมาณของความ น่าจะเป็นที่คำ�บางคำ�หรือคำ�หลายคำ�ผสมกันนั้นจะอยู่ในสแปม ข้อความที่มีคำ�ซึ่งมีค่าความน่าจะเป็นสูงหลายคำ�มากเกินไปก็ จะถูกสงสัยว่าเป็นสแปม ตัวกรองสแปมที่ซับซ้อนหลายตัวใช้ วิธีสร้างโมเดลสำ�หรับหาความน่าจะเป็นที่คำ�คำ�หนึ่งจะตามด้วย คำ�อีกคำ� ดังนั้นจึงสามารถตรวจหาวลีต้องสงสัยหรือกลุ่มของคำ� ได้ นอกจากนี้ยังมีวิธีอื่นๆ ซึ่งใช้โมเดลเชิงสถิติที่สามารถตรวจ รูปภาพที่ส่งมาในอีเมลได้ด้วย เช่น หาโทนสีของผิว


32

Statistics

ตัวอย่างที่ 2: คดีของแซลลี คลาร์ก ปี 1999 แซลลี คลาร์ก (Sally Clark) ทนายความหญิง ชาวอังกฤษถูกดำ�เนินคดีและถูกพิพากษาให้จำ�คุกตลอดชีวิตใน ข้อหาฆาตกรรมลูกชายสองคน ลูกคนแรกของเธอเสียชีวิตใน ปี 1996 ตอนอายุได้ 11 สัปดาห์ ลูกคนที่สองเสียชีวิตในปี 1998 ตอนอายุ 8 สัปดาห์ คำ�ตัดสินพิจารณาจากคำ�กล่าวทีเ่ ข้าใจและใช้ สถิตอิ ย่างผิดๆ กุมารแพทย์เซอร์ รอย เมโดว์ (Sir Roy Meadow) ในฐานะพยานผู้เชี่ยวชาญในคดีได้อ้างว่าโอกาสที่ทารกสองราย จะเสียชีวิตกะทันหันโดยไม่ทราบสาเหตุ (cot death หรือโรค ใหลตายในเด็ก) มีเพียง 1 ใน 73 ล้าน เขาได้ตัวเลขนี้จากการ เอาโอกาสที่เด็กจะตายสองรายซึ่งไม่เกี่ยวข้องกันมาคูณกันโดย ขาดความเข้าใจในวิชาสถิติพื้นฐาน เขาได้ละเลยข้อเท็จจริงที่ว่า หากเด็กคนหนึง่ ในครอบครัวเสียชีวติ ในลักษณะดังกล่าว การตาย ของเด็กอีกคนในลักษณะเดียวกันก็มีโอกาสสูงขึ้น การศึกษาข้อมูลในอดีตแสดงให้เห็นว่าโอกาสที่ทารก ซึ่งสุ่มเลือกจากครอบครัวหนึ่งจะเป็นโรคใหลตายดังเช่นที่เกิด กับครอบครัวคลาร์กนั้นมีความน่าจะเป็นประมาณ 1 ใน 8,500 ถ้ามีใครทึกทักเอาว่าการเสียชีวิตนั้นไม่ได้เปลี่ยนแปลงความ น่าจะเป็นของการเสียชีวิตในรายอื่น ดังนั้นโอกาสที่จะเกิดการ เสียชีวิตสองรายในครอบครัวเดียวกันก็น่าจะเท่ากับ 1/8,500 คูณกับ 1/8,500 ซึ่งได้ประมาณ 1 ใน 73 ล้าน แต่การวิเคราะห์ ทางสถิตอิ ย่างละเอียดจากข้อมูลในอดีตพบว่าโอกาสทีจ่ ะพบเด็ก รายที่สองในครอบครัวเป็นโรคใหลตายนั้นเพิ่มขึ้นอย่างมากถ้า


A

Very Short Introduction

33

เคยมีเหตุการณ์เด็กเสียชีวิตมาแล้วด้วยโรคดังกล่าว อันที่จริง จากการคำ � นวณคาดว่ า การเสี ย ชี วิ ต ซํ้ า ซ้ อ นเช่ น นี้ จ ะเกิ ด ขึ้ น ทุกปีในประเทศทีม่ ปี ระชากรมากอย่างอังกฤษ เว็บไซต์ของมูลนิธิ เพื่อการวิจัยการเสียชีวิตของทารก (Foundation for the Study of Infant Death) ได้กล่าวว่า “การที่มีทารกใหลตายสองราย ในครอบครัวเดียวกันเป็นกรณีที่พบน้อยมาก แต่บางครั้งความ ผิดปกติที่สืบทอดทางพันธุกรรม เช่นความบกพร่องของเมตาโบลิซึมอาจเป็นสาเหตุของการเสียชีวิตแบบไม่คาดฝันในทารก มากกว่าหนึ่งราย” ในคดีของแซลลี คลาร์ก มีหลักฐานจำ�นวนมากบอก ว่าเธอบริสุทธิ์ และทราบแน่ชัดในภายหลังว่าลูกชายคนที่สอง ของเธอติดเชือ้ แบคทีเรียซึง่ รูก้ นั ว่ามีแนวโน้มทำ�ให้ทารกเสียชีวติ กะทันหัน นางคลาร์กพ้นข้อหาในชั้นอุทธรณ์ในปี 2003 แต่ น่าเศร้าที่เธอเสียชีวิตในเดือนมีนาคมปี 2007 ด้วยวัยเพียง 42 ปี รายละเอียดของความเข้าใจผิดอันเลวร้ายในเรื่องสถิติ และการใช้สถิติที่ผิดนี้อยู่ในบทความของเฮเลน จอยซ์ และ บนเว็บไซต์ในรายชื่อหนังสืออ่านเพิ่มเติมท้ายเล่ม ตัวอย่างที่ 3: กระจุกดาว เมื่อเราสำ�รวจจักรวาลได้กว้างไกลขึ้นก็พบว่าวัตถุทาง ดาราศาสตร์มกั เกาะกลุม่ กันเป็นลำ�ดับขัน้ นัน่ คือดวงดาวจะออกัน เป็นกระจุก และกระจุกดาวต่างๆ ก็รวมกันเป็นกระจุกดาวทีใ่ หญ่ ขึ้นไปอีก กาแล็กซีของเราซึ่งก็เป็นกระจุกดาวนั้นเป็นส่วนหนึ่ง ของกลุ่มโลคัล (local group) ที่มีเกือบ 30 กาแล็กซี กลุ่มโลคัล


34

Statistics

เป็นส่วนหนึง่ ของ มหากระจุกโลคัล (local supercluster) จักรวาล ในระดั บ ที่ ใ หญ่ ที่ สุ ด ดู ค ล้ า ยโฟมที่ มี เ ส้ น ใยประกอบด้ ว ยมหา กระจุกดาวตามขอบอวกาศอันเวิ้งว้าง แต่สิ่งเหล่านี้ถูกค้นพบ ได้อย่างไร ต่อให้เราใช้กล้องโทรทรรศน์ที่ทรงพลังที่สุดส่องดู จากโลก เราก็เห็นแค่ทอ้ งฟ้าทีม่ ดี วงดาว คำ�ตอบคือการใช้เทคนิค ทางสถิติเพื่อแตกโครงสร้างกระจุกดาวออกจากกัน บางเทคนิค ใช้วิธีคำ�นวณระยะห่างจากดาวดวงหนึ่งไปยังดวงอื่นๆ ที่ใกล้ ที่สุด ดาวดวงไหนมีดาวอื่นๆ อยู่ใกล้เป็นจำ�นวนมากก็คาดว่า ดาวดวงนั้นน่าจะอยู่ในบริเวณที่มีดาวหนาแน่นหรืออยู่ในกลุ่ม โลคัลนั่นเอง แน่นอนว่ามีปัญหาซับซ้อนกว่านั้น เมฆธุลีระหว่าง ดวงดาวจะบดบังการมองเห็นวัตถุที่อยู่ไกล แต่เมฆธุลีเหล่านี้ ไม่ ไ ด้ ก ระจายอยู่ อย่ า งสมํ่ า เสมอในอวกาศ เราจะเห็ น วั ต ถุ ที่ บางเบาได้กต็ อ่ เมือ่ มันอยูใ่ กล้โลกมากพอ สิง่ ทีเ่ ห็นเป็นสายบางๆ ของปลายสุดกาแล็กซีเมื่อมองจากโลกอาจเป็นกระจุกดาวที่ หนาแน่นก็ได้ จึงต้องอาศัยการปรับแก้ทางสถิติที่ซับซ้อนเพื่อ ให้เราแยกแยะสิ่งที่เป็นจริงออกจากวัตถุที่ดูกระจัดกระจาย ความเข้าใจเรื่องโครงสร้างของจักรวาลช่วยไขความ กระจ่างทั้งที่มาของจักรวาลและการเปลี่ยนแปลงในอนาคต ตัวอย่างที่ 4: การผลิตสารเคมี ดั ง ที่ ไ ด้ ก ล่ า วไปแล้ ว แม้ ว่ า นั ก สถิ ติ ส ามารถทำ � สิ่ ง ที่ น่าอัศจรรย์ แต่พวกเขาก็สร้างปาฏิหาริยไ์ ม่ได้ โดยเฉพาะในเรือ่ ง คุณภาพของข้อสรุปซึ่งถูกจำ�กัดโดยคุณภาพของข้อมูล จึงไม่น่า


A

Very Short Introduction

35

แปลกใจที่วิชาสถิติมีสาขาวิชาย่อยที่เน้นเรื่องวิธีรวบรวมข้อมูล ให้ดีที่สุดซึ่งจะกล่าวถึงในบทที่ 3 วิชาย่อยสาขาหนึ่งคือ การ ออกแบบการทดลอง เป็นเทคนิคที่ใช้ในสถานการณ์ที่สามารถ ควบคุมหรือจัดการ ‘ตัวแปร’ บางอย่างที่กำ�ลังศึกษา เครื่องมือ ในการออกแบบการทดลองทำ�ให้เราได้สารสนเทศมากที่สุดจาก ทรัพยากรที่มีให้ เช่น ในการผลิตพอลิเมอร์ตัวหนึ่งเราอาจตั้ง อุณหภูมิ ความดัน และเวลาของปฏิกิริยาเคมีเป็นค่าใดก็ได้ที่ ต้องการ ค่าที่ต่างไปทำ�ให้เกิดผลิตภัณฑ์ขั้นสุดท้ายที่มีคุณภาพ แตกต่างกัน คำ�ถามคือชุดค่าตัวแปรที่เหมาะสมที่สุดคืออะไร โดยหลักการแล้วนี่เป็นคำ�ถามที่ตอบง่าย เราแค่ผลิต พอลิเมอร์หลายๆ ชุดโดยใช้ค่าต่างๆ กันไปจากตัวแปรทั้งสาม วิธีนี้ทำ�ให้เราสามารถประมาณค่าของ ‘พื้นผิวการตอบสนอง’ (response surface) ที่แสดงคุณภาพของพอลิเมอร์แบบต่างๆ จากนั้นจึงเลือกชุดค่าตัวแปรที่ผลิตพอลิเมอร์คุณภาพดีที่สุด แต่จะทำ�อย่างไรถ้ากระบวนการผลิตพอลิเมอร์แต่ละชุด กินเวลาหลายวัน การผลิตหลายๆ ชุดเพื่อหาพอลิเมอร์ที่ดีที่สุด จึงเป็นไปไม่ได้ในทางปฏิบัติ ถ้าทำ� 100 ชุดแต่ละชุดใช้เวลา 3 วันก็ต้องใช้เวลาเกือบปี โชคดีว่าถ้าออกแบบการทดลองอย่าง ฉลาด เราจะได้สารสนเทศเหมือนเดิมแต่ใช้ชุดข้อมูลที่มีจำ�นวน น้อยลง บางครั้งการทดลองไม่กี่ชุดก็เพียงพอที่จะให้สารสนเทศ แก่เราว่าตัวแปรค่าใดบ้างที่ดีที่สุด ถ้าเรารู้จักเลือกการทดลอง เหล่านั้นอย่างเหมาะสม


36

Statistics

ตัวอย่างที่ 5: ความพึงพอใจของลูกค้า การบริหารกิจการค้าปลีกให้เติบโตและมีกำ�ไรต้องรู้จัก เอาใจใส่ลูกค้า มีผลิตภัณฑ์และบริการที่ลูกค้าต้องการ มิฉะนั้น ลูกค้าก็จะหนีไปหาคู่แข่งซึ่งให้สิ่งที่พวกเขาต้องการ สรุปก็คือ รายได้ที่ลดลงของกิจการบ่งบอกความล้มเหลวของการบริหาร ซึ่งอาจเลี่ยงได้ด้วยการรวบรวมข้อมูลว่าลูกค้ารู้สึกอย่างไรก่อน ที่ พวกเขาจะตั ด สิ น ใจควั ก กระเป๋ า เราสามารถสำ � รวจความ พึงพอใจของลูกค้า ถามพวกเขาว่าพอใจกับผลิตภัณฑ์หรือบริการ หรือไม่ และมีส่วนใดที่อยากให้ปรับปรุง ดูเผินๆ เหมือนว่าถ้าอยากได้ข้อสรุปที่น่าเชื่อถือซึ่ง สะท้อนพฤติกรรมของฐานลูกค้าทัง้ หมดก็ตอ้ งแจกแบบสอบถาม ให้ลูกค้าทุกคน ซึ่งเห็นชัดว่าต้องใช้เงินและเวลามหาศาล โชคดี ว่ามีวธิ เี ชิงสถิตทิ สี่ ามารถให้ผลลัพธ์ทแี่ ม่นยำ�พอจากกลุม่ ตัวอย่าง บางส่วนของลูกค้า ซึ่งผลลัพธ์ที่ได้บางครั้งอาจแม่นยำ�กว่าการ สำ�รวจความเห็นของลูกค้าทั้งหมดเสียอีก แต่เป็นที่ทราบกันดี ว่าการสำ�รวจข้อมูลต้องทำ�อย่างรอบคอบ และระวังที่จะไม่สรุป จากกลุ่มตัวอย่างที่บิดเบือน เช่น ในการอธิบายพฤติกรรมของ ลูกค้าทั่วไป ถ้าเราสัมภาษณ์แต่ลูกค้ากระเป๋าหนัก ผลลัพธ์ที่ ออกมาก็ไร้คา่ ยํา้ อีกครัง้ ว่าวิธเี ชิงสถิตถิ กู พัฒนาขึน้ เพือ่ หลีกเลีย่ ง ความผิดพลาดดังกล่าวและเพื่อให้ได้ข้อสรุปที่ถูกต้อง


A

Very Short Introduction

37

ตัวอย่างที่ 6: การตรวจจับการฉ้อโกงบัตรเครดิต ไม่ ใ ช่ ว่ า ธุ ร กรรมทุ ก อย่ า งของบั ต รเครดิ ต เป็ น สิ่ ง ถู ก กฎหมาย ธุรกรรมที่ฉ้อฉลทำ�ให้ธนาคารเสียเงินทั้งของลูกค้า และของธนาคาร การตรวจจับและป้องกันการฉ้อโกงจึงสำ�คัญยิง่ ผู้อ่านคงเคยเจอเหตุการณ์ที่ทางธนาคารโทรศัพท์มาสอบถาม ว่าได้ทำ�ธุรกรรมบางอย่างจริงหรือไม่ การสอบถามเหล่านี้อาศัย การทำ�นายจากโมเดลเชิงสถิติที่บอกลักษณะพฤติกรรมที่ถูก กฎหมายของลูกค้า ถ้ามีอะไรผิดไปจากสิง่ ทีโ่ มเดลทำ�นายก็ชวน ให้สงสัยว่ามีบางอย่างเกิดขึ้นและสมควรสืบสวน โมเดลลักษณะนี้มีหลายชนิด บางโมเดลอาศัยรูปแบบ พฤติกรรมที่ต้องสงสัยเพียงอย่างเดียว เช่น การใช้บัตรเครดิต ใบเดียวกันพร้อมกันจากสถานที่ซึ่งห่างไกลกันมาก บ้างก็อาศัย โมเดลทีซ่ บั ซ้อนกว่าซึง่ ดูจากนิสยั การทำ�ธุรกรรมของแต่ละบุคคล เช่น เวลาที่ทำ�ธุรกรรม จำ�นวนเงิน ลักษณะของร้านค้า หรือตัว สินค้าที่จับจ่ายเป็นต้น แน่นอนว่าไม่มโี มเดลใดทำ�นายได้สมบูรณ์แบบ รูปแบบ ของธุรกรรมจากบัตรเครดิตมักแปรผัน บางคนก็ตดั สินใจซือ้ ของ ฉับพลันอย่างที่ไม่เคยทำ�มาก่อน ยิ่งไปกว่านั้น ธุรกรรมที่ฉ้อฉล มีสัดส่วนเพียงเล็กน้อย บางทีแค่ 1 ใน 1,000 ซึ่งทำ�ให้การ ตรวจจับเป็นเรื่องยากเข้าไปอีก การตรวจจับและป้องกันการฉ้อฉลเป็นสงครามทีด่ �ำ เนิน อย่างต่อเนื่อง เมื่อลู่ทางการโกงแบบหนึ่งหมดไป มิจฉาชีพก็ ไม่คิดจะหันไปประกอบอาชีพสุจริต แต่จะเปลี่ยนไปใช้วิธีฉ้อโกง แบบอื่น ทำ�ให้เราต้องพัฒนาโมเดลเชิงสถิติกันต่อไป


38

Statistics

ตัวอย่างที่ 7: ภาวะเงินเฟ้อ เราต่ า งคุ้ น เคยกั บ ความคิ ด ที่ ว่ า เมื่ อ เวลาผ่ า นไป ข้าวของจะยิ่งแพงขึ้น แต่เราจะเปรียบเทียบค่าครองชีพในวันนี้ กับเมือ่ วานได้อย่างไร ในการทำ�เช่นนัน้ เราต้องเปรียบเทียบของ อย่างเดียวกันที่ซื้อมาจากทั้งสองวัน ปัญหาคือร้านค้าแต่ละร้าน ตั้งราคาสินค้าอย่างเดียวกันไม่เหมือนกัน คนเราซื้อของต่างกัน และคนคนเดียวกันก็อาจเปลี่ยนรูปแบบการซื้อของตน มีสินค้า ใหม่เกิดขึ้นในตลาด สินค้าเก่าก็หายไป เป็นต้น เราจะใช้การ เปลี่ยนแปลงเหล่านี้เพื่อดูว่าทุกวันนี้การใช้ชีวิตของเราแพงขึ้น จริงๆ ได้อย่างไร นักสถิติและนักเศรษฐศาสตร์สร้างตัวชี้วัด เช่น ดัชนี ราคาสินค้าปลีกและดัชนีราคาผูบ้ ริโภคเพือ่ วัดค่าครองชีพ ตัวชีว้ ดั เหล่านีอ้ าศัยแนวคิดเรือ่ ง ‘ตะกร้า’ สินค้า (หลายร้อยอย่าง) ทีผ่ คู้ น จับจ่าย พร้อมกับสำ�รวจราคาสินค้าแต่ละอย่างในตะกร้า โมเดล เชิงสถิติที่ซับซ้อนถูกใช้เพื่อรวมราคาของสินค้าต่างชนิดกัน ให้เป็นตัวเลขเดียวที่ใช้เปรียบเทียบข้ามเวลา นอกจากใช้เป็น ตัวชี้ภาวะเงินเฟ้อแล้ว ดัชนีเหล่านี้ยังใช้ในการปรับขั้นภาษีและ เงินเดือนหรือบำ�นาญที่เชื่อมโยงกับดัชนี สรุป สถิตอิ าจไม่ชดั เจนเสมอไปในสายตาของผูท้ ไี่ ม่ได้ฝกึ ฝน แต่สถิตแิ ละวิธเี ชิงสถิตเิ ป็นหัวใจของการค้นพบทางวิทยาศาสตร์ การค้า การปกครอง นโยบายเชิงสังคม การผลิต การแพทย์


A

Very Short Introduction

39

และผลงานด้านต่างๆ ของมนุษย์ ยิ่งไปกว่านั้นเมื่อโลกก้าวหน้า ขึ้น บทบาทของวิชาสถิติยิ่งทวีความสำ�คัญมากขึ้น เช่น ในการ พัฒนายาใหม่ๆ กฎระเบียบกำ�หนดไว้ว่าต้องมีนักสถิติเข้ามา เกี่ยวข้อง ปัจจุบันเริ่มมีเงื่อนไขทำ�นองนี้ในธุรกิจการธนาคาร ซึ่ ง ข้ อ ตกลงระหว่ า งประเทศฉบั บ ใหม่ ๆ บั ง คั บ ให้ ทำ � โมเดล ความเสี่ยงทางสถิติด้วย จากบทบาทอันยิ่งใหญ่เช่นนี้จึงเป็น เรื่องสำ�คัญที่ประชาชนผู้มีการศึกษาควรรู้จักหลักสถิติเบื้องต้น สถิ ติ ยุ ค ใหม่ พ ร้ อ มทั้ ง เครื่ อ งมื อ ซอฟต์ แ วร์ ที่ ทั น สมั ย ทำ � ให้ เ ราเดิ น ทางค้ น หาดิ น แดนใหม่ ๆ ที่ น่ า ตื่ น เต้ น เฉกเช่ น นักสำ�รวจยุคก่อนศตวรรษที่ 20 การตระหนักว่าวิชาสถิตทิ แี่ ท้จริง เป็นเรื่องการสำ�รวจสิ่งที่ไม่รู้ ไม่ใช่การคำ�นวณตัวเลขที่น่าเบื่อ คือหัวใจสำ�คัญของการเข้าใจวิชาสถิติยุคใหม่


40

Statistics

เชิงอรรถท้ายบท คำ�ตอบของแบบทดสอบความเข้าใจทีผ่ ดิ ๆ ในเรือ่ งสถิติ ขั้นพื้นฐาน: (1) เห็นชัดว่ายิ่งตรวจพบโรคเร็วเท่าใด คนไข้ก็ยิ่งมีชีวิตอยู่ ได้นานขึ้น ไม่ว่าจะมีการแทรกแซงทางการแพทย์หรือไม่ ก็ตาม (2) การลดราคา 25% หมายความว่าราคาถูกลงไป 1 ใน 4 แต่จากราคาที่ลดแล้วนี้ถ้าจะเพิ่มให้กลับไปเท่าเดิม ต้อง เพิ่มอีก 33% ไม่ใช่ 25% ตัวอย่างเช่น ราคาเดิมคือ 100 ปอนด์ ราคาที่ลดแล้ว 25% คือ 75 ปอนด์ ถ้าจะกลับไปขายราคา 100 ปอนด์ ก็ต้อง ขึ้นราคาอีก 25 ปอนด์ (จากราคาปัจจุบัน 75 ปอนด์) ซึ่ง คิดเป็น 25/75 × 100 = 33% (3) การคิดเช่นนี้สันนิษฐานว่าอายุขัยจะเพิ่มขึ้นด้วยอัตราเดียว กับที่เพิ่มในอดีต (4) ถ้ามีเด็กถูกยิงเสียชีวิต 1 คนในปี 1950 ก็หมายความว่ามี เด็กถูกยิง 2 คนในปี 1951, 4 คนในปี 1952, 8 คนในปี 1953, 16 คนในปี 1954 ถ้าเป็นเช่นนี้ไปเรื่อยๆ จนถึงปัจจุบัน จำ�นวนเด็กที่เสียชีวิตจะมีมากกว่าประชากรทั้งหมดในโลก (ตัวอย่างจากหนังสือของโจเอล เบสต์ ในรายการเอกสาร อ่านเพิ่มเติม)


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.