การเตรียมข้ อมูลเพือ่ การวิเคราะห์ ด้วยโปรแกรมสํ าเร็จรู ปทางสถิติ
นิคม ละอองศิริวงศ์ และลักขณา ละอองศิริวงศ์ สถาบันวิจยั การเพาะเลี้ยงสัตว์น้ าํ ชายฝั่ง สํานักวิจยั และพัฒนาประมงชายฝั่ง กรมประมง บทนํา
การวิเคราะห์ ข ้อมูล เป็ นหนึ่ ง ในกระบวนการย่อยของกระบวนการวิจยั กระบวนการนี้ ดําเนินการหลังจากได้เก็บรวบรวมข้อมูลเสร็ จเรี ยบร้อยแล้ว โดยมีความมุ่งหมายเพื่ออธิ บายผลของ การเก็บรวบรวมข้อมูลที่สมบูรณ์แล้วในรู ปที่จะตอบคําถามการวิจยั หรื อพิสูจน์สมมุติฐาน ปั จจุบนั การวิเคราะห์ หรื อประมวลผลข้อมูลทําได้สะดวกรวดเร็ วและมีความแม่นยํา แม้จะมี ขอ้ มูลเป็ น จํานวนมากและซับซ้อนเพียงใดก็ตาม เนื่ องจากมีการใช้โปรแกรมสําเร็ จรู ปช่ วยในการวิเคราะห์ ข้อมูลกันอย่างกว้างขวาง ในการวิเคราะห์ขอ้ มูลด้วยโปรแกรมสําเร็ จรู ปจําเป็ นต้องมีการเตรี ยมหรื อการจัดระเบียบ ข้อมูลที่เรี ยกว่า “ข้อมูลดิ บ” ให้ตรงตามรู ปแบบที่แต่ละโปรแกรมต้องการ หรื อให้สอดคล้องกับ แบบแผนการวิจยั หากผูว้ ิจยั จัดเตรี ยมข้อมูลไม่ถูกต้องตามนั้นอาจทําให้ตอ้ งเสี ยเวลาเตรี ยมข้อมูล ใหม่ ซึ่ งกระบวนการวิเคราะห์ขอ้ มูลพอจะแบ่งได้เป็ น 3 ขั้นตอนใหญ่ๆ คือ 1) การเตรี ยมข้อมูล หรื อการจัดการข้อมูล (data management) 2) การวิเคราะห์ขอ้ มูล (data analysis) และ 3) การ ตรวจสอบความถูกต้อง การตีความ และการสรุ ปผลการวิเคราะห์ (verification, interpretation and conclusion) บทความนี้จะนําเสนอเฉพาะการเตรี ยมหรื อการจัดการข้อมูลเท่านั้น การเตรียมข้ อมูล ข้อมูลในงานวิจยั มีท้ งั ที่ผวู้ ิจยั เก็บรวบรวมด้วยตนเอง ข้อมูลที่ผวู้ ิจยั ไม่ได้เก็บรวบรวมด้วย ตนเอง หรื อได้จากทั้งสองแหล่ง ข้อมูลที่ผวู้ ิจยั เก็บรวบรวมด้วยตนเองมักจะถูกบันทึกไว้ในสมุด หรื อแบบฟอร์ มที่เตรี ยมไว้ ซึ่งยังไม่พร้อมที่จะดําเนินการวิเคราะห์ดว้ ยโปรแกรมสําเร็ จรู ปทางสถิติ หรื อกรณี ใช้ขอ้ มูลจากแหล่ งอื่นส่ วนมากก็ยงั ไม่พร้อมที่จะวิเคราะห์ด้วยโปรแกรมสําเร็ จรู ปทาง สถิติดว้ ยเช่นกัน ข้อมูลเหล่านี้จึงต้องนําเข้าและจัดเก็บเป็ นไฟล์ไว้ในคอมพิวเตอร์ เสี ยก่อน ก่อนดําเนินการบันทึกข้อมูลผูว้ จิ ยั จะต้องวางรู ปแบบโครงสร้างของข้อมูลให้สัมพันธ์กบั การใช้งานของชุดคําสั่งที่มีอยูใ่ นโปรแกรมเพื่อให้พร้อมสําหรับการวิเคราะห์ โดยทัว่ ไปรู ปแบบ โครงสร้างของข้อมูลที่เหมาะสมกับการวิเคราะห์ดว้ ยโปรแกรมสําเร็ จรู ปทางสถิติจะเป็ นแบบลําดับ ชั้น (Category) มากกว่าเป็ นแบบตาราง (table) ดังนั้นรู ปแบบการจัดเก็บข้อมูลจะเป็ นไปในลักษณะ ตาราง 2 มิติ คือ ในแถว (row) ของตารางมีความสอดคล้องกับหน่วยการทดลองแต่ละหน่วย และ สดมภ์ (column) ของตารางจะบันทึกข้อมูลของแต่ละหน่วยทดลองซึ่ งจะเป็ นไปในสองลักษณะ คือ
1) ข้อมูลเกี่ยวกับหน่วยทดลอง เช่น วิธีการ (treatment)หรื อปั จจัย ลําดับที่สุ่มวัด จํานวน ซํ้า จํานวนบล็อก เป็ นต้น 2) ข้อมูลเกี่ยวกับตัวแปรของหน่วยทดลอง เช่น นํ้าหนัก ความยาว ความดกไข่ เป็ นต้น นอกจากนั้นการตั้งชื่ อตัวแปรควรตั้งชื่ อเป็ นภาษาอังกฤษให้สอดคล้องและสื่ อความหมาย กับตัวแปรนั้นๆ เพื่อความสะดวกในการวิเคราะห์ เนื่องจากโปรแกรมสําเร็ จรู ปทางสถิติที่ใช้กนั ใน ในปัจจุบนั บางโปรแกรมไม่รองรับภาษาไทย สําหรับค่าของข้อมูลควรบันทึกเป็ นตัวเลข โปรแกรมคอมพิวเตอร์ ทใี่ ช้ เตรียมข้ อมูล โปรแกรมหรื อซอฟท์แวร์ คอมพิวเตอร์ ที่นิยมใช้จดั เก็บหรื อเตรี ยมข้อมูลเพื่อดําเนิ นการ วิเคราะห์ดว้ ยโปรแกรมสําเร็ จรู ปทางสถิติน้ นั สามารถแบ่งได้เป็ น 3 ประเภท คือ 1) โปรแกรมกลุ่มตารางข้อมูลหรื อกระดาษทด (spread sheets) : โปรแกรมประเภทนี้ สามารถจัดการได้ท้ งั ข้อมูลเชิ งตัวเลขและข้อความ (text) รวมทั้งมีความสามารถในการจัดทํา แผนภู มิ แ ละการคํา นวณค่ า ทางสถิ ติ ต่ า งๆ นอกจากนั้น ยัง สามารถใช้จ ัด การข้อ มู ล ได้ เช่ น Microsoft excel เป็ นต้น 2) โปรแกรมฐานข้อมูล : โปรแกรมประเภทนี้ถูกออกแบบเพื่อจัดการฐานข้อมูล การแก้ไข การกูก้ ลับคืนข้อมูลที่เป็ นตัวเลขและข้อความ โปรแกรมประเภทนี้ มีความสามารถสู งสําหรับการ สร้ า ง การจัดเรี ย ง และการแสดงข้อมู ล แต่ไ ม่มี ค าํ สั่ง เกี่ ย วกับ การจัดทํา แผนภู มิ เช่ น Microsoft access เป็ นต้น 3) โปรแกรมทางสถิติ : เป็ นโปรแกรมใช้สําหรับประมวลผลข้อมูลเกี่ยวกับตัวเลข และ ดําเนิ นการวิเคราะห์และทดสอบสมมติฐานทางสถิติ เช่น โปรแกรม SAS โปรแกรม Minitab โปรแกรม SPSS โปรแกรม SYSTAT เป็ นต้น โปรแกรมทางสถิติเหล่านี้สามารถจัดเตรี ยมข้อมูล โดยป้ อนลงได้โดยตรง หรื อนําเข้ามาจากแฟ้ มข้อมูลที่มีรูปแบบอื่นๆ ก็ได้ เช่ น โปรแกรม SAS สามารถนําเข้าข้อมูลจาก Microsoft excel (ภาพที่ 1)
ชุดคําสัง่ สําหรับนําเข้าข้อมูลจากโปรแกรม Microsoft excel
ภาพที่ 1 ชุดคําสั่งสําหรับนําเข้าข้อมูลจากโปรแกรม Microsoft excel ของโปรแกรม SAS นอกจากนี้ ยัง มี โ ปรแกรมคอมพิ ว เตอร์ ที่ เ รี ย กว่า ระบบภู มิ ส ารสนเทศ (geographical information system) หรื อ GIS โปรแกรมนี้นอกจากถูกออกแบบเพื่อเชื่อมโยงข้อมูลกับที่ต้ งั ทาง ภูมิ ศ าสตร์ และแสดงสิ่ ง ที่ ไ ด้ใ นรู ป แผนที่ เป็ นหลัก แล้ว ยัง สามารถนํา เข้า ข้อ มูล แล้วดํา เนิ นการ วิเคราะห์ขอ้ มูลได้เช่นกัน การบันทึกข้อมูลเข้าสู่ คอมพิวเตอร์ ตอ้ งทําแฟ้ มข้อมูลสํารอง (backup file) ไว้ทุกครั้ง และ ควรจัดพิมพ์ขอ้ มูลออกมาเป็ นข้อมูลถาวร (hard copy) เพื่อใช้ตรวจสอบความความถูกต้องของ ข้อ มูล ในกรณี ข ้อ มู ล ที่ เก็ บ ไว้ใ นคอมพิ ว เตอร์ ถู ก ทํา ลายหรื อ เสี ย หายเนื่ อ งจากสาเหตุ ใ ดๆ เช่ น ฮาร์ดดิสก์หรื อ handy drive เสี ยหรื อถูกไวรัสคอมพิวเตอร์ทาํ ลาย ข้อเสนอแนะในการเตรี ยมข้อมูลเข้าสู่ คอมพิวเตอร์ สําหรับงานวิจยั แต่ละประเภทและ/หรื อ แต่ละแบบแผนการวิจยั 1) งานวิจยั เชิงทดลอง
งานวิจยั เชิงทดลองอาจเป็ นการวิจยั ที่มีแบบแผนการวิจยั ไม่มีแบบแผนการวิจยั หรื อกึ่งมี แบบแผนการวิจยั ก็ได้ แต่งานวิจยั เชิงทดลองส่ วนใหญ่จะมีแบบแผนการวิจยั ชัดเจน ส่ วนงานวิจยั เชิงทดลองที่ไม่มีแบบแผนการวิจยั เช่น งานวิจยั เกี่ยวกับระบบการเลี้ยงสัตว์น้ าํ แบบนํ้าหมุนเวียน (recirculation aquaculture systems, RAS) ข้อมูลที่ได้จากงานวิจยั เชิงทดลองมีนอ้ ยและใช้เฉพาะ การวิจยั นั้นๆ จึงนิยมจัดเก็บไว้ดว้ ย Microsoft excel ในภาพที่ 2 แสดงการเตรี ยมข้อมูลจากงานวิจยั เชิงทดลองที่ใช้แผนการวิจยั แบบแฟคทอเรี ยลในการสุ่ มตลอดสมบูรณ์ซ่ ึ งจะเป็ นแบบลําดับชั้น คือ จัดให้ปัจจัย (factor) ที่สนใจเป็ นเสมือนตัวแปรตัวหนึ่งอยูใ่ นแนวตั้งแทนที่จะจัดอยูใ่ นแนวนอน ความถี่การสุ่มวัด ตัวแปรของหน่วย ลําดับที่ของสัตว์ ทดลองที่สุ่มวัด
ทรี ตเม็นต์ : -ระดับความเค็ม : 0, 15, 25 ppt -ชนิ ดอาหาร : pro, hig, fis ซํ้า
ข้อมูลเกี่ยวกับตัวแปรของหน่ วยทดลอง - ความยาว - นํ้าหนัก
ภาพที่ 2 รู ปแบบการเตรี ยมข้อมูลสําหรับแผนการวิจยั แบบแฟคทอเรี ยลในการสุ่ มตลอด สมบูรณ์ ในการวางแผนแบบ repeated measures ซึ่ งเป็ นแผนการวิจยั ที่ใช้ระดับของปั จจัยต่อหน่วย ทดลองทั้งหมด หรื อเป็ นแผนการวิจยั ที่มีการเก็บตัวอย่างซํ้าจากหน่วยทดลองเดิม แผนการวิจยั แบบ
นี้จะใช้การวิเคราะห์ความแปรปรวนของการเก็บตัวอย่างซํ้า (repeated ANOVA) รู ปแบบการเตรี ยม ข้อมูลของการวางแผนแบบ repeated measures แสดงดังภาพที่ 3
ภาพที่ 3 รู ปแบบการเตรี ยมข้อมูลสําหรับงานวิจยั ที่วางแผนแบบ repeated measures 2) ข้อมูลจากงานวิจยั เชิงสํารวจ งานวิจยั เชิงสํารวจจะต้องเก็บข้อมูลให้ครอบคลุมทั้งพื้นที่และเวลาเพื่อให้ขอ้ มูล (หรื อ ตัวอย่าง)ที่ได้เป็ นตัวแทนของประชากรอย่างแท้จริ งจึงมักมีขอ้ มูลเป็ นจํานวนมาก นอกจากนั้น ข้อมูลงานวิจยั เชิงสํารวจอาจมีประโยชน์ต่องานวิจยั เรื่ องอื่นๆด้วย หากมีการจัดเก็บข้อมูลต่อเนื่อง อย่างสมํ่าเสมอนานหลายๆ ปี เช่น งานวิจยั เกี่ยวกับทรัพยากรประมง งานวิจยั เกี่ยวกับคุณภาพนํ้า งานวิจยั เกี่ยวกับแพลงก์ตอนหรื อสัตว์หน้าดิน เป็ นต้น ข้อมูลจากงานวิจยั เชิงสํารวจจึงควรจัดเก็บไว้ ในรู ปแบบของฐานข้อมูล 1ด้วยโปรแกรม Microsoft access หรื อโปรแกรมฐานข้อมูลอื่นๆ ภาพที่ 4 0
1
ฐานข้อมูล หมายถึง การรวบรวมข้อมูลที่สมั พันธ์กนั และกําหนดรู ปแบบการจัดเก็บอย่างเป็ นระบบ (จรณิ ต, 2538)
แสดงการเตรี ยมข้อมูลงานวิจยั คุณภาพนํ้าด้วยโปรแกรม Microsoft access ซึ่ งสามารถ export เป็ น ไฟล์ที่มีนามสกุลเป็ น .xls (ภาพที่ 5 ) รวมถึงไฟล์ที่มีนามสกุลอื่นๆ
ภาพที่ 4 การเตรี ยมข้อมูลสําหรับงานวิจยั เชิงสํารวจด้วยโปรแกรม Microsoft access
ภาพที่ 5 ข้อมูลงานวิจยั เชิงสํารวจที่ถ่ายโอนจากโปรแกรม Microsoft access เป็ น Microsoft excel 3) ข้อมูลอื่นๆ ปั จจุบนั กรมประมงมีภารกิจที่อยูใ่ นความรับผิดชอบหลายอย่าง รวมถึงการให้บริ การแก่ ประชาชนมาเป็ นระยะเวลานาน และครอบคลุมพื้นที่ทว่ั ประเทศ จึงมีขอ้ มูลที่ได้จดบันทึกไว้เป็ น จํานวนมาก เช่น การตรวจสารตกค้างในวัตถุดิบสัตว์น้ าํ (oxytetracycline, oxolinic acid เป็ นต้น)
การติดตามตรวจสอบคุณภาพนํ้าบริ เวณแหล่งเพาะเลี้ยงสัตว์น้ าํ ฯลฯ ปั จจุบนั ข้อมูลเหล่านี้ถูกใช้ ประโยชน์เพียงแค่เป็ นผลการปฏิบตั ิงานประจําเดือนหรื อประจําปี ของหน่วยงานเท่านั้น ส่ วนการใช้ ประโยชน์ดา้ นอื่นจากข้อมูลเหล่านี้มีนอ้ ยมาก ซึ่ งหากได้ดาํ เนินการสังเคราะห์เพื่อดึงเอาข้อมูลสาร สนเทศ (information) ก็จะมีประโยชน์ต่อการบริ หารจัดการเป็ นอย่างมาก แต่การกระทําดังกล่าว อาจยุง่ ยากและล่าช้าเนื่องจากข้อมูลไม่ได้จดั เก็บเป็ นไฟล์อีเล็กทรอนิกส์ ด้วยเหตุน้ ีขอ้ มูลที่ได้จาก กิจกรรมหรื องานประจําควรจัดเก็บเป็ นไฟล์อีเล็กทรอนิกส์ในรู ปแบบฐานข้อมูล เพราะสามารถส่ ง ออกไฟล์ขอ้ มูลเพื่อนําไปวิเคราะห์ดว้ ยโปรแกรมสําเร็ จรู ปทางสถิติได้
ข้ อมูลทีไ่ ม่ ใช่ ตัวเลขทําอย่ างไรดี
ข้อมูลงานวิจยั ที่ได้จากห้องปฏิบตั ิการทดสอบทางเคมีจะมีค่าที่ต่าํ กว่าขีดจํากัดการวัด (limit of detection, LOD) รวมอยูด่ ว้ ยเสมอ เช่น ข้อมูลคุณภาพนํ้า ข้อมูลสารตกค้าง เป็ นต้น ค่าเหล่านี้จะ ถูกรายงานเป็ นค่ากึ่งตัวเลข (seminumerical values) ซึ่ งประกอบด้วยเงื่อนไขที่ช้ ีวา่ สิ่ งที่วเิ คราะห์มี ค่าตํ่ากว่าช่วงความน่าเชื่อถือสําหรับการวัดเชิงปริ มาณได้อย่างแม่นยํา โดยทัว่ ไปค่าเหล่านี้จะถูกราย งานเป็ น “ non detects, ND” หรื อ “less thans, < ” หรื อ “ครึ่ งหนึ่งของขีดจํากัดการวัด, 0.5 LOD” หรื อ “0” ข้อมูลที่มีค่าในลักษณะนี้เรี ยกว่า “censored data” ซึ่ งสามารถสร้างความบิดเบือนอย่าง รุ นแรงต่อผลการวิเคราะห์ทางสถิติ ปั จจุบนั ยังไม่มีแนวทางที่ดีที่สุดในการแก้ปัญหานี้ เมื่อมีขอ้ มูล ลักษณะนี้จาํ เป็ นต้องอาศัยวิธีการรายงานผลที่เหมาะสม โดยมีแนวทางที่เป็ นไปได้ดงั นี้ (1) คํานวณค่าทางสถิติต่างๆ โดยใช้ค่าที่ได้ท้งั หมดรวมทั้งค่าทั้งหมดที่บนั ทึกเป็ น < หรื อ LT (2) คํานวณค่าทางสถิติต่างๆ โดยใช้เฉพาะค่าที่สมบูรณ์ ไม่ใช้ค่าใดๆ ที่เป็ น < หรื อ LT (3) คํานวณค่าทางสถิติต่างๆ โดยใช้ค่าที่สมบูรณ์ และแทนที่ค่าทั้งหมดที่เป็ น < หรื อ LT ด้วย 0 (4) คํานวณค่าทางสถิติต่างๆ โดยใช้ค่าที่สมบูรณ์ และแทนที่ค่าทั้งหมดที่เป็ น < หรื อ LT ด้วยค่าครึ่ งหนึ่งของค่า LOD (5) ใช้ค่ามัธยฐานซึ่ งเป็ นค่าที่ไม่อ่อนไหวต่อค่าที่แตกต่างไปจากกลุ่มตัวอย่างส่ วนใหญ่ (extreme values)
การตรวจสอบข้ อมูล เมื่อป้ อนข้อมูลตามรู ปแบบโครงสร้างที่ตอ้ งการเสร็ จแล้ว ขั้นตอนต่อมาของการเตรี ยม ข้อมูล คือ การตรวจสอบข้อมูล ขั้นตอนนี้เป็ นการควบคุมคุณภาพซึ่ งเป็ นส่ วนที่จาํ เป็ นสําหรับการ วิเคราะห์ขอ้ มูล โดยเริ่ มด้วยการมองหาค่าที่แตกต่างไปจากกลุ่มตัวอย่างส่ วนใหญ่ (extreme values)
โดยใช้ฟังก์ชนั minimum-maximum ของโปรแกรม Microsoft excel หรื อใช้สายตากวาดไปบน แผ่นตารางข้อมูลก็ได้ (แต่อาจทําได้ไม่ทวั่ ถึง) ซึ่ งอาจพบความผิดพลาดของข้อมูลได้ (เช่น อุณหภูมิ นํ้าเป็ น 3.02 องศาเซลเซี ยส แทนที่จะเป็ น 30.2 องศาเซลเซียส หรื อ พีเอช เป็ น 0.78 แทนที่จะเป็ น 7.8) ผูว้ จิ ยั ไม่ควรตัดค่าที่แตกต่างจากกลุ่มตัวอย่างส่ วนใหญ่ทิง้ ไปเว้นแต่มีเหตุผลเพียงพอ (เช่น ค่า แอมโมเนียสู งในบีคเกอร์ /ตัวอย่างที่พบแมลงวันลอยอยูใ่ นระหว่างการวิเคราะห์) เพราะอาจสะท้อน ถึงความผันแปรที่แท้จริ งของสิ่ งที่ตอ้ งการศึกษา(ระบบ) หรื อให้มุมมองที่มีคุณค่าไปสู่ แหล่งของ ความผันแปรที่ไม่ได้ทดสอบอื่นๆได้ดว้ ย อย่างไรก็ตามในการตรวจสอบข้อมูลโดยการแยกค่าที่ ถูกต้องกับความคลาดเคลื่อนของข้อมูลนั้นต้องอาศัยประสบการณ์ นอกจากนี้การตรวจสอบข้อมูล อาจรวมไปถึงการตรวจสอบการแจกแจงของข้อมูลในตัวแปรต่างๆ ว่าเป็ นไปตามข้อตกลงของการ ทดสอบสมมติฐาน (assumption) หรื อไม่ เช่น การแจกแจงแบบปกติ
บรรณานุกรม จรัญ จันทลักขณา และ กษิดิศ อื้อเชี่ยวชาญกิจ. 2551. คัมภีร์การวิจยั และการเผยแพร่ สู่ นานาชาติ (ฉบับปรับปรุ ง). นิ ติธรรมการพิมพ์, นนทบุรี. 262 หน้า. ภิรมย์ กมลรัตนกุล, มนต์ชยั ชาลาประวรรตน์ และทวีสิน ตันประยูร (บรรณาธิ การ). 2548. หลักการ ทําวิจยั ให้สาํ เร็ จ. พิมพ์ครั้งที่ 4. เท็กซ์แอนด์เจอร์นลั พับลิเคชัน, กรุ งเทพฯ. 148 หน้า. ทวี หอมชง. 2544. หลักการทํางานวิจยั ทางวิทยาศาสตร์ . สุ วรี ิ ยาสาส์น, กรุ งเทพฯ. 200 หน้า. ลัดดาวัลย์ เพชรโรจน์ และ อัจฉรา ชํานิประศาสน์. 2545. ระเบียบวิธีการวิจยั . พิมพ์ดีการพิมพ์, นนทบุรี. 233 หน้า. วิภูษิต มัณฑะจิตร. 2540. การวิเคราะห์สถิติและการออกแบบการทดลอง (ทางวาริ ชศาสตร์ ). ภาควิชาวาริ ชศาสตร์ , คณะวิทยาศาสตร์ มหาวิทยาลัยบูรพา. 294 หน้า. Atkinson, G. 2001. Analysis of repeated measurements in physical therapy research. Physical therapy in sport. 2: 194-208. Bartram, J. and R. Balance (editor). 1996. Water quality monitoring. Chapman & Hall, London. 383 pp. Chapman, D. (editor). 1996. Water quality assessments. 2nd edition. E & FN SPON, Cambridge. 626 pp. Egna, H.S. and C.E. Boyd (editor). 1997. Dynamics of pond aquaculture. CRC press, Florida. 437 pp.
Lee, L. and D. Helsel. 2005. Statistical analysis of water-quality data containing multiple detections: S-language software for regression on order statistics. Computer Geosciences. 31: 1241-1248. Litiell, R.C., P.R. Henry and C.B. Ammerman. 1997. Statistical analysis of repeated measures data using SAS procedures. Journal of animal Science. 76: 1216-1231. McBride, B.G. 2005. Using statistical methods for water quality management: Issues, problems and solution. John Wiley & Sons. New Jersey. 313 pp.