‡°√Á¥§«“¡√Ÿâ...∑“ß ∂‘µ‘
‡°√Á¥§«“¡√Ÿâ...∑“ß ∂‘µ‘
‡∑§π‘§°“√µ√«® Õ∫·≈–°“√µ√«®™”√–¢âÕ¡Ÿ≈ (Techniques for Screening and Cleaning Data) √—™Æ“ ß“¡√Ÿª*
∫∑π” ¢âÕ¡Ÿ≈º‘¥æ≈“¥ (Errors) „πß“π«‘®—¬ ‡ªìπ¢âÕ¡Ÿ≈∑’ªË √–°Õ∫‰ª¥â«¬¢âÕ¡Ÿ≈ 3 √Ÿª·∫∫ ‰¥â·°à ¢âÕ¡Ÿ≈‰¡à∂Ÿ°µâÕß (Inaccurate) ¢âÕ¡Ÿ≈‰¡à ¡∫Ÿ√≥å (Incomplete) ·≈–¢âÕ¡Ÿ≈‰¡à Õ¥§≈âÕß (Inconsistency) ¢â Õ ¡Ÿ ≈ µà “ ßÊ ‡À≈à “ π’È ‡ ªì 𠓇Àµÿ ∑”„Àâ°“√«‘‡§√“–Àå¢âÕ¡Ÿ≈‡°‘¥§«“¡§≈“¥‡§≈◊ËÕπ àߺ≈„Àâ°“√ √ÿª·≈–Õ¿‘ª√“¬º≈°“√«‘®—¬‰¡à¡’ ª√– ‘∑∏‘¿“æ¡’‚Õ°“ ∫‘¥‡∫◊Õπ®“°§«“¡‡ªìπ®√‘ß ‡¡◊ÕË ºŸÕâ “à ππ”º≈°“√«‘®¬— ‰ª„™âÕ“®°àÕ„À⇰‘¥º≈‡ ’¬ Õ“∑‘‡™àπ ‡ ’¬ß∫ª√–¡“≥ «— ¥ÿÕÿª°√≥å œ≈œ ·µà º≈≈— æ ∏å §◊ π °≈— ∫ ¡“‰¡à ¡’ ª √– ‘ ∑ ∏‘ ¿ “æÀ√◊ Õ ¡’ · µà πâ Õ ¬¡“°‰¡à §ÿâ ¡ §à “ °— ∫ ∑√— æ ¬“°√∑’Ë Ÿ ≠ ‡ ’ ¬ ‰ª ”À√—∫§«“¡º‘¥æ≈“¥¢ÕߢâÕ¡Ÿ≈π—Èπ‡°‘¥‰¥â®“° °“√π”‡¢â“¢âÕ¡Ÿ≈‰¡à∂Ÿ°µâÕß ‡™àπ ·À≈àߢâÕ¡Ÿ≈‰¥â ¡“®“°≈“¬¡◊Õ‡¢’¬πÀ√◊Õ print out µ—«Àπ—ß ◊Õ‡≈Á° Õà“π‰¡àÕÕ° ∑”„ÀâµâÕ߇¥“«à“‡¢’¬π«à“Õ–‰√ §«“¡ √’∫‡√àߢÕß°“√π”‡¢â“¢âÕ¡Ÿ≈°Á¡’‚Õ°“ ∑”„Àâπ” ‡¢â“¢âÕ¡Ÿ≈‰¡à∂Ÿ°µâÕߥ⫬‡™àπ°—π À√◊Õ§«“¡º‘¥ æ≈“¥¢Õߢâ Õ ¡Ÿ ≈ ‡°‘ ¥ ®“°°“√√«¡¢â Õ ¡Ÿ ≈ ¥â « ¬ ‚ª√·°√¡§Õ¡æ‘ « ‡µÕ√å ∑’Ë π”‡¢â “ ¢â Õ ¡Ÿ ≈ ¥â « ¬§π
À√◊Õ‡«≈“·µ°µà“ß°—π·≈â«π”¢âÕ¡Ÿ≈¡“√«¡°—π∑’À≈—ß ‡ªìπµâπ ¥—ßπ—Èπ°àÕπ°“√«‘‡§√“–Àå¢âÕ¡Ÿ≈®÷ß®”‡ªìπ µâ Õ ß¡’ ° “√µ√«® Õ∫ (Screening) ·≈–°“√ µ√«®™”√–¢âÕ¡Ÿ≈ (Cleaning Data) °àÕπ‡ ¡Õ
°“√µ√«® Õ∫ (Screening) °“√µ√«® Õ∫‡ªìπ°“√µ√«®À“§«“¡º‘¥ æ≈“¥∑’ˇ°‘¥®“°°“√π”‡¢â“¢âÕ¡Ÿ≈ ´÷Ëߧ«“¡º‘¥ æ≈“¥π’È®”‡ªìπ∑’Ë®–µâÕß¡’°“√µ√«®™”√–¢âÕ¡Ÿ≈ ‡æ◊ËÕ∑”„Àâ¢âÕ¡Ÿ≈ ¡∫Ÿ√≥å ¡’§«“¡ Õ¥§≈âÕß À√◊Õ ¡’§«“¡∂Ÿ°µâÕß¡“°∑’Ë ÿ¥¥â«¬§à“∑’ˇªìπ‰ª‰¥â°àÕπ 𔉪 Ÿà°√–∫«π°“√«‘‡§√“–Àå¢âÕ¡Ÿ≈µàÕ‰ª ¬° µ—«Õ¬à“ß°“√µ√«® Õ∫ ‡™àπ ¢âÕ¡Ÿ≈ß“π«‘®—¬¡’°“√ ‡°Á∫µ—«·ª√ 6 µ—«·≈–√–∫ÿ√À— „π§Ÿà¡◊Õ√À— ¥—ßπ’È µ—«·ª√À¡“¬‡≈¢·∫∫ Õ∫∂“¡ (ID) §à“∑’ˇªì𠉪‰¥âµ“¡√À— §Ÿà¡◊Õ(Codebook) ∑’Ë°”À𥉫â§◊Õ 01-11 ·≈– 99 = ¢âÕ¡Ÿ≈ Ÿ≠À“¬ ,µ—«·ª√™◊ËÕ °ÿ≈ (NAME) °”Àπ¥„Àâπ”‡¢â“¢âÕ¡Ÿ≈¥â«¬ (™◊ÕË , °ÿ≈), µ—«·ª√‡æ» (SEX) ∑’Ë°”À𥉫â§◊Õ 1 = ™“¬ 2 = À≠‘ß ·≈– 9 = ¢âÕ¡Ÿ≈ Ÿ≠À“¬ ,µ—«·ª√Õ“¬ÿ (ªï)´÷ßË °”Àπ¥„Àâ°√Õ°¢âÕ¡Ÿ≈‡ªìπ§à“Õ“¬ÿ®√‘߇ªìπªï
*‚√ß欓∫“≈ à߇ √‘¡ ÿ¢¿“æµ”∫≈∫â“π≈“¥™â“ß ”π—°ß“π “∏“√≥ ÿ¢®—ßÀ«—¥π§√𓬰
68
°√°Æ“§¡ - °—𬓬π 2554
°√¡Õπ“¡—¬ à߇ √‘¡„Àâ§π‰∑¬ ÿ¢¿“楒
‡∑§π‘§°“√µ√«® Õ∫·≈–°“√µ√«®™”√–¢âÕ¡Ÿ≈(Techniques for Screening and Cleaning Data)
°”Àπ¥„Àâ¡’§à“∑’ˇªìπ‰ª‰¥âÕ¬Ÿà√–À«à“ß 15-60 ªï 88 = ‰¡à∑√“∫ 99 = ¢âÕ¡Ÿ≈ Ÿ≠À“¬, °√≥’∑’Ë¡’ µ—«·ª√µÕ∫ „™à/‰¡à„™à ¬°µ—«Õ¬à“߇™àπ ·ª√¢âÕ §”∂“¡∑’∂Ë “¡«à“∑à“π¢—∫√∂¬πµåÀ√◊Õ‰¡à (DRIVE) °”Àπ¥„Àâ 0 = ‰¡à„™à 1= „™à 8 = ‰¡à∑√“∫ 9 = ¢âÕ¡Ÿ≈ Ÿ≠À“¬ µ—«·ª√¢âÕ§”∂“¡∑’Ë∂“¡«à“∑à“𠧓¥‡¢Á ¡ ¢— ¥ π‘ √ ¿— ¬ ∑ÿ ° §√—È ß ‡¡◊Ë Õ ¢— ∫ √∂¬πµå À √◊ Õ ‰¡à(BELT) °”Àπ¥„Àâ 0 = ‰¡à„™à 1 = „™à 8 = ‰¡à ∑√“∫ 9 = ¢âÕ¡Ÿ≈ Ÿ≠À“¬ ¥—ßπ—Èπ„π∞“π¢âÕ¡Ÿ≈ √–‡∫’¬π (Record) „¥Ê °Áµ“¡ ∑—ÈßÀ°µ—«·ª√π’È ®–µâÕ߉¡à¡’§à“Õ◊ËππÕ°‡Àπ◊Õ®“°∑’Ë°”À𥉫â„π §Ÿà¡◊Õ√À— ‡ªìπµâπ
°“√µ√«®™”√–¢âÕ¡Ÿ≈ (Cleaning Data) °“√µ√«®™”√–¢â Õ ¡Ÿ ≈ ‡ªì π °“√µ— ¥ À√◊ Õ ª√— ∫ ª√ÿ ß ¢â Õ ¡Ÿ ≈ ∑’Ë ‡ °‘ ¥ °“√º‘ ¥ æ≈“¥„Àâ ¡’ § «“¡ ¡∫Ÿ √ ≥å ∂Ÿ ° µâ Õ ß·≈– Õ¥§≈â Õ ß°— π ¡’ «—µ∂ÿª√– ߧå‡æ◊ËÕª√—∫√Ÿª·∫∫ (Format) ¢Õß§à“ „π·µà ≈ –√–‡∫’ ¬ π„Àâ ‡ À¡“– ¡ ‡™à π ¢â Õ §«“¡
(String), µ—«‡≈¢ (Numeric),°“√§âπÀ“§à“µ—« ·ª√∑’ËπÕ°‡Àπ◊Õ®“°§Ÿà¡◊Õ√À— °”À𥉫â, °“√ √«¡À√◊Õµ—¥√–‡∫’¬π∑’Ë´È”°—π, ¢®—¥§«“¡¢—¥·¬âß ‚¥¬æ‘®“√≥“§«“¡ Õ¥§≈âÕß¿“¬„πµ—«·ª√À√◊Õ √–À«à“ß√–‡∫’¬π,§âπÀ“·≈–®—¥°“√·°â‰¢§à“º‘¥ª°µ‘ (Outliners) ”À√—∫‡∑§π‘§°“√∑”¢âÕ¡Ÿ≈„Àâ ¡∫Ÿ√≥å¡’¥â«¬°—πÀ≈“¬«‘∏’ µ—Èß·µà«‘∏’∏√√¡¥“‰ª ®π∂÷ß°“√„™â‚ª√·°√¡‡¢â“¡“™à«¬ ¥—ßπ’È 1. °“√µ√«® Õ∫¥â«¬ “¬µ“ (Visual Scanning) «‘∏’π’È·π–π”„Àâ„™â°√≥’∑’Ë¡’µ—«·ª√ πâÕ¬°«à“ 30 µ—«·ª√ ·≈–¡’®”π«π√–‡∫’¬ππâÕ¬ °«à“ 300 √–‡∫’¬π «‘∏’°“√µ√«® Õ∫§◊Õ print out ¢âÕ¡Ÿ≈®“°§Õ¡æ‘«‡µÕ√åÕÕ°¡“·≈⫵√«® Õ∫∑’ ≈–√–‡∫’¬π, ∑’≈–µ—«·ª√ À√◊Õµ√«® Õ∫∑’ËÀπâ“®Õ §Õ¡æ‘«‡µÕ√åÀ“¢âÕ¡Ÿ≈∑’ˉ¡àπà“®–‡ªìπ‰ª‰¥â ‡™àπ µ—«·ª√‡æ» ID ∑’Ë 04 ¡’‡≈¢ 5 πÕ°‡Àπ◊Õ®“° §Ÿà¡◊Õ√À— °”Àπ¥‰«â „Àâ∫—π∑÷°√“¬≈–‡Õ’¬¥§«“¡ º‘¥æ≈“¥≈ß„πøÕ√å¡∫—π∑÷°¢âÕ¡Ÿ≈·µà≈–√–‡∫’¬π „π∑’Ëπ’È√–‡∫’¬π„¥∑’Ë¡’§«“¡º‘¥æ≈“¥„π°“√π”‡¢â“ ¢âÕ¡Ÿ≈∑’˵—«·ª√„¥Ê °Áµ“¡ ºŸâ‡¢’¬π‰¥â°”Àπ¥
µ“√“ß∑’Ë 1 · ¥ß°“√µ√«® Õ∫¥â«¬ “¬µ“¢âÕ¡Ÿ≈ß“π«‘®—¬‡°’ˬ«°—∫°“√§“¥‡¢Á¡¢—¥π‘√¿—¬„π ª√–™“™πÀ¡Ÿà∫â“πÀπ÷Ëß∑’Ë¡’µ—«·ª√ 6 µ—« ·≈–¡’ 11 √–‡∫’¬π ID
NAME
SEX
AGE
01 ¡“,√—°¥’ 1 15 02 ÀπŸ,Õ‘ √– 2 42 03 ¡À«—ß √—°¥’[A] 2 44 04 °ƒ…≥“,„®¥’ 5 [A] 55 05 ¡“π’,¥’„® 2 74[A] 06 ¥«ßµ“,√—°…“ 1 33 07 Õ‘π∑√,ªÉ“‰¡â 1 32 08 Õ‘ √“,¡“π– 1 25 09 °‘µµ‘, –Õ“¥ 2 12[A] 10 ™“µ‘,¬‘Ëß™’æ 2 57 10 [A] ™“µ‘,¬‘Ëß™’æ 2 57 À¡“¬‡Àµÿ : [A] ‡ªìπ¢âÕ¡Ÿ≈º‘¥æ≈“¥µâÕ߉¥â√—∫°“√·°â‰¢„Àâ∂Ÿ°µâÕß THAILAND JOURNAL OF HEALTH PROMOTION AND ENVIRONMENTAL HEALTH
DRIVE
BELT
1 0 1 1 1 1 1 1 1 1 1
0 1[A] 0 0 0 1 1 2[A] 1 1 1
July - September 2011
69
‡°√Á¥§«“¡√Ÿâ...∑“ß ∂‘µ‘ —≠≈—°…≥å [A] ‡ªìπ —≠≈—°…≥å¢Õߧ«“¡º‘¥ æ≈“¥°“√π”‡¢â“¢âÕ¡Ÿ≈ ¥—ßπ’È ®“°π—Èπ𔉪µ√«® Õ∫°—∫·∫∫ Õ∫∂“¡ µ“¡À¡“¬‡≈¢ ID ∑’Ë√–∫ÿ‰«âæ√âÕ¡°—∫·°â‰¢¢âÕ¡Ÿ≈ „Àâ∂Ÿ°µâÕß «‘∏’π’ȉ¡à‡À¡“– ¡À“°¡’À≈“¬µ—«·ª√ À√◊Õ¡’®”π«π√–‡∫’¬π¡“°Ê ‡π◊ËÕß®“°¡’§«“¡ ·¡àπ¬”πâÕ¬·≈–„™â‡«≈“„π°“√µ√«® Õ∫¡“° 2. µ√«® Õ∫¥â « ¬‚ª√·°√¡π”‡¢â “ ¢âÕ¡Ÿ≈ ‡™àπ Epidata, SPSS, À√◊Õ Questionnaire Programming Language ‚ª√·°√¡ ‡À≈à “ π’È „ π¢—È π µÕπ°“√ √â “ ßøÕ√å ¡ π”‡¢â “ ¢â Õ ¡Ÿ ≈ “¡“√∂°”Àπ¥§à“∑’ˇªìπ‰ª‰¥â¢Õß·µà≈–µ—«·ª√ ¥—ßπ—ÈπÀ“°ºŸâπ”‡¢â“¢âÕ¡Ÿ≈π”‡¢â“¢âÕ¡Ÿ≈πÕ°‡Àπ◊Õ ®“°∑’Ë°”Àπ¥§à“‰«â ‚ª√·°√¡®–‡µ◊Õπ∑—π∑’·≈– ‰¡à “¡“√∂π”‡¢â “ ¢â Õ ¡Ÿ ≈ µ— « ·ª√µà Õ ‰ª‰¥â µâ Õ ß Õ“»—¬°“√°√Õ°¢âÕ¡Ÿ≈„À¡àµ“¡§à“∑’Ë°”À𥉫â„π §Ÿà¡◊Õ√À— ‡∑à“π—È𠂪√·°√¡‡À≈à“π’È¡’øíß°å™—Ëπ„π °√≥’∑’˧”∂“¡‡ªìπ§”∂“¡∑’˵âÕߢⓡ¢âÕ “¡“√∂ °”Àπ¥„Àâ°√–‚¥¥®“°Õ’°§”∂“¡Àπ÷Ëß ‰ªÕ’° §”∂“¡Àπ÷Ëß‚¥¬Õ—µ‚π¡—µ‘ ∑”„Àâ –¥«°·≈–≈¥ §«“¡º‘¥æ≈“¥„π°“√π”‡¢â“¢âÕ¡Ÿ≈ πÕ°®“°π’Ȭ—ß §”π«≥µ“√“ß·®°·®ß§«“¡∂’Ë„π·µà≈–µ—«·ª√ µ√«® Õ∫√–‡∫’¬π´È”°—π ·≈–¬—ß “¡“√∂‡√’¬°¥Ÿ √“¬≈–‡Õ’ ¬ ¥§”µÕ∫„π·µà ≈ –µ— « ·ª√„π·µà ≈ – √–‡∫’¬π‰¥âÕ’°¥â«¬ ®÷ß¡’§«“¡‡À¡“– ¡„π°√≥’∑’Ë ¢âÕ¡Ÿ≈¡’®”π«πµ—«·ª√·≈–√–‡∫’¬π¡“°Ê ”À√—∫ ¢âÕ§«√√–«—ß„π°“√„™â‚ª√·°√¡‡À≈à“π’ȵâÕߧ”π÷ß ‰«â ‡ ¡Õ«à “ ‰¡à “¡“√∂≈¥§«“¡º‘ ¥ æ≈“¥‰¥â „ π °√≥’∑’Ë∫—π∑÷°¢âÕ¡Ÿ≈º‘¥‚¥¬¢âÕ¡Ÿ≈∑’Ë°√Õ°‡¢â“‰ª π—Èπ‰¡àπÕ°‡Àπ◊Õ®“°§Ÿà¡◊Õ√À— °”Àπ¥‰«â ‡™àπ µ—«·ª√‡æ» „π·∫∫ Õ∫∂“¡‡ªìπ‡æ»™“¬ µâÕß „Àâ√À— = 1 ·µàºŸâπ”‡¢â“¢âÕ¡Ÿ≈π”‡¢â“¢âÕ¡Ÿ≈‡ªìπ 2 ‡ªìπµâπ 3. µ√«® Õ∫¥â«¬‚ª√·°√¡«‘‡§√“–Àå 70
°√°Æ“§¡ - °—𬓬π 2554
°√¡Õπ“¡—¬ à߇ √‘¡„Àâ§π‰∑¬ ÿ¢¿“楒
¢âÕ¡Ÿ≈ ‡™àπ SPSS, STATA, SAS œ≈œ ‡ªìπÕ’° «‘ ∏’ À π÷Ë ß ∑’Ë ‡ À¡“– ”À√— ∫ ¢â Õ ¡Ÿ ≈ ¢π“¥„À≠à ‚ ¥¬ ‡©æ“–Õ¬à “ ߬‘Ë ß ¢â Õ ¡Ÿ ≈ ∑’Ë ‰ ¡à ‰ ¥â π”‡¢â “ ¢â Õ ¡Ÿ ≈ ¥â « ¬ ‚ª√·°√¡°“√π”‡¢â“¢âÕ¡Ÿ≈ ‚ª√·°√¡‡À≈à“π’È„™â ‡∑§π‘§ çList caseé π—Ëπ§◊Õ List µ—«·ª√ ID ∑’Ë ‡°‘¥¢âÕ¡Ÿ≈º‘¥æ≈“¥·≈â«∫—π∑÷°√“¬≈–‡Õ’¬¥ ®“° π—È π 𔉪µ√«® Õ∫°— ∫ ·∫∫ Õ∫∂“¡µ“¡ À¡“¬‡≈¢·∫∫ Õ∫∂“¡∑’‡Ë °‘¥¢âÕ¡Ÿ≈º‘¥æ≈“¥ ‚¥¬ Õ“»—¬«‘∏’°“√∑”„Àâ¢âÕ¡Ÿ≈ ¡∫Ÿ√≥å 5 «‘∏’¥—ßπ’È 1) °“√«‘‡§√“–À委„πª√–‚¬§ (Parsing the data) «‘∏π’ æ’È ®‘ “√≥“®“°¢âÕ°”Àπ¥„π§Ÿ¡à Õ◊ √À— ¬°µ—«Õ¬à“߇™àπ µ—«·ª√™◊ËÕ °”Àπ¥„À⺟âπ”‡¢â“ ¢â Õ ¡Ÿ ≈ §’ ¬å ™◊Ë Õ · ≈ – π “ ¡ °ÿ ≈ „ π √Ÿ ª · ∫ ∫ ∑’Ë ¡’ ‡§√◊ËÕßÀ¡“¬®ÿ≈¿“§§—Ëπ°≈“ß√–À«à“ß™◊ËÕ·≈– °ÿ≈ (™◊ÕË , °ÿ≈) ·µàºπŸâ ”‡¢â“¢âÕ¡Ÿ≈§’¬‡å ªìπ™◊ÕË ‡«âπ«√√§ 1 ‡§“–·≈⫵àե⫬ °ÿ≈ (™◊ËÕ °ÿ≈) ¥—ßπ—Èπ¢âÕ¡Ÿ≈„π √–‡∫’ ¬ ππ’È ®÷ ß ‡°‘ ¥ §«“¡º‘ ¥ æ≈“¥¢÷È π ‡æ√“–‰¡à ¡’ ‡§√◊ËÕßÀ¡“¬®ÿ≈¿“§§—Ëπ√–À«à“ß™◊ËÕ °ÿ≈ ‡ªìπµâπ °“√µ√«® Õ∫ “¡“√∂„™â§” —Ëß„π‚ª√·°√¡°“√ «‘‡§√“–Àå¢âÕ¡Ÿ≈™à«¬§âπÀ“ À“°„™âµ“√“ß·®°·®ß §«“¡∂’Ë Õ “®‰¡à æ ∫§«“¡º‘ ¥ æ≈“¥∑”„Àâ ≈ –‡≈¬ §«“¡º‘¥æ≈“¥π’ȉª 2) °“√¢®—¥¢âÕ¡Ÿ≈´È” (Duplicate Elimination) «‘∏’π’È„™âæ‘®“√≥“¢âÕ¡Ÿ≈´È”‚¥¬¢âÕ¡Ÿ≈´È”π’È Õ“®®–´È”°—πµ—Èß·µà 2 √–‡∫’¬π‡ªìπµâπ‰ª °“√ æ‘ ® “√≥“«à “ √–‡∫’ ¬ π´È” À√◊ Õ ‰¡à ´È” ‚¥¬∑—Ë « ‰ª®– æ‘®“√≥“∑’˵—«·ª√ ID “¡“√∂§âπÀ“¥â«¬«‘∏’°“√ ßà“¬ Ê §◊Õ „™â§” —Ëß Sort „Àâ¢âÕ¡Ÿ≈‡√’¬ß≈”¥—∫ ID ®“°πâÕ¬‰ªÀ“¡“° À“°√–‡∫’¬π„¥´È”°—π®–¡Õß ‡ÀÁπ®“°Àπâ“®Õ§Õ¡æ‘«‡µÕ√剥âßà“¬ À“°·µà«‘∏’π’È °√≥’ ∑’Ë ∞ “π¢â Õ ¡Ÿ ≈ ¡’ ¢ 𓥄À≠à ºŸâ µ √«® Õ∫Õ“® ‡°‘¥§«“¡º‘¥æ≈“¥‡Õß µ√«®‰¡àæ∫ ID ∑’¡Ë °’ “√´È” ¥— ß π—È π §«√„™â ‚ ª√·°√¡«‘ ‡ §√“–Àå ¢â Õ ¡Ÿ ≈ À√◊ Õ ‚ª√·°√¡π”‡¢â“¢âÕ¡Ÿ≈™à«¬§âπÀ“®–∑”„Àâ –¥«°
‡∑§π‘§°“√µ√«® Õ∫·≈–°“√µ√«®™”√–¢âÕ¡Ÿ≈(Techniques for Screening and Cleaning Data)
·≈–·¡àπ¬”¡“°°«à“ ”À√—∫°“√æ‘®“√≥“µ—¥ ID ∑’Ë´È”°—πÕÕ°À√◊Õ‰¡à µâÕßÕ“»—¬§«“¡√Ÿâ‡™‘߇Àµÿ‡™‘ß º≈ ‡æ√“–©–π—È π ºŸâ µ √«® Õ∫®–µâ Õ ß¡’ § «“¡√Ÿâ ‡©æ“–‡√◊ËÕßπ—Èπ Ê ‡ªìπÕ¬à“ߥ’‡æ◊ËÕæ‘®“√≥“«à“ ID ∑’Ë´È”°—ππ—Èπ§«√®–µ—¥ÕÕ°À√◊Õ√«¡√–‡∫’¬π °“√ æ‘®“√≥“«à“®–√«¡ ID ∑’Ë´È”°—πÀ√◊Õµ—¥ÕÕ°«‘∏’ Àπ÷Ëß∑’Ë·π–π”§◊Õ ‡ª√’¬∫‡∑’¬∫√–À«à“ßµ—«·ª√∑’ ≈–µ—«¢Õß ID ∑’Ë¡’°“√´È”°—π«à“§”µÕ∫‡À¡◊Õπ À√◊Õµà“ß°—πÕ¬à“߉√ ¬°µ—«Õ¬à“ß µâÕß°“√∑√“∫ «à“„πµ—«·ª√ ID ¡’§à“´È”À√◊Õ‰¡à ‚¥¬„™â‚ª√·°√¡ Stata 8.0 ¥—ßπ’È duplicates list id +-----------+ | obs: id | |-----------| | 10 10 | | 11 10 | |-----------| ®“°º≈≈—æ∏å¢â“ßµâπ ª√“°Ø«à“ ID ∑’Ë 10 ·≈– 11 ´È”°—π ‡¡◊ËÕæ‘®“√≥“ ID ∑’Ë 10 ·≈– 11 ∑’ ≈–µ—«·ª√µàÕµ—«·ª√ ®–‡ÀÁπ‰¥â«à“ ¢âÕ¡Ÿ≈‡À¡◊Õπ °—π∑ÿ°µ—«·ª√ ¥—ßπ—Èπ®÷ߧ«√æ‘®“√≥“µ—¥√–‡∫’¬π ÕÕ°‰ª 1 √–‡∫’¬π 3) «‘∏°’ “√∑“ß ∂‘µ‘ (Statistics Methods) «‘∏π’ æ’È ®‘ “√≥“§«“¡º‘¥æ≈“¥‰¥â®“° §à“µË” ÿ¥, §à“ Ÿß ÿ¥, à«π‡∫’ˬ߇∫π¡“µ√∞“π, °“√·®°·®ß §«“¡∂’¢Ë Õß§à“·≈–§à“ Ÿ≠À“¬À√◊Õ§à“«à“ß ‡ªìπ°“√ À“§«“¡º‘¥æ≈“¥∑’ˇ°‘¥®“°§à“∑’ËπÕ°‡Àπ◊Õ®“° §Ÿà¡◊Õ√À— °”Àπ¥‰«â ‡™àπ §à“º‘¥ª°µ‘ (Out liner) §à“ Ÿ≠À“¬À√◊Õ§à“«à“ß À“°µ√«®æ∫§à“º‘¥ª°µ‘ À√◊Õ¡’¢âÕ¡Ÿ≈ Ÿ≠À“¬„π ID „¥Ê „Àâ∑”°“√·°â‰¢ ¢âÕ¡Ÿ≈„Àâ∂°Ÿ µâÕß ¡∫Ÿ√≥嵓¡·∫∫ Õ∫∂“¡π—πÈ ‡™àπ
°“√·®°·®ß§«“¡∂’¢Ë Õßµ—«·ª√‡æ» ¥â«¬‚ª√·°√¡ Stata 8.0 æ∫«à“ ¡’§à“πÕ°‡Àπ◊Õ®“°§Ÿà¡◊Õ√À— ∑’Ë °”Àπ¥ (5) ®”π«π 1 §π ¥—ßπ’È . SEX 1 2 5 Total
tab Freq. 4 5 1 10
sex Percent 40.00 50.00 10.00 100.00
Cum. 40.00 90.00 100.00
® “ ° π—È π µ √ « ® Õ ∫ «à “ À ¡ “ ¬ ‡ ≈ ¢ ·∫∫ Õ∫∂“¡„¥∑’Ë¡’§à“¢Õßµ—«·ª√‡æ» = 5 ´÷Ëß æ∫«à“ ‡ªìπÀ¡“¬‡≈¢·∫∫ Õ∫∂“¡∑’Ë 5 ¥—ßπ’È . list id if sex==5 +----------+ | id | |----------| 4.| 4 | +----------+ 4) °“√µ√«® Õ∫µ“¡¢âÕ°”Àπ¥‡ß◊ËÕπ‰¢ §à“∑’ˇªìπ‰ª‰¥â¢ÕߢâÕ¡Ÿ≈ (Integrity Constraint Enforcement) «‘∏’°“√π’ȇªìπ°“√µ√«® Õ∫§à“∑’Ë πÕ°‡Àπ◊Õ®“°§Ÿà¡◊Õ√À— °”À𥉫â´È”À≈—ß®“°∑’Ë¡’ °“√ª√—∫ª√ÿß·°â‰¢¢âÕ¡Ÿ≈·≈â« ‡æ◊ËÕ„Àâ¡—Ëπ„®«à“ ¢â Õ ¡Ÿ ≈ Õ¬Ÿà ¿ “¬„µâ ¢â Õ °”Àπ¥‡ß◊Ë Õ π‰¢¢Õß§à “ µ— « ·ª√π—ÈπÊ ·≈â« À“°¬—ß¡’§à“∑’ˉ¡à‰¥âÕ¬Ÿà„π¢âÕ °”Àπ¥‡ß◊ËÕπ‰¢§à“∑’ˇªìπ‰ª‰¥â¢ÕߢâÕ¡Ÿ≈Õ’° „Àâ ∑”°“√ª√—∫ª√ÿß·°â‰¢Õ’°§√—Èß ¡’‚Õ°“ ‡°‘¥‰¥â„π °√≥’µâÕß·°â‰¢¢âÕ¡Ÿ≈¢π“¥„À≠à ºŸâπ”‡¢â“¢âÕ¡Ÿ≈ Õ“®·°â‰¢º‘¥√–‡∫’¬π ‡æ√“–©–π—Èπ°“√·°â‰¢ ¢âÕ¡Ÿ≈®–µâÕß·°â‰¢∑’≈–√–‡∫’¬π 5) °“√·ª≈ߢâÕ¡Ÿ≈ (Data Transforma-
THAILAND JOURNAL OF HEALTH PROMOTION AND ENVIRONMENTAL HEALTH
July - September 2011
71
‡°√Á¥§«“¡√Ÿâ...∑“ß ∂‘µ‘ tion) «‘∏π’ ‡’È ªìπ°“√∑”¢âÕ¡Ÿ≈„Àâ ¡∫Ÿ√≥åæ√âÕ¡∑’®Ë – «‘‡§√“–Àå ´÷ËߢâÕ¡Ÿ≈∑’Ëπ”‡¢â“¡“Õ“®®–‡°‘¥§«“¡ º‘ ¥ æ≈“¥®“°°“√„Àâ §à “ ∑’Ë ‰ ¡à ¡’ √Ÿ ª ·∫∫°”Àπ¥ µ“¬µ—« ‡™àπ °“√„Àâ‡ß‘π‡¥◊Õπæπ—°ß“π„π·µà≈– §π¡’§«“¡·µ°µà“ß°—π¡“° °àÕππ”µ—«·ª√π’ȉª «‘‡§√“–À姫√·ª≈ߢâÕ¡Ÿ≈„ÀâÕ¬Ÿà„π√Ÿª¢Õß Standardize À√◊Õ Normalize ‡ ’¬°àÕπ „™â„π°√≥’ ∑’Ë¢âÕ¡Ÿ≈∑’Ë¡’§à“‡ªìπµ—«‡≈¢ (Numeric values) ‡∑à“π—πÈ
√ÿª °“√µ√«® Õ∫·≈–°“√µ√«®™”√–¢âÕ¡Ÿ≈ §«√¥”‡π‘π°“√‰ª¥â«¬°—π‡ ¡Õ‡æ◊ËÕªÑÕß°—𧫓¡ º‘¥æ≈“¥„π°“√·°â‰¢¢âÕ¡Ÿ≈ ·≈–µ—«·ª√ ”§—≠∑’Ë ¢“¥‰¡à‰¥â‡π◊ËÕß®“°¡’§«“¡‡™◊ËÕ¡‚¬ß√–À«à“ß∞“π ¢âÕ¡Ÿ≈·≈–·∫∫ Õ∫∂“¡Õ—π®–∑”„Àâ “¡“√∂°≈—∫ ‰ªµ√«® Õ∫¢âÕ¡Ÿ≈„π·∫∫ Õ∫∂“¡·≈–·°â‰¢„Àâ
¡∫Ÿ √ ≥å ∂Ÿ ° µâ Õ ß π—Ë π §◊ Õ µ— « ·ª√À¡“¬‡≈¢ ·∫∫ Õ∫∂“¡ ¥—ßπ—ÈπÀ“°¡’°“√π”‡¢â“¢âÕ¡Ÿ≈ ºŸâπ”‡¢â“¢âÕ¡Ÿ≈§«√§”π÷ß∂÷ßµ—«·ª√π’È°àÕπ‡ ¡Õ ”À√—∫°“√‡≈◊Õ°«‘∏’°“√µ√«® Õ∫¢âÕ¡Ÿ≈ ºŸâ‡¢’¬π ¢Õ·π–π”«à“ °“√π”‡¢â“¢âÕ¡Ÿ≈§«√π”‡¢â“¢âÕ¡Ÿ≈ ¥â « ¬‚ª√·°√¡°“√π”‡¢â “ ¢â Õ ¡Ÿ ≈ ´÷Ë ß ∂◊ Õ «à “ ‡ªìπ°“√°√Õߧ«“¡º‘¥æ≈“¥¢ÕߢâÕ¡Ÿ≈‰¥â‡∫◊ÕÈ ßµâπ ‡π◊Ë Õ ß®“°„π‚ª√·°√¡‡À≈à “ π’È “¡“√∂°”Àπ¥ ‡ß◊ËÕπ‰¢§à“∑’ˇªìπ‰ª‰¥â¢Õß·µà≈–µ—«·ª√ ®÷ß àߺ≈ „Àâ°“√π”‡¢â“¢âÕ¡Ÿ≈∑ÿ°§√—Èß®–µâÕ߇ªìπ¢âÕ¡Ÿ≈∑’ËÕ¬Ÿà ¿“¬„µâ¢âÕ°”Àπ¥¢Õßµ—«·ª√π’ȇ∑à“π—Èπ®÷ß®–π” ‡¢â“¢âÕ¡Ÿ≈‰¥â à«π«‘∏’¢®—¥§«“¡º‘¥æ≈“¥¢Õß ¢âÕ¡Ÿ≈§«√„™â‚ª√·°√¡∑“ß ∂‘µ‘™à«¬„π°“√µ√«® Õ∫·≈–µ√«®™”√–¢âÕ¡Ÿ≈ ‡π◊ËÕß®“° ‘Èπ‡ª≈◊Õß √–¬–‡«≈“πâÕ¬°«à“·µà°≈—∫„À⧫“¡·¡àπ¬”¡“° °«à“«‘∏’µ√«® Õ∫¥â«¬ “¬µ“
‡Õ° “√Õâ“ßÕ‘ß 1. OûRourke T. Techniques for screening and cleaning data for analysis. American Journal of Health Studies. 2000; 16: 217-9. 2. Muller H., Freytag J., Problems, Methods, and Challenges in Comprehensive Data Cleansing, HumboldtUniversitat zu Berlin, Germany. 3. Joseph M. Quantitative data cleaning for large databases, 2008. White Paper, United Nations Economic Commission for Europe. HEALTH
72
°√°Æ“§¡ - °—𬓬π 2554
°√¡Õπ“¡—¬ à߇ √‘¡„Àâ§π‰∑¬ ÿ¢¿“楒