เทคนิคการตรวจสอบและการตรวจชำระข้อมูล

Page 1

‡°√Á¥§«“¡√Ÿâ...∑“ß ∂‘µ‘

‡°√Á¥§«“¡√Ÿâ...∑“ß ∂‘µ‘

‡∑§π‘§°“√µ√«® Õ∫·≈–°“√µ√«®™”√–¢âÕ¡Ÿ≈ (Techniques for Screening and Cleaning Data) √—™Æ“ ß“¡√Ÿª*

∫∑π” ¢âÕ¡Ÿ≈º‘¥æ≈“¥ (Errors) „πß“π«‘®—¬ ‡ªìπ¢âÕ¡Ÿ≈∑’ªË √–°Õ∫‰ª¥â«¬¢âÕ¡Ÿ≈ 3 √Ÿª·∫∫ ‰¥â·°à ¢âÕ¡Ÿ≈‰¡à∂Ÿ°µâÕß (Inaccurate) ¢âÕ¡Ÿ≈‰¡à ¡∫Ÿ√≥å (Incomplete) ·≈–¢âÕ¡Ÿ≈‰¡à Õ¥§≈âÕß (Inconsistency) ¢â Õ ¡Ÿ ≈ µà “ ßÊ ‡À≈à “ π’È ‡ ªì 𠓇Àµÿ ∑”„Àâ°“√«‘‡§√“–Àå¢âÕ¡Ÿ≈‡°‘¥§«“¡§≈“¥‡§≈◊ËÕπ àߺ≈„Àâ°“√ √ÿª·≈–Õ¿‘ª√“¬º≈°“√«‘®—¬‰¡à¡’ ª√– ‘∑∏‘¿“æ¡’‚Õ°“ ∫‘¥‡∫◊Õπ®“°§«“¡‡ªìπ®√‘ß ‡¡◊ÕË ºŸÕâ “à ππ”º≈°“√«‘®¬— ‰ª„™âÕ“®°àÕ„À⇰‘¥º≈‡ ’¬ Õ“∑‘‡™àπ ‡ ’¬ß∫ª√–¡“≥ «— ¥ÿÕÿª°√≥å œ≈œ ·µà º≈≈— æ ∏å §◊ π °≈— ∫ ¡“‰¡à ¡’ ª √– ‘ ∑ ∏‘ ¿ “æÀ√◊ Õ ¡’ · µà πâ Õ ¬¡“°‰¡à §ÿâ ¡ §à “ °— ∫ ∑√— æ ¬“°√∑’Ë Ÿ ≠ ‡ ’ ¬ ‰ª ”À√—∫§«“¡º‘¥æ≈“¥¢ÕߢâÕ¡Ÿ≈π—Èπ‡°‘¥‰¥â®“° °“√π”‡¢â“¢âÕ¡Ÿ≈‰¡à∂Ÿ°µâÕß ‡™àπ ·À≈àߢâÕ¡Ÿ≈‰¥â ¡“®“°≈“¬¡◊Õ‡¢’¬πÀ√◊Õ print out µ—«Àπ—ß ◊Õ‡≈Á° Õà“π‰¡àÕÕ° ∑”„ÀâµâÕ߇¥“«à“‡¢’¬π«à“Õ–‰√ §«“¡ √’∫‡√àߢÕß°“√π”‡¢â“¢âÕ¡Ÿ≈°Á¡’‚Õ°“ ∑”„Àâπ” ‡¢â“¢âÕ¡Ÿ≈‰¡à∂Ÿ°µâÕߥ⫬‡™àπ°—π À√◊Õ§«“¡º‘¥ æ≈“¥¢Õߢâ Õ ¡Ÿ ≈ ‡°‘ ¥ ®“°°“√√«¡¢â Õ ¡Ÿ ≈ ¥â « ¬ ‚ª√·°√¡§Õ¡æ‘ « ‡µÕ√å ∑’Ë π”‡¢â “ ¢â Õ ¡Ÿ ≈ ¥â « ¬§π

À√◊Õ‡«≈“·µ°µà“ß°—π·≈â«π”¢âÕ¡Ÿ≈¡“√«¡°—π∑’À≈—ß ‡ªìπµâπ ¥—ßπ—Èπ°àÕπ°“√«‘‡§√“–Àå¢âÕ¡Ÿ≈®÷ß®”‡ªìπ µâ Õ ß¡’ ° “√µ√«® Õ∫ (Screening) ·≈–°“√ µ√«®™”√–¢âÕ¡Ÿ≈ (Cleaning Data) °àÕπ‡ ¡Õ

°“√µ√«® Õ∫ (Screening) °“√µ√«® Õ∫‡ªìπ°“√µ√«®À“§«“¡º‘¥ æ≈“¥∑’ˇ°‘¥®“°°“√π”‡¢â“¢âÕ¡Ÿ≈ ´÷Ëߧ«“¡º‘¥ æ≈“¥π’È®”‡ªìπ∑’Ë®–µâÕß¡’°“√µ√«®™”√–¢âÕ¡Ÿ≈ ‡æ◊ËÕ∑”„Àâ¢âÕ¡Ÿ≈ ¡∫Ÿ√≥å ¡’§«“¡ Õ¥§≈âÕß À√◊Õ ¡’§«“¡∂Ÿ°µâÕß¡“°∑’Ë ÿ¥¥â«¬§à“∑’ˇªìπ‰ª‰¥â°àÕπ 𔉪 Ÿà°√–∫«π°“√«‘‡§√“–Àå¢âÕ¡Ÿ≈µàÕ‰ª ¬° µ—«Õ¬à“ß°“√µ√«® Õ∫ ‡™àπ ¢âÕ¡Ÿ≈ß“π«‘®—¬¡’°“√ ‡°Á∫µ—«·ª√ 6 µ—«·≈–√–∫ÿ√À— „π§Ÿà¡◊Õ√À— ¥—ßπ’È µ—«·ª√À¡“¬‡≈¢·∫∫ Õ∫∂“¡ (ID) §à“∑’ˇªì𠉪‰¥âµ“¡√À— §Ÿà¡◊Õ(Codebook) ∑’Ë°”À𥉫â§◊Õ 01-11 ·≈– 99 = ¢âÕ¡Ÿ≈ Ÿ≠À“¬ ,µ—«·ª√™◊ËÕ °ÿ≈ (NAME) °”Àπ¥„Àâπ”‡¢â“¢âÕ¡Ÿ≈¥â«¬ (™◊ÕË , °ÿ≈), µ—«·ª√‡æ» (SEX) ∑’Ë°”À𥉫â§◊Õ 1 = ™“¬ 2 = À≠‘ß ·≈– 9 = ¢âÕ¡Ÿ≈ Ÿ≠À“¬ ,µ—«·ª√Õ“¬ÿ (ªï)´÷ßË °”Àπ¥„Àâ°√Õ°¢âÕ¡Ÿ≈‡ªìπ§à“Õ“¬ÿ®√‘߇ªìπªï

*‚√ß欓∫“≈ à߇ √‘¡ ÿ¢¿“æµ”∫≈∫â“π≈“¥™â“ß ”π—°ß“π “∏“√≥ ÿ¢®—ßÀ«—¥π§√𓬰

68

°√°Æ“§¡ - °—𬓬π 2554

°√¡Õπ“¡—¬ à߇ √‘¡„Àâ§π‰∑¬ ÿ¢¿“楒


‡∑§π‘§°“√µ√«® Õ∫·≈–°“√µ√«®™”√–¢âÕ¡Ÿ≈(Techniques for Screening and Cleaning Data)

°”Àπ¥„Àâ¡’§à“∑’ˇªìπ‰ª‰¥âÕ¬Ÿà√–À«à“ß 15-60 ªï 88 = ‰¡à∑√“∫ 99 = ¢âÕ¡Ÿ≈ Ÿ≠À“¬, °√≥’∑’Ë¡’ µ—«·ª√µÕ∫ „™à/‰¡à„™à ¬°µ—«Õ¬à“߇™àπ ·ª√¢âÕ §”∂“¡∑’∂Ë “¡«à“∑à“π¢—∫√∂¬πµåÀ√◊Õ‰¡à (DRIVE) °”Àπ¥„Àâ 0 = ‰¡à„™à 1= „™à 8 = ‰¡à∑√“∫ 9 = ¢âÕ¡Ÿ≈ Ÿ≠À“¬ µ—«·ª√¢âÕ§”∂“¡∑’Ë∂“¡«à“∑à“𠧓¥‡¢Á ¡ ¢— ¥ π‘ √ ¿— ¬ ∑ÿ ° §√—È ß ‡¡◊Ë Õ ¢— ∫ √∂¬πµå À √◊ Õ ‰¡à(BELT) °”Àπ¥„Àâ 0 = ‰¡à„™à 1 = „™à 8 = ‰¡à ∑√“∫ 9 = ¢âÕ¡Ÿ≈ Ÿ≠À“¬ ¥—ßπ—Èπ„π∞“π¢âÕ¡Ÿ≈ √–‡∫’¬π (Record) „¥Ê °Áµ“¡ ∑—ÈßÀ°µ—«·ª√π’È ®–µâÕ߉¡à¡’§à“Õ◊ËππÕ°‡Àπ◊Õ®“°∑’Ë°”À𥉫â„π §Ÿà¡◊Õ√À— ‡ªìπµâπ

°“√µ√«®™”√–¢âÕ¡Ÿ≈ (Cleaning Data) °“√µ√«®™”√–¢â Õ ¡Ÿ ≈ ‡ªì π °“√µ— ¥ À√◊ Õ ª√— ∫ ª√ÿ ß ¢â Õ ¡Ÿ ≈ ∑’Ë ‡ °‘ ¥ °“√º‘ ¥ æ≈“¥„Àâ ¡’ § «“¡ ¡∫Ÿ √ ≥å ∂Ÿ ° µâ Õ ß·≈– Õ¥§≈â Õ ß°— π ¡’ «—µ∂ÿª√– ߧå‡æ◊ËÕª√—∫√Ÿª·∫∫ (Format) ¢Õß§à“ „π·µà ≈ –√–‡∫’ ¬ π„Àâ ‡ À¡“– ¡ ‡™à π ¢â Õ §«“¡

(String), µ—«‡≈¢ (Numeric),°“√§âπÀ“§à“µ—« ·ª√∑’ËπÕ°‡Àπ◊Õ®“°§Ÿà¡◊Õ√À— °”À𥉫â, °“√ √«¡À√◊Õµ—¥√–‡∫’¬π∑’Ë´È”°—π, ¢®—¥§«“¡¢—¥·¬âß ‚¥¬æ‘®“√≥“§«“¡ Õ¥§≈âÕß¿“¬„πµ—«·ª√À√◊Õ √–À«à“ß√–‡∫’¬π,§âπÀ“·≈–®—¥°“√·°â‰¢§à“º‘¥ª°µ‘ (Outliners) ”À√—∫‡∑§π‘§°“√∑”¢âÕ¡Ÿ≈„Àâ ¡∫Ÿ√≥å¡’¥â«¬°—πÀ≈“¬«‘∏’ µ—Èß·µà«‘∏’∏√√¡¥“‰ª ®π∂÷ß°“√„™â‚ª√·°√¡‡¢â“¡“™à«¬ ¥—ßπ’È 1. °“√µ√«® Õ∫¥â«¬ “¬µ“ (Visual Scanning) «‘∏’π’È·π–π”„Àâ„™â°√≥’∑’Ë¡’µ—«·ª√ πâÕ¬°«à“ 30 µ—«·ª√ ·≈–¡’®”π«π√–‡∫’¬ππâÕ¬ °«à“ 300 √–‡∫’¬π «‘∏’°“√µ√«® Õ∫§◊Õ print out ¢âÕ¡Ÿ≈®“°§Õ¡æ‘«‡µÕ√åÕÕ°¡“·≈⫵√«® Õ∫∑’ ≈–√–‡∫’¬π, ∑’≈–µ—«·ª√ À√◊Õµ√«® Õ∫∑’ËÀπâ“®Õ §Õ¡æ‘«‡µÕ√åÀ“¢âÕ¡Ÿ≈∑’ˉ¡àπà“®–‡ªìπ‰ª‰¥â ‡™àπ µ—«·ª√‡æ» ID ∑’Ë 04 ¡’‡≈¢ 5 πÕ°‡Àπ◊Õ®“° §Ÿà¡◊Õ√À— °”Àπ¥‰«â „Àâ∫—π∑÷°√“¬≈–‡Õ’¬¥§«“¡ º‘¥æ≈“¥≈ß„πøÕ√å¡∫—π∑÷°¢âÕ¡Ÿ≈·µà≈–√–‡∫’¬π „π∑’Ëπ’È√–‡∫’¬π„¥∑’Ë¡’§«“¡º‘¥æ≈“¥„π°“√π”‡¢â“ ¢âÕ¡Ÿ≈∑’˵—«·ª√„¥Ê °Áµ“¡ ºŸâ‡¢’¬π‰¥â°”Àπ¥

µ“√“ß∑’Ë 1 · ¥ß°“√µ√«® Õ∫¥â«¬ “¬µ“¢âÕ¡Ÿ≈ß“π«‘®—¬‡°’ˬ«°—∫°“√§“¥‡¢Á¡¢—¥π‘√¿—¬„π ª√–™“™πÀ¡Ÿà∫â“πÀπ÷Ëß∑’Ë¡’µ—«·ª√ 6 µ—« ·≈–¡’ 11 √–‡∫’¬π ID

NAME

SEX

AGE

01 ¡“,√—°¥’ 1 15 02 ÀπŸ,Õ‘ √– 2 42 03 ¡À«—ß √—°¥’[A] 2 44 04 °ƒ…≥“,„®¥’ 5 [A] 55 05 ¡“π’,¥’„® 2 74[A] 06 ¥«ßµ“,√—°…“ 1 33 07 Õ‘π∑√,ªÉ“‰¡â 1 32 08 Õ‘ √“,¡“π– 1 25 09 °‘µµ‘, –Õ“¥ 2 12[A] 10 ™“µ‘,¬‘Ëß™’æ 2 57 10 [A] ™“µ‘,¬‘Ëß™’æ 2 57 À¡“¬‡Àµÿ : [A] ‡ªìπ¢âÕ¡Ÿ≈º‘¥æ≈“¥µâÕ߉¥â√—∫°“√·°â‰¢„Àâ∂Ÿ°µâÕß THAILAND JOURNAL OF HEALTH PROMOTION AND ENVIRONMENTAL HEALTH

DRIVE

BELT

1 0 1 1 1 1 1 1 1 1 1

0 1[A] 0 0 0 1 1 2[A] 1 1 1

July - September 2011

69


‡°√Á¥§«“¡√Ÿâ...∑“ß ∂‘µ‘ —≠≈—°…≥å [A] ‡ªìπ —≠≈—°…≥å¢Õߧ«“¡º‘¥ æ≈“¥°“√π”‡¢â“¢âÕ¡Ÿ≈ ¥—ßπ’È ®“°π—Èπ𔉪µ√«® Õ∫°—∫·∫∫ Õ∫∂“¡ µ“¡À¡“¬‡≈¢ ID ∑’Ë√–∫ÿ‰«âæ√âÕ¡°—∫·°â‰¢¢âÕ¡Ÿ≈ „Àâ∂Ÿ°µâÕß «‘∏’π’ȉ¡à‡À¡“– ¡À“°¡’À≈“¬µ—«·ª√ À√◊Õ¡’®”π«π√–‡∫’¬π¡“°Ê ‡π◊ËÕß®“°¡’§«“¡ ·¡àπ¬”πâÕ¬·≈–„™â‡«≈“„π°“√µ√«® Õ∫¡“° 2. µ√«® Õ∫¥â « ¬‚ª√·°√¡π”‡¢â “ ¢âÕ¡Ÿ≈ ‡™àπ Epidata, SPSS, À√◊Õ Questionnaire Programming Language ‚ª√·°√¡ ‡À≈à “ π’È „ π¢—È π µÕπ°“√ √â “ ßøÕ√å ¡ π”‡¢â “ ¢â Õ ¡Ÿ ≈ “¡“√∂°”Àπ¥§à“∑’ˇªìπ‰ª‰¥â¢Õß·µà≈–µ—«·ª√ ¥—ßπ—ÈπÀ“°ºŸâπ”‡¢â“¢âÕ¡Ÿ≈π”‡¢â“¢âÕ¡Ÿ≈πÕ°‡Àπ◊Õ ®“°∑’Ë°”Àπ¥§à“‰«â ‚ª√·°√¡®–‡µ◊Õπ∑—π∑’·≈– ‰¡à “¡“√∂π”‡¢â “ ¢â Õ ¡Ÿ ≈ µ— « ·ª√µà Õ ‰ª‰¥â µâ Õ ß Õ“»—¬°“√°√Õ°¢âÕ¡Ÿ≈„À¡àµ“¡§à“∑’Ë°”À𥉫â„π §Ÿà¡◊Õ√À— ‡∑à“π—È𠂪√·°√¡‡À≈à“π’È¡’øíß°å™—Ëπ„π °√≥’∑’˧”∂“¡‡ªìπ§”∂“¡∑’˵âÕߢⓡ¢âÕ “¡“√∂ °”Àπ¥„Àâ°√–‚¥¥®“°Õ’°§”∂“¡Àπ÷Ëß ‰ªÕ’° §”∂“¡Àπ÷Ëß‚¥¬Õ—µ‚π¡—µ‘ ∑”„Àâ –¥«°·≈–≈¥ §«“¡º‘¥æ≈“¥„π°“√π”‡¢â“¢âÕ¡Ÿ≈ πÕ°®“°π’Ȭ—ß §”π«≥µ“√“ß·®°·®ß§«“¡∂’Ë„π·µà≈–µ—«·ª√ µ√«® Õ∫√–‡∫’¬π´È”°—π ·≈–¬—ß “¡“√∂‡√’¬°¥Ÿ √“¬≈–‡Õ’ ¬ ¥§”µÕ∫„π·µà ≈ –µ— « ·ª√„π·µà ≈ – √–‡∫’¬π‰¥âÕ’°¥â«¬ ®÷ß¡’§«“¡‡À¡“– ¡„π°√≥’∑’Ë ¢âÕ¡Ÿ≈¡’®”π«πµ—«·ª√·≈–√–‡∫’¬π¡“°Ê ”À√—∫ ¢âÕ§«√√–«—ß„π°“√„™â‚ª√·°√¡‡À≈à“π’ȵâÕߧ”π÷ß ‰«â ‡ ¡Õ«à “ ‰¡à “¡“√∂≈¥§«“¡º‘ ¥ æ≈“¥‰¥â „ π °√≥’∑’Ë∫—π∑÷°¢âÕ¡Ÿ≈º‘¥‚¥¬¢âÕ¡Ÿ≈∑’Ë°√Õ°‡¢â“‰ª π—Èπ‰¡àπÕ°‡Àπ◊Õ®“°§Ÿà¡◊Õ√À— °”Àπ¥‰«â ‡™àπ µ—«·ª√‡æ» „π·∫∫ Õ∫∂“¡‡ªìπ‡æ»™“¬ µâÕß „Àâ√À— = 1 ·µàºŸâπ”‡¢â“¢âÕ¡Ÿ≈π”‡¢â“¢âÕ¡Ÿ≈‡ªìπ 2 ‡ªìπµâπ 3. µ√«® Õ∫¥â«¬‚ª√·°√¡«‘‡§√“–Àå 70

°√°Æ“§¡ - °—𬓬π 2554

°√¡Õπ“¡—¬ à߇ √‘¡„Àâ§π‰∑¬ ÿ¢¿“楒

¢âÕ¡Ÿ≈ ‡™àπ SPSS, STATA, SAS œ≈œ ‡ªìπÕ’° «‘ ∏’ À π÷Ë ß ∑’Ë ‡ À¡“– ”À√— ∫ ¢â Õ ¡Ÿ ≈ ¢π“¥„À≠à ‚ ¥¬ ‡©æ“–Õ¬à “ ߬‘Ë ß ¢â Õ ¡Ÿ ≈ ∑’Ë ‰ ¡à ‰ ¥â π”‡¢â “ ¢â Õ ¡Ÿ ≈ ¥â « ¬ ‚ª√·°√¡°“√π”‡¢â“¢âÕ¡Ÿ≈ ‚ª√·°√¡‡À≈à“π’È„™â ‡∑§π‘§ çList caseé π—Ëπ§◊Õ List µ—«·ª√ ID ∑’Ë ‡°‘¥¢âÕ¡Ÿ≈º‘¥æ≈“¥·≈â«∫—π∑÷°√“¬≈–‡Õ’¬¥ ®“° π—È π 𔉪µ√«® Õ∫°— ∫ ·∫∫ Õ∫∂“¡µ“¡ À¡“¬‡≈¢·∫∫ Õ∫∂“¡∑’‡Ë °‘¥¢âÕ¡Ÿ≈º‘¥æ≈“¥ ‚¥¬ Õ“»—¬«‘∏’°“√∑”„Àâ¢âÕ¡Ÿ≈ ¡∫Ÿ√≥å 5 «‘∏’¥—ßπ’È 1) °“√«‘‡§√“–À委„πª√–‚¬§ (Parsing the data) «‘∏π’ æ’È ®‘ “√≥“®“°¢âÕ°”Àπ¥„π§Ÿ¡à Õ◊ √À— ¬°µ—«Õ¬à“߇™àπ µ—«·ª√™◊ËÕ °”Àπ¥„À⺟âπ”‡¢â“ ¢â Õ ¡Ÿ ≈ §’ ¬å ™◊Ë Õ · ≈ – π “ ¡ °ÿ ≈ „ π √Ÿ ª · ∫ ∫ ∑’Ë ¡’ ‡§√◊ËÕßÀ¡“¬®ÿ≈¿“§§—Ëπ°≈“ß√–À«à“ß™◊ËÕ·≈– °ÿ≈ (™◊ÕË , °ÿ≈) ·µàºπŸâ ”‡¢â“¢âÕ¡Ÿ≈§’¬‡å ªìπ™◊ÕË ‡«âπ«√√§ 1 ‡§“–·≈⫵àե⫬ °ÿ≈ (™◊ËÕ °ÿ≈) ¥—ßπ—Èπ¢âÕ¡Ÿ≈„π √–‡∫’ ¬ ππ’È ®÷ ß ‡°‘ ¥ §«“¡º‘ ¥ æ≈“¥¢÷È π ‡æ√“–‰¡à ¡’ ‡§√◊ËÕßÀ¡“¬®ÿ≈¿“§§—Ëπ√–À«à“ß™◊ËÕ °ÿ≈ ‡ªìπµâπ °“√µ√«® Õ∫ “¡“√∂„™â§” —Ëß„π‚ª√·°√¡°“√ «‘‡§√“–Àå¢âÕ¡Ÿ≈™à«¬§âπÀ“ À“°„™âµ“√“ß·®°·®ß §«“¡∂’Ë Õ “®‰¡à æ ∫§«“¡º‘ ¥ æ≈“¥∑”„Àâ ≈ –‡≈¬ §«“¡º‘¥æ≈“¥π’ȉª 2) °“√¢®—¥¢âÕ¡Ÿ≈´È” (Duplicate Elimination) «‘∏’π’È„™âæ‘®“√≥“¢âÕ¡Ÿ≈´È”‚¥¬¢âÕ¡Ÿ≈´È”π’È Õ“®®–´È”°—πµ—Èß·µà 2 √–‡∫’¬π‡ªìπµâπ‰ª °“√ æ‘ ® “√≥“«à “ √–‡∫’ ¬ π´È” À√◊ Õ ‰¡à ´È” ‚¥¬∑—Ë « ‰ª®– æ‘®“√≥“∑’˵—«·ª√ ID “¡“√∂§âπÀ“¥â«¬«‘∏’°“√ ßà“¬ Ê §◊Õ „™â§” —Ëß Sort „Àâ¢âÕ¡Ÿ≈‡√’¬ß≈”¥—∫ ID ®“°πâÕ¬‰ªÀ“¡“° À“°√–‡∫’¬π„¥´È”°—π®–¡Õß ‡ÀÁπ®“°Àπâ“®Õ§Õ¡æ‘«‡µÕ√剥âßà“¬ À“°·µà«‘∏’π’È °√≥’ ∑’Ë ∞ “π¢â Õ ¡Ÿ ≈ ¡’ ¢ 𓥄À≠à ºŸâ µ √«® Õ∫Õ“® ‡°‘¥§«“¡º‘¥æ≈“¥‡Õß µ√«®‰¡àæ∫ ID ∑’¡Ë °’ “√´È” ¥— ß π—È π §«√„™â ‚ ª√·°√¡«‘ ‡ §√“–Àå ¢â Õ ¡Ÿ ≈ À√◊ Õ ‚ª√·°√¡π”‡¢â“¢âÕ¡Ÿ≈™à«¬§âπÀ“®–∑”„Àâ –¥«°


‡∑§π‘§°“√µ√«® Õ∫·≈–°“√µ√«®™”√–¢âÕ¡Ÿ≈(Techniques for Screening and Cleaning Data)

·≈–·¡àπ¬”¡“°°«à“ ”À√—∫°“√æ‘®“√≥“µ—¥ ID ∑’Ë´È”°—πÕÕ°À√◊Õ‰¡à µâÕßÕ“»—¬§«“¡√Ÿâ‡™‘߇Àµÿ‡™‘ß º≈ ‡æ√“–©–π—È π ºŸâ µ √«® Õ∫®–µâ Õ ß¡’ § «“¡√Ÿâ ‡©æ“–‡√◊ËÕßπ—Èπ Ê ‡ªìπÕ¬à“ߥ’‡æ◊ËÕæ‘®“√≥“«à“ ID ∑’Ë´È”°—ππ—Èπ§«√®–µ—¥ÕÕ°À√◊Õ√«¡√–‡∫’¬π °“√ æ‘®“√≥“«à“®–√«¡ ID ∑’Ë´È”°—πÀ√◊Õµ—¥ÕÕ°«‘∏’ Àπ÷Ëß∑’Ë·π–π”§◊Õ ‡ª√’¬∫‡∑’¬∫√–À«à“ßµ—«·ª√∑’ ≈–µ—«¢Õß ID ∑’Ë¡’°“√´È”°—π«à“§”µÕ∫‡À¡◊Õπ À√◊Õµà“ß°—πÕ¬à“߉√ ¬°µ—«Õ¬à“ß µâÕß°“√∑√“∫ «à“„πµ—«·ª√ ID ¡’§à“´È”À√◊Õ‰¡à ‚¥¬„™â‚ª√·°√¡ Stata 8.0 ¥—ßπ’È duplicates list id +-----------+ | obs: id | |-----------| | 10 10 | | 11 10 | |-----------| ®“°º≈≈—æ∏å¢â“ßµâπ ª√“°Ø«à“ ID ∑’Ë 10 ·≈– 11 ´È”°—π ‡¡◊ËÕæ‘®“√≥“ ID ∑’Ë 10 ·≈– 11 ∑’ ≈–µ—«·ª√µàÕµ—«·ª√ ®–‡ÀÁπ‰¥â«à“ ¢âÕ¡Ÿ≈‡À¡◊Õπ °—π∑ÿ°µ—«·ª√ ¥—ßπ—Èπ®÷ߧ«√æ‘®“√≥“µ—¥√–‡∫’¬π ÕÕ°‰ª 1 √–‡∫’¬π 3) «‘∏°’ “√∑“ß ∂‘µ‘ (Statistics Methods) «‘∏π’ æ’È ®‘ “√≥“§«“¡º‘¥æ≈“¥‰¥â®“° §à“µË” ÿ¥, §à“ Ÿß ÿ¥, à«π‡∫’ˬ߇∫π¡“µ√∞“π, °“√·®°·®ß §«“¡∂’¢Ë Õß§à“·≈–§à“ Ÿ≠À“¬À√◊Õ§à“«à“ß ‡ªìπ°“√ À“§«“¡º‘¥æ≈“¥∑’ˇ°‘¥®“°§à“∑’ËπÕ°‡Àπ◊Õ®“° §Ÿà¡◊Õ√À— °”Àπ¥‰«â ‡™àπ §à“º‘¥ª°µ‘ (Out liner) §à“ Ÿ≠À“¬À√◊Õ§à“«à“ß À“°µ√«®æ∫§à“º‘¥ª°µ‘ À√◊Õ¡’¢âÕ¡Ÿ≈ Ÿ≠À“¬„π ID „¥Ê „Àâ∑”°“√·°â‰¢ ¢âÕ¡Ÿ≈„Àâ∂°Ÿ µâÕß ¡∫Ÿ√≥嵓¡·∫∫ Õ∫∂“¡π—πÈ ‡™àπ

°“√·®°·®ß§«“¡∂’¢Ë Õßµ—«·ª√‡æ» ¥â«¬‚ª√·°√¡ Stata 8.0 æ∫«à“ ¡’§à“πÕ°‡Àπ◊Õ®“°§Ÿà¡◊Õ√À— ∑’Ë °”Àπ¥ (5) ®”π«π 1 §π ¥—ßπ’È . SEX 1 2 5 Total

tab Freq. 4 5 1 10

sex Percent 40.00 50.00 10.00 100.00

Cum. 40.00 90.00 100.00

® “ ° π—È π µ √ « ® Õ ∫ «à “ À ¡ “ ¬ ‡ ≈ ¢ ·∫∫ Õ∫∂“¡„¥∑’Ë¡’§à“¢Õßµ—«·ª√‡æ» = 5 ´÷Ëß æ∫«à“ ‡ªìπÀ¡“¬‡≈¢·∫∫ Õ∫∂“¡∑’Ë 5 ¥—ßπ’È . list id if sex==5 +----------+ | id | |----------| 4.| 4 | +----------+ 4) °“√µ√«® Õ∫µ“¡¢âÕ°”Àπ¥‡ß◊ËÕπ‰¢ §à“∑’ˇªìπ‰ª‰¥â¢ÕߢâÕ¡Ÿ≈ (Integrity Constraint Enforcement) «‘∏’°“√π’ȇªìπ°“√µ√«® Õ∫§à“∑’Ë πÕ°‡Àπ◊Õ®“°§Ÿà¡◊Õ√À— °”À𥉫â´È”À≈—ß®“°∑’Ë¡’ °“√ª√—∫ª√ÿß·°â‰¢¢âÕ¡Ÿ≈·≈â« ‡æ◊ËÕ„Àâ¡—Ëπ„®«à“ ¢â Õ ¡Ÿ ≈ Õ¬Ÿà ¿ “¬„µâ ¢â Õ °”Àπ¥‡ß◊Ë Õ π‰¢¢Õß§à “ µ— « ·ª√π—ÈπÊ ·≈â« À“°¬—ß¡’§à“∑’ˉ¡à‰¥âÕ¬Ÿà„π¢âÕ °”Àπ¥‡ß◊ËÕπ‰¢§à“∑’ˇªìπ‰ª‰¥â¢ÕߢâÕ¡Ÿ≈Õ’° „Àâ ∑”°“√ª√—∫ª√ÿß·°â‰¢Õ’°§√—Èß ¡’‚Õ°“ ‡°‘¥‰¥â„π °√≥’µâÕß·°â‰¢¢âÕ¡Ÿ≈¢π“¥„À≠à ºŸâπ”‡¢â“¢âÕ¡Ÿ≈ Õ“®·°â‰¢º‘¥√–‡∫’¬π ‡æ√“–©–π—Èπ°“√·°â‰¢ ¢âÕ¡Ÿ≈®–µâÕß·°â‰¢∑’≈–√–‡∫’¬π 5) °“√·ª≈ߢâÕ¡Ÿ≈ (Data Transforma-

THAILAND JOURNAL OF HEALTH PROMOTION AND ENVIRONMENTAL HEALTH

July - September 2011

71


‡°√Á¥§«“¡√Ÿâ...∑“ß ∂‘µ‘ tion) «‘∏π’ ‡’È ªìπ°“√∑”¢âÕ¡Ÿ≈„Àâ ¡∫Ÿ√≥åæ√âÕ¡∑’®Ë – «‘‡§√“–Àå ´÷ËߢâÕ¡Ÿ≈∑’Ëπ”‡¢â“¡“Õ“®®–‡°‘¥§«“¡ º‘ ¥ æ≈“¥®“°°“√„Àâ §à “ ∑’Ë ‰ ¡à ¡’ √Ÿ ª ·∫∫°”Àπ¥ µ“¬µ—« ‡™àπ °“√„Àâ‡ß‘π‡¥◊Õπæπ—°ß“π„π·µà≈– §π¡’§«“¡·µ°µà“ß°—π¡“° °àÕππ”µ—«·ª√π’ȉª «‘‡§√“–À姫√·ª≈ߢâÕ¡Ÿ≈„ÀâÕ¬Ÿà„π√Ÿª¢Õß Standardize À√◊Õ Normalize ‡ ’¬°àÕπ „™â„π°√≥’ ∑’Ë¢âÕ¡Ÿ≈∑’Ë¡’§à“‡ªìπµ—«‡≈¢ (Numeric values) ‡∑à“π—πÈ

√ÿª °“√µ√«® Õ∫·≈–°“√µ√«®™”√–¢âÕ¡Ÿ≈ §«√¥”‡π‘π°“√‰ª¥â«¬°—π‡ ¡Õ‡æ◊ËÕªÑÕß°—𧫓¡ º‘¥æ≈“¥„π°“√·°â‰¢¢âÕ¡Ÿ≈ ·≈–µ—«·ª√ ”§—≠∑’Ë ¢“¥‰¡à‰¥â‡π◊ËÕß®“°¡’§«“¡‡™◊ËÕ¡‚¬ß√–À«à“ß∞“π ¢âÕ¡Ÿ≈·≈–·∫∫ Õ∫∂“¡Õ—π®–∑”„Àâ “¡“√∂°≈—∫ ‰ªµ√«® Õ∫¢âÕ¡Ÿ≈„π·∫∫ Õ∫∂“¡·≈–·°â‰¢„Àâ

¡∫Ÿ √ ≥å ∂Ÿ ° µâ Õ ß π—Ë π §◊ Õ µ— « ·ª√À¡“¬‡≈¢ ·∫∫ Õ∫∂“¡ ¥—ßπ—ÈπÀ“°¡’°“√π”‡¢â“¢âÕ¡Ÿ≈ ºŸâπ”‡¢â“¢âÕ¡Ÿ≈§«√§”π÷ß∂÷ßµ—«·ª√π’È°àÕπ‡ ¡Õ ”À√—∫°“√‡≈◊Õ°«‘∏’°“√µ√«® Õ∫¢âÕ¡Ÿ≈ ºŸâ‡¢’¬π ¢Õ·π–π”«à“ °“√π”‡¢â“¢âÕ¡Ÿ≈§«√π”‡¢â“¢âÕ¡Ÿ≈ ¥â « ¬‚ª√·°√¡°“√π”‡¢â “ ¢â Õ ¡Ÿ ≈ ´÷Ë ß ∂◊ Õ «à “ ‡ªìπ°“√°√Õߧ«“¡º‘¥æ≈“¥¢ÕߢâÕ¡Ÿ≈‰¥â‡∫◊ÕÈ ßµâπ ‡π◊Ë Õ ß®“°„π‚ª√·°√¡‡À≈à “ π’È “¡“√∂°”Àπ¥ ‡ß◊ËÕπ‰¢§à“∑’ˇªìπ‰ª‰¥â¢Õß·µà≈–µ—«·ª√ ®÷ß àߺ≈ „Àâ°“√π”‡¢â“¢âÕ¡Ÿ≈∑ÿ°§√—Èß®–µâÕ߇ªìπ¢âÕ¡Ÿ≈∑’ËÕ¬Ÿà ¿“¬„µâ¢âÕ°”Àπ¥¢Õßµ—«·ª√π’ȇ∑à“π—Èπ®÷ß®–π” ‡¢â“¢âÕ¡Ÿ≈‰¥â à«π«‘∏’¢®—¥§«“¡º‘¥æ≈“¥¢Õß ¢âÕ¡Ÿ≈§«√„™â‚ª√·°√¡∑“ß ∂‘µ‘™à«¬„π°“√µ√«® Õ∫·≈–µ√«®™”√–¢âÕ¡Ÿ≈ ‡π◊ËÕß®“° ‘Èπ‡ª≈◊Õß √–¬–‡«≈“πâÕ¬°«à“·µà°≈—∫„À⧫“¡·¡àπ¬”¡“° °«à“«‘∏’µ√«® Õ∫¥â«¬ “¬µ“

‡Õ° “√Õâ“ßÕ‘ß 1. OûRourke T. Techniques for screening and cleaning data for analysis. American Journal of Health Studies. 2000; 16: 217-9. 2. Muller H., Freytag J., Problems, Methods, and Challenges in Comprehensive Data Cleansing, HumboldtUniversitat zu Berlin, Germany. 3. Joseph M. Quantitative data cleaning for large databases, 2008. White Paper, United Nations Economic Commission for Europe. HEALTH

72

°√°Æ“§¡ - °—𬓬π 2554

°√¡Õπ“¡—¬ à߇ √‘¡„Àâ§π‰∑¬ ÿ¢¿“楒


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.