Multivariatne metode in manjkajoˇci podatki Uporaba R pri seminarju iz Multivariatne analize Podiplomski študij Statistika
A. Blejec andrej.blejec@nib.si
June 4, 2008 Abstract Prikazana je uporaba nekaterih R funkcij, ki so uporabljajo za multivariatno analizo. Poleg funkcij za generiranje multivariatno porazdeljenih spremenljivk in funkcij za veˇcdimenzionalne grafiˇcne prikaze so nakazane še funkcije za obvladovanje problema manjkajoˇcih vrednosti.
1
Uvod
Pri seminarjih iz Multivariatne analize v šolskem letu 2006/07 raziskujemo vpliv razliˇcne obravnave manjkajoˇcih podatkov na rezultate nekaterih multivariatnih metod.
1.1
Naˇcrt seminarjev
Obravnavali bomo 4 multivariatne metode: • • • •
Wardovo hierarhiˇcno metodo razvršˇcanja Metodo voditeljev Metodo glavnih komponent Faktorsko analizo
Naˇcini generiranja manjkajoˇcih podatkov: • popolnoma nakljuˇcno (MCAR) • pogojno nakljuˇcno (MAR) • nenakljuˇcno (NMAR) Obravnava manjkajoˇcih podatkov: • • • • • • •
brisanje enot z manjkajoˇcimi podatki neupoštevanje manjkajoˇcih podatkov vstavljanje povpreˇcij spremenljivk vstavljanje nenakljuˇcnih vrednosti glede na porazdelitev spremenljivke najbližja enota multiple imputacije EM algoritem 1