Multivariate analyser med STATA (9788245018738)

Page 1

Multivariate analyser med STATA er relevant for alle som skal ha en kort innføring i å bruke statistikkprogrammet STATA. Eksempler på temaer som gjennomgås, er: • Hvordan komme i gang med STATA • Bruk av data-editoren og kommandofil-editoren • Transformasjon av data • Multivariate analysemetoder som - T-tester - F-tester - Variansanalyser - Korrelasjonsanalyser - Regresjonsanalyser med tverrsnittsdata og tidsseriedata - Residualanalyser for testing av OLS-forutsetninger - Logistiske regresjonsanalyser - Paneldata-analyser (kombinasjon av tverrsnittsdata og tidsseriedata) - Prinsipal komponentanalyse PCA - Eksplorativ faktoranalyse - Estimering av enkle strukturmodeller SEM Boka vektlegger hvordan man skal utføre multivariate analyser, og det presenteres enkle tolkninger av resultater. Det anbefales i tillegg å bruke grunnleggende lærebøker innen multivariate analyser. Multivariate analyser med STATA er oppdatert i forhold til versjon 16, men de som har eldre versjoner, kan også bruke boka.

ISBN 978-82-450-1873-8

,!7II2E5-abihdi!

RANDI HAMMERVOLD MULTIVARIATE ANALYSER MED STATA

Randi Hammervold er førsteamanuensis i statistikk ved Handelshøyskolen NTNU, og er utdannet dr.scient. i statistikk ved NTNU. Hun har lang erfaring med å bruke ulike statistikkprogram som for eksempel SPSS, STATA og LISREL fra sin forskning og undervisning innen kvantitative analysemetoder og strukturmodellering SEM.

RANDI HAMMERVOLD

MULTIVARIATE ANALYSER MED STATA

EN KORT INNFØRING



RANDI HAMMERVOLD

MULTIVARIATE ANALYSER MED STATA

EN KORT INNFØRING


Copyright © 2020 by Vigmostad & Bjørke AS All Rights Reserved

1. utgave / 1. opplag 2020 ISBN: 978-82-450-1873-8 Grafisk produksjon: John Grieg, Bergen Omslagsdesign ved forlaget

Spørsmål om denne boken kan rettes til: Fagbokforlaget Kanalveien 51 5068 Bergen Tlf.: 55 38 88 00 Faks: 55 38 88 01 E-post: fagbokforlaget@fagbokforlaget.no www.fagbokforlaget.no Materialet er vernet etter åndsverkloven. Uten uttrykkelig samtykke er eksemplarfremstilling bare tillatt når det er hjemlet i lov eller avtale med Kopinor.


Forord Denne boka bygger på forelesningsnotater fra opplæring i bruken av STATA i masterkurset kvantitativ metode og økonometri – MET 420 – ved Handelshøyskolen NTNU. I kurset brukes også klassiske lærebøker i multivariat statistikk og økonometri, som viser utskrifter fra STATA i sine mange eksempler. Boka gir en kort innføring i bruken av STATA, som gjør det mulig å foreta t-tester, F-tester, variansanalyser, regresjonsanalyser, logistiske regresjonsanalyser, analyser av paneldata, prinsipal komponentanalyser, faktoranalyser og enkle analyser av strukturmodeller. Det forutsettes at den som bruker boka, behersker eller har tilgang til gode læremidler i multivariat statistikk og økonometri. Det har vært en del etterspørsel etter dette heftet, og derfor blir det nå utgitt som bok. STATA blir ved Handelshøyskolen NTNU brukt av både studenter og vitenskapelig ansatte. Studenter bruker STATA i forbindelse med bachelor-, semester- og masteroppgaver samt ulike fagnotat på masterstudiet. Instituttet har også mange stipendiater som i perioder bruker STATA i sine doktorgradsstudier. Det er i tillegg mange faglig ansatte som bruker STATA i egen forskning og undervisning. For alle disse gruppene har heftet vist seg nyttig for å komme i gang. For videre bruk av STATA finnes det i dag en rikholdig litteratur som tar for seg alt fra enkel bruk av STATA til mer avanserte statistiske metoder. På hjemmesiden til STATA kan vi lese litt om utbredelsen av programvarepakken:

For researchers Stata is the solution for your data science needs. Obtain and manipulate data. Explore. Visualize. Model. Make inferences. Collect your results into reproducible reports.


Multivariate analyser med STATA

By researchers We are professional software developers, and research excites us. So we develop powerful tools to make you a more effective researcher. We clearly explain these tools. And, when you need more, we are happy to talk to you about them. Our passion for research drives everything we do.

Why Stata? Fast. Accurate. Easy to use. Stata is a complete, integrated software package that provides all your data science needs— data manipulation, visualization, statistics, and reproducible reporting. Stata is a complete, integrated software package that provides all of your data science needs—data manipulation, visualization, statistics, and reproducible reporting.

Innholdet i boka er oppdatert i henhold til STATA 16, men de som har andre versjoner, kan også bruke den. Utseendet på dialogbokser og tabeller har endret seg noe, men ikke i vesentlig grad. Boka tar hovedsakelig for seg gjennomføring av analyser og det grunnleggende i STATA. Øvinger gis underveis. Når øvingene er utført, blir det viktig med tolkninger. Dette kan være en stor utfordring for enkelte. En kort innføring i STATA er imidlertid skrevet for at man skal komme i gang med analyser og diskutere korte tolkninger av resultatene. STATA-utskriftene er blitt noe forenklet ut fra plasshensyn, slik at det i noen tilfeller kun er de viktigste resultatene som er presentert. Datafilene som brukes i boka, kan lastes ned fra www.fagbokforlaget.no/multivariateanalysermedstata. Tilbakemeldinger mottas med stor takk, og kan sendes fagbokforlaget@fagbokforlaget.no og Randi.Hammervold@ntnu.no. Trondheim, januar 2020 Randi Hammervold


Innhold

1

En kort gjennomgang av boka . . . . . . . . . . . . . . . . . . . . . . 15

1.1 1.2 1.3 1.4 1.5 1.6 1.7

Hva STATA inneholder – ulike vinduer og editorer . . . . . Noen filtyper i STATA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Hovedmenyen i STATA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Hvordan starte STATA og velge datafil . . . . . . . . . . . . . . . . Data-editoren. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Oversikt over innholdet i datafilen . . . . . . . . . . . . . . . . . . . . Et enkelt eksempel – statistisk analyse av TV-sportsdata. . . . . . . . . . . . . . . . . . 1.7.1 Valg av datafil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.7.2 Valg av statistisk analyse – enkel beskrivende statistikk . . . . . . . . . . . . . . . . . . . 1.7.3 Kjøre kommandoen med bruk av kommandoer og/eller menyer . . . . . . . . . . . . . . . 1.8 Lagre resultatene – log-filer . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.9 Utskrift av resultater . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.10 Avslutte STATA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

18 19 19 20 20 22 25 25 25 25 29 30 30

2

Bruk av data-editoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.1

Registrering av data i STATA . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1 Dersom data importeres fra andre analyseverktøy . . . . . . . . . . . . . . . . . . . . . . . . 2.1.2 Registrering av data manuelt . . . . . . . . . . . . . . . . . . . Definering av variabelnavn og value labels . . . . . . . . . . . . Manglende verdier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.2 2.3

31 31 32 32 34


8

Multivariate analyser med STATA

3

Bruk av kommandofil-editoren – Do-file Editor . . . 35

4

Datatransformasjoner og hypotesetester – TVsportsdata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

4.1 4.2 4.3

Rekoding av variabler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lagre datafilen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kommandofil-editoren for rekoding av variablene aldersgr og fylke . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Videre beskrivende statistikk . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.1 Beskrivende statistikk for variablene som måler interessen for de ulike typer TV-sport – totalt for Norge. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.2 Beskrivende statistikk for variablene som måler interessen for de ulike typer TV-sport – etter aldersgrupper. . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.3 Beskrivende statistikk for variablene som måler interessen for de ulike typer TV-sport – etter kjønn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.4 Beskrivende statistikk for variablene som måler interessen for de ulike typer TV-sport – etter utdanningsgrupper . . . . . . . . . . . . . . . . . . . . . . 4.4.5 Beskrivende statistikk for variablene som måler interessen for de ulike typer TV-sport – etter fylker . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5 Eksempel på statistisk analyser – t-tester ett utvalg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.6 Eksempel på statistisk analyse – t-test for to uavhengige utvalg . . . . . . . . . . . . . . . . . . . . . . 4.7 Kommandofil-editoren for beskrivende statistikk og t-tester for TV-sportsdata . . . . . . . . . . . . . . . . . . . . . . . . .

40 45 45 48

48

49

51

52

53 56 58 67

5

Datatransformasjoner – kommuneregnskapsdata . . . . . . . . . . . . . . . . . . . . . . . . . 68

5.1 5.2 5.3

Beregne nye variabler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 Rekoding av variabler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 Beskrivende statistikk. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 5.3.1 Beskrivende statistikk for variabelen driftsutgifter per innbygger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74


Innhold

5.4 5.5

5.3.2 Rapport for ulike kommuner – gruppert fylkesvis – med gjennomsnittsverdier og standardavvik. . 5.3.3 Beskrivende statistikk for flere variabler, for ulike grupper . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Eksempel på statistisk analyse – t-test for to uavhengige utvalg . . . . . . . . . . . . . . . . . . . . . . Kommandofil-editoren for beskrivende statistikk og t-tester for kommuneregnskapsdata . . . . . . . . . . . . . . . . .

74 76 78 84

6

T-test for to utvalg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

6.1 6.2 6.3

To uavhengige utvalg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 To avhengige utvalg. Parvise data . . . . . . . . . . . . . . . . . . . . 89 Kommandofil-editoren for t-tester for to utvalg . . . . . . 91

7

Variansanalyse. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

7.1 7.2 7.3

Enveis variansanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 Toveis variansanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 Kommandofil-editoren for variansanalysene . . . . . . . . . 100

8

Regresjonsanalyse med tverrsnittsdata . . . . . . . . . . . 103

8.1

Eksempel på regresjonsanalyse – Woody’s restaurantdata. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 Formulere regresjonsmodellen med forutsetninger . . 105 Beskrivende statistikk og estimering av korrelasjonskoeffisienter . . . . . . . . . . . . 107 8.3.1 Beskrivende statistikk . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 8.3.2 Korrelasjonsmatrisen . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 Estimering av regresjonsmodellen. . . . . . . . . . . . . . . . . . . . 109 8.4.1 Estimert regresjonsmodell . . . . . . . . . . . . . . . . . . . . . . 110 8.4.2 T-test for regresjonskoeffisientene. . . . . . . . . . . . . . 111 8.4.3 Modellens tilpasning til data . . . . . . . . . . . . . . . . . . . . 112 8.4.4 F-testen for modellen – «F-test of overall significance» . . . . . . . . . . . . . . . . . . . . . . 112 Residualanalysen for regresjonsmodellen . . . . . . . . . . . . 113 8.5.1 Ramsey RESET test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 8.5.2 VIF indekser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 8.5.3 Breusch–Pagan test. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

8.2 8.3

8.4

8.5

9


10

Multivariate analyser med STATA

8.6 8.7

8.5.4 White test. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 8.5.5 Standardiserte residualer . . . . . . . . . . . . . . . . . . . . . . . 119 8.5.6 Hypotesetester for normalfordelte residualer . . . 120 8.5.7 Probability Plot – PP-plott . . . . . . . . . . . . . . . . . . . . . . . 122 8.5.8 Residualplott . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 8.5.9 Innflytelsesrike case og ekstremverdier . . . . . . . . . 124 Robuste standardfeil. Heteroskedastisitetskorrigerte standardfeil . . . . . . . . . . . 127 Kommandofil-editoren for regresjonsmodellen med tverrsnittsdata. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

9

Regresjonsanalyse med tidsseriedata . . . . . . . . . . . . . 130

9.1

Eksempel på regresjonsanalyse – etterspørsel etter kylling . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 Definering av tidsseriestrukturen i data . . . . . . . . . . . . . . . 131 Beskrivende statistikk og estimering av korrelasjonskoeffisienter . . . . . . . . . . . . . . . 132 9.3.1 Beskrivende statistikk . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 9.3.2 Korrelasjonsmatrisen . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 Estimering av regresjonsmodellen. . . . . . . . . . . . . . . . . . . . 134 9.4.1 Estimert regresjonsmodell . . . . . . . . . . . . . . . . . . . . . . 134 9.4.2 T-test for regresjonskoeffisientene. . . . . . . . . . . . . . 135 9.4.3 Modellens tilpasning til dataene . . . . . . . . . . . . . . . . 136 9.4.4 F-testen for modellen – «F-test of overall significance» . . . . . . . . . . . . . . . . . . . . . . 136 Residualanalysen for regresjonsmodellen . . . . . . . . . . . . 137 9.5.1 Ramsey RESET test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 9.5.2 VIF indekser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 9.5.3 Durbin–Watson test for autokorrelasjon . . . . . . . . 138 9.5.4 Lagrange Multiplier test / Breusch Godfrey test for autokorrelasjon . . . . . . . 140 9.5.5 Korrelogram med autokorrelasjonskoeffisienter 141 9.5.6 White test. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 9.5.7 Standardiserte residualer . . . . . . . . . . . . . . . . . . . . . . . 144 9.5.8 Hypotesetester for normalfordelte residualer . . . 144 9.5.9 PP-plott . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 9.5.10 Residualplott . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 GLS Prais–Winsten autoregresjon . . . . . . . . . . . . . . . . . . . . 147

9.2 9.3

9.4

9.5

9.6


Innhold

9.7 9.8 9.9

10

GLS med AR(1). Autoregresjon . . . . . . . . . . . . . . . . . . . . . . . 149 Robuste standardfeil – Newey–West standard errors . . . . . . . . . . . . . . . . . . . . . . . 151 Kommandofil-editoren for regresjonsmodellen med tidsseriedata . . . . . . . . . . . 152 Logistisk regresjonsanalyse . . . . . . . . . . . . . . . . . . . . . . . . 153

10.1 Logistisk regresjonsmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 10.2 Eksempel på logistisk regresjonsanalyse . . . . . . . . . . . . . 154 10.3 Estimering av logistisk regresjonsmodell . . . . . . . . . . . . . 155 10.3.1 Estimering med estimerte Odds Ratio . . . . . . . . 155 10.3.2 Estimering med logistiske regresjonskoeffisienter. . . . . . . . . . . . . . . . . . . . . . . . 156 10.3.3 Tolkning av logistiske regresjonskoeffisienter B og Odds Ratio Exp(B) . . . . . . . . . . . . . . . . . . . . . . . . . 156 10.4 Omregning til predikerte sannsynligheter . . . . . . . . . . . . 157 10.5 Evaluering av den logistiske regresjonsmodellen . . . . . 158 10.5.1 Forklaringsgraden for modellen . . . . . . . . . . . . . . . 159 10.5.2 Z-tester for de logistiske regresjonskoeffisientene. . . . . . . . . . . . . . . . . . . . . . 159 10.5.3 Kjikvadrattest for modellen . . . . . . . . . . . . . . . . . . . 159 10.6 Hosmer–Lemeshow test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 10.7 Klassifikasjon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 10.8 Standardiserte residualer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 10.9 Kommandofil-editoren for logistisk regresjonsmodell . 162 11

Paneldata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164

11.1 Eksempel på paneldata: Testing av prisfastsettelsesmodeller for formue (CAPM) . . . . . . . . 165 11.2 Paneldatastrukturen i datafilen . . . . . . . . . . . . . . . . . . . . . . . 167 11.3 Beskrivende statistikk. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 11.4 Pooled regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 11.5 Fixed Effects modeller – within-estimation . . . . . . . . . . . 169 11.6 Random Effects modeller – GLS . . . . . . . . . . . . . . . . . . . . . . 171 11.7 Hausman test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 11.8 Between-estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 11.9 Kommandofil-editoren for paneldata . . . . . . . . . . . . . . . . . 176

11


12

Multivariate analyser med STATA

12

Prinsipal komponentanalyse – PCA . . . . . . . . . . . . . . . . 177

12.1 Eksempel på PCA – amerikanske statsobligasjoner og ulike løpetider . . . 178 12.2 Resultater av PCA. Egenverdier og egenvektorer . . . . . 179 12.2.1 Tolkning. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179 12.2.2 Likning for den prinsipale komponenten . . . . . . 180 12.2.3 Stidiagram for den prinsipale komponenten . . . 180 12.3 Lagring av prinsipale komponenter . . . . . . . . . . . . . . . . . . . 180 12.4 Screeplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 12.5 KMO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 12.6 Kommandofil-editoren for PCA . . . . . . . . . . . . . . . . . . . . . . . 183 13

Eksplorativ faktoranalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . 184

13.1 Eksempel på EFA – TV-sportsdata . . . . . . . . . . . . . . . . . . . . 186 13.2 Resultater fra faktoranalysen. . . . . . . . . . . . . . . . . . . . . . . . . . 188 13.3 Tolkninger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 13.3.1 Antall faktorer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 13.3.2 Forklart total varians . . . . . . . . . . . . . . . . . . . . . . . . . . 190 13.3.3 Faktorladninger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 13.3.4 Forklaringsgrader . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 13.4 Likningene og stidiagram for denne EFA. . . . . . . . . . . . . . 191 13.5 Rotering av faktorer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 13.6 Lagring av faktorskårer. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 13.7 KMO og LR-testen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 13.8 Kommandofil-editoren for faktoranalysen . . . . . . . . . . . . 195 14

Estimering av strukturmodeller – SEM – med STATA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197

14.1 14.2 14.3 14.4 14.5

SEM kontra GSEM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 Estimering med SEM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198 Eksempler på SEM – bankkunders lojalitet . . . . . . . . . . . . 201 SEM Builder i STATA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 Eksempel 1: Strukturmodell med observerte variabler. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205 14.5.1 Steg 1. Les inn data . . . . . . . . . . . . . . . . . . . . . . . . . . . 205 14.5.2 Steg 2: Tegn stidiagrammet i SEM Builder . . . . . 206 14.5.3 Steg 3: Estimere modellen . . . . . . . . . . . . . . . . . . . . 207


Innhold

14.5.4 Steg 4: Goodness of fit-mål . . . . . . . . . . . . . . . . . . . 208 14.5.5 Resultatvinduet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 14.5.6 Kommandofil-editoren for eksempel 1. . . . . . . . 213 14.5.7 Tolkninger eksempel 1 . . . . . . . . . . . . . . . . . . . . . . . . 213 14.6 Eksempel 2: Bekreftende faktormodell for servicekvalitet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 14.6.1 Steg 1: Les inn data . . . . . . . . . . . . . . . . . . . . . . . . . . . 216 14.6.2 Steg 2: Tegn stidiagrammet i SEM Builder . . . . . 216 14.6.3 Steg 3: Estimer modellen . . . . . . . . . . . . . . . . . . . . . 217 14.6.4 Steg 4: Goodness of fit-mål . . . . . . . . . . . . . . . . . . . 218 14.6.5 Resultatvinduet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218 14.6.6 Kommandofil-editoren for eksempel 2 . . . . . . . 221 14.6.7 Tolkninger – Eksempel 2 . . . . . . . . . . . . . . . . . . . . . . 221 14.7 Eksempel 3: Strukturmodell med latente variabler . . . . 222 14.7.1 Steg 1: Les inn data . . . . . . . . . . . . . . . . . . . . . 223 14.7.2 Steg 2: Stidiagrammet i SEM Builder . . . . . . . . . . 223 14.7.3 Steg 3: Estimering av modellen . . . . . . . . . . . . . . . 225 14.7.4 Steg 4: Goodness of fit – mål . . . . . . . . . . . . . . . . . 225 14.7.5 Resultatvinduet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225 14.7.6 Kommandofil-editoren eksempel 3 . . . . . . . . . . . 234 14.7.7 Tolkninger – Eksempel 3 . . . . . . . . . . . . . . . . . . . . . . 234 14.8 Oppsummering av eksempel 1, 2 og 3 . . . . . . . . . . . . . . . 235

13



1

En kort gjennomgang av boka

STATA (Software for Statistics and Data Science) er en programpakke for statistisk databehandling. Programmet er kommandobasert, dvs. at kommandoer må utformes for å utføre de statistiske analyser en ønsker. Windows-versjonen har menyer og dialogbokser som forenkler denne utformingen.

For enkle analyser vil utformingen av kommandoene være «usynlige» for brukeren. For mer omfattende analyser vil det i de fleste tilfeller være ønskelig – fra brukerens perspektiv – å arbeide ut fra et kommandosett som kan redigeres og utvides etter behov. Vi jobber med en Data Editor (data-editor) og en Do-file Editor (kommandofil-editor). Kapittel 1 inneholder en grunnleggende gjennomgang av hvordan STATA fungerer. Her forklares de ulike vinduer, editorer, filtyper, menyer og dialogbokser. Videre presenteres et innledende eksempel på en enkel statistisk analyse av folks interesse for TV-sport (TØH/ Norfakta, 2010). Videre analyseres også kommuneregnskapsdata fra Sør- og Nord-Trøndelag (Statistisk sentralbyrå, 2016). Viktige punkter i en statistisk analyse med STATA er hvordan du • • • •

velger datafil, velger statistisk analyse fra menyen, velger variabler som skal inngå i analysen, og foretar kjøring av kommandoer samt ser på resultatene i resultatvinduet.


16

Multivariate analyser med STATA

Lagring og utskrift av analyseresultat blir også diskutert. Det er viktig å ha ryddige rutiner for lagring av filer. STATA har 5 vinduer i åpningsvinduet. Data Editor, som inneholder et datavindu, et variabelvindu og et egenskapsvindu, beskrives nærmere i kapittel 2, og resultatvinduet og kommandofil-editoren i kapittel 3. Hvordan man gjør enkle datatransformasjoner – som å beregne nye variabler og rekode gamle – forklares i kapitlene 4 (TV-sportsdata) og 5 (Kommuneregnskapsdata). Avslutningsvis i kapittel 4 og i kapittel 5 viser vi hvordan vi kan foreta enkle hypotesetester (t-tester) ved bruk av STATA. Eksempler på t-tester for to uavhengige utvalg samt enveis og toveis variansanalyse er presentert i kapitlene 6 og 7. Regresjonsanalyse for tverrsnittsdata og tidsseriedata blir behandlet i hhv. kapittel 8 og 9. Videre presenteres logistisk regresjonsanalyse i kapittel 10. I kapittel 11 presenteres analyser av paneldata, som er en kombinasjon av tverrsnittsdata og tidsseriedata. Paneldatamodeller er mye benyttet innen økonometri. Videre presenteres prinsipal komponentanalyse og eksplorativ faktoranalyse hhv. i kapittel 12 og 13. I kapittel 14 vises tre eksempler på bruk av STATA for estimering av strukturmodeller. SEM (Structural Equation Modelling) er en videreføring av faktoranalyse og multippel regresjonsanalyse. I slike analyser inngår ofte både tradisjonelle observerte variabler og såkalte latente variabler, dvs. variabler som ikke er direkte observerbare. For de latente variablene har vi ofte to eller flere observerte indikatorer, og i SEM-analysen inngår derfor ofte såkalte reflektive målemodeller. SEM er et omfattende tema, og det finnes rikholdig litteratur om det. Vi viser her noen innledende eksempler fra kundeundersøkelser som går på servicekvalitet, byttekostnader og lojalitet. I slike SEM-analyser benyttes ofte mer avanserte dataverktøy som LISREL og MPLUSS. En oversikt over bruken av STATA for å utføre en statistisk analyse er som følger:


En kort gjennomgang av boka

1. DATAOPPSETT STATA-datafil TVsport.dta

2. ANALYSEOPPSETT STATA-syntaks/kommandofil TVsport.do

Data Editor

Do-file Editor – Kommandofileditor

• Strukturering av data • Registrering av data Variabelvindu og Egenskapsvindu. • Transformering av data

Hovedmenyer og dialogbokser Kommandovinduet. STATA-kommandoer for statistisk analyse i kommandovinduet.

3. KJØRING AV STATA • Analyse av data

4. ANALYSERESULTAT STATA-datafil TVsport.scml TVsport.log

5. PRESENTASJON MS WORD (eksempel) (tekstbehandling) TVsport.doc

Resultatvinduet Oversiktsvindu • Frekvensfordelinger • Regresjonsanalyser • Korrelasjonsanalyser osv.

STATA inneholder ulike vinduer, editorer, menyer, dialogbokser og filtyper.

17


Multivariate analyser med STATA

18

1.1

Hva STATA inneholder – ulike vinduer og editorer

Installer programmet og start STATA. Da får du opp følgende åpningsvindu: STATA inneholder 5 ulike vinduer.

3 2

1 4

5

I åpningsvinduet ser vi 5 viktige vinduer: 1 Resultatvindu – viser resultatene av kjøringene STATA har utført. 2 Oversiktsvindu – oversikt over STATA-kommandoer du har kjørt. History. 3 Variabelvindu – oversikt over variablene i datafilen. Variable. 4 Egenskapsvindu – oversikt over variablenes egenskaper. Properties. 5 Kommandovindu – her skriver du inn kommandoer som STATA skal kjøre. Command. Mer om bruken av disse vinduene etter hvert utover i boka.


En kort gjennomgang av boka

1.2

Noen filtyper i STATA

Datafiler Resultatfiler Resultatvinduer Kommandofiler/Do-files

TVsport.dta TVsport.log TVsport.scml TVsport.do

Etternavnet forteller altså noe om filtypen.

1.3

Hovedmenyen i STATA

I åpningsvinduet øverst til venstre ser vi linjen med hovedmenyen. • File: Denne menyen har kommandoer for å lagre, skrive ut resultater, åpne en eksisterende fil, importere filer og eksportere filer. • Edit: Med denne menyen kan du modifisere eller kopiere tekst. Du kan bruke Edit-menyen til å kopiere tall fra STATA til Word, eller kopiere datamatrisen over i Excel. • Data: Her kan du få beskrivende statistikk for variablene dine, gå til Data Editor – data-editoren, beregne nye variabler, gjøre endringer i datafiler. Du kan f.eks. slå sammen flere datafiler, splitte datafiler før analyse, osv. • Graphics: Med denne menyen kan du velge grafikk-kommandoer for grafiske framstillinger av data. • Statistics: Dette er den sentrale menyen for å velge statistikkkommandoer for statistiske analyser. • Window: Herfra kan du gå direkte til de 5 ulike vinduene, eller til Data Editor – data-editoren og Do-file Editor – kommandofileditoren. • Help: Kjekt å ha! Du kan søke på det meste innen STATA.

19


20

Multivariate analyser med STATA

På verktøylinjen under menylinjen finner du ikoner som kan brukes som alternativ til hovedmenyen. Dette er snarveier til forskjellige kommandoer i STATA.

1.4

Hvordan starte STATA og velge datafil

Klikk på STATA-ikonet. Åpningsvinduet dukker opp. Gå til hovedmenyen og klikk på file og videre på open. Let opp datafilen TVsport.dta. Meny: File – open:

TVsport.dta

Du får følgende åpningsvindu:

Sjekk alle de fem vinduene! For å se på datamatrisen åpner vi data-editoren.

1.5

Data-editoren

I data-editoren har du tre vinduer: datamatrisen, variabelvinduet og egenskapsvinduet. I selve data-editoren vises datamatrisen (du kan legge


En kort gjennomgang av boka

inn nye verdier osv.), mens i variabelvinduet vises variablene med labels, og i egenskapsvinduet vises labels for variabler, type, format og value labels. Variabelvinduet og egenskapsvinduet kan sies å inneholde kodeboka for alle variablene. Men dette forutsetter at du registrerer og legger inn all informasjon om variablene, noe dette kapitlet handler om. Vi starter nå med å se på datamatrisen i regnearket: Vi åpner data-editoren ved: bruk av hurtigknappen: eller ved bruk av hovedmenyen: Meny: Data – Data Editor.

Datamatrisen består av: • Kolonnene: er variabler • Radene: er analyseenheter/case/respondenter • Cellene: er verdier. Elementer i selve datamatrisen. Svarene fra respondentene. I datamatrisen ser vi verdier som er både tall og value labels. Dersom vi ikke ønsker å se value labels i regnearket, men bare tall, bruker vi følgende kommando: Meny: Tools – Value labels – Hide all value labels

21


22

Multivariate analyser med STATA

Datamatrisen blir da følgende:

1.6

Oversikt over innholdet i datafilen

For å få en oversikt over innholdet i datafilen kan du skrive følgende kommandoer i kommandovinduet: Kommando:

Describe – Dette gir en oversikt over datasettet.

Eller mer informasjon ved følgende kommando: Kommando:

Codebook – Dette gir en detaljert variabeloversikt.

Dette gir følgende resultater: . describe Contains data from M:\metodekurs master\STATA kjøringer\TVsport.dta obs: 1,000 vars: 21 13 Jun 2018 19:26 size: 164,000 ---------------------------------------------------------------------------------storage display value variable name type format label variable label ---------------------------------------------------------------------------------KOMMUNE double %12.0g Kommunenummer kjønn double %12.0g kjønn Kjønn alder double %12.0g Alder utdannin double %12.0g utdannin Hva er din høyeste fullførte skolegang? sport double %12.0g sport Interesse for: Sport fotball double %12.0g fotball Interesse for: Fotball handball double %12.0g handball Interesse for: Håndball ishockey double %12.0g ishockey Interesse for: Ishockey basketba double %12.0g basketba Interesse for: Basketball langrenn double %12.0g langrenn Interesse for: Langrenn skiskyti double %12.0g skiskyti Interesse for: Skiskyting alpint double %12.0g alpint Interesse for: Alpint hopp double %12.0g hopp Interesse for: Hopp (skihopp) skøyter double %12.0g skøyter Interesse for: Skøyter


. describe Contains data from M:\metodekurs master\STATA kjøringer\TVsport.dta obs: 1,000 vars: 21 13 Jun 2018 19:26 size: 164,000 ---------------------------------------------------------------------------------En kort gjennomgang av boka 23 storage display value variable name type format label variable label ---------------------------------------------------------------------------------KOMMUNE double %12.0g Kommunenummer kjønn double %12.0g kjønn Kjønn alder double %12.0g Alder utdannin double %12.0g utdannin Hva er din høyeste fullførte skolegang? sport double %12.0g sport Interesse for: Sport fotball double %12.0g fotball Interesse for: Fotball handball double %12.0g handball Interesse for: Håndball ishockey double %12.0g ishockey Interesse for: Ishockey basketba double %12.0g basketba Interesse for: Basketball langrenn double %12.0g langrenn Interesse for: Langrenn skiskyti double %12.0g skiskyti Interesse for: Skiskyting alpint double %12.0g alpint Interesse for: Alpint hopp double %12.0g hopp Interesse for: Hopp (skihopp) skøyter double %12.0g skøyter Interesse for: Skøyter (hurtigløp på skøyter) motorspo double %12.0g motorspo Interesse for: Motorsport boksing double %12.0g boksing Interesse for: Boksing friidret double %12.0g friidret Interesse for: Friidrett sykling double %12.0g sykling Interesse for: Sykling snowboar double %12.0g snowboar Interesse for: Snowboard fylke double %12.0g fylke Fylkeskommune aldersgr float %9.0g aldersgrupper ---------------------------------------------------------------------------------Sorted by: . codebook ---------------------------------------------------------------------------------KOMMUNE Kommunenummer ---------------------------------------------------------------------------------type: range: unique values: mean: std. dev:

numeric (double) [101,2030] 257

units: missing .:

1 0/1,000

913.038 581.164

percentiles:

10% 219

25% 301

50% 832.5

75% 1432

90% 1804

----------------------------------------------------------------------------------kjønn Kjønn ----------------------------------------------------------------------------------type: label:

numeric (double) kjønn

range: unique values:

[1,2] 2

tabulation:

Freq. 463 537

units: missing .: Numeric 1 2

Label Mann Kvinne

1 0/1,000


24

Multivariate analyser med STATA

----------------------------------------------------------------------------------alder Alder ----------------------------------------------------------------------------------type: range: unique values:

numeric (double) [15,87] 72

mean: std. dev:

units: missing .:

1 0/1,000

45.951 16.891

percentiles:

10% 23

25% 34

50% 45

75% 58

90% 69

----------------------------------------------------------------------------------utdannin Hva er din høyeste fullførte skolegang? ----------------------------------------------------------------------------------type: label:

numeric (double) utdannin

range: unique values:

[1,5] 5

units: missing .:

tabulation:

Freq. 176 381 197

Numeric 1 2 3

240

4

6

5

1 0/1,000

Label Grunnskoleutdanning Videregående utdanning Universitets/høyskoleutdanning 1-3 år Universitets/høyskoleutdanning 4 år eller mer Ubesvart

----------------------------------------------------------------------------------sport Interesse for: Sport ---------------------------------------------------------------------------------type: label: range: unique values: examples:

numeric (double) sport, but 8 nonmissing values are not labeled [1,10] 10

units: missing .:

1 0/1,000

2 4 7 8

-----------------------------------------------------------------------------------

Tilsvarende for de øvrige idrettene.



Multivariate analyser med STATA er relevant for alle som skal ha en kort innføring i å bruke statistikkprogrammet STATA. Eksempler på temaer som gjennomgås, er: • Hvordan komme i gang med STATA • Bruk av data-editoren og kommandofil-editoren • Transformasjon av data • Multivariate analysemetoder som - T-tester - F-tester - Variansanalyser - Korrelasjonsanalyser - Regresjonsanalyser med tverrsnittsdata og tidsseriedata - Residualanalyser for testing av OLS-forutsetninger - Logistiske regresjonsanalyser - Paneldata-analyser (kombinasjon av tverrsnittsdata og tidsseriedata) - Prinsipal komponentanalyse PCA - Eksplorativ faktoranalyse - Estimering av enkle strukturmodeller SEM Boka vektlegger hvordan man skal utføre multivariate analyser, og det presenteres enkle tolkninger av resultater. Det anbefales i tillegg å bruke grunnleggende lærebøker innen multivariate analyser. Multivariate analyser med STATA er oppdatert i forhold til versjon 16, men de som har eldre versjoner, kan også bruke boka.

ISBN 978-82-450-1873-8

,!7II2E5-abihdi!

RANDI HAMMERVOLD MULTIVARIATE ANALYSER MED STATA

Randi Hammervold er førsteamanuensis i statistikk ved Handelshøyskolen NTNU, og er utdannet dr.scient. i statistikk ved NTNU. Hun har lang erfaring med å bruke ulike statistikkprogram som for eksempel SPSS, STATA og LISREL fra sin forskning og undervisning innen kvantitative analysemetoder og strukturmodellering SEM.

RANDI HAMMERVOLD

MULTIVARIATE ANALYSER MED STATA

EN KORT INNFØRING


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.