Boka starter med å gjøre leseren kjent med hovedskjermbildet, vinduene, verktøylinjen og menyene. Man får raskt et inntrykk av hvordan Stata kan brukes til enkle analyser. Etter kapitler om klargjøring av data og beskrivende statistikk følger kapitler som tar for seg de vanligste statistiske analyseteknikkene: varians- og regresjonsanalyse, faktoranalyse og strukturlikningsmodeller, flernivåanalyse og logistisk regresjon. Boka avsluttes med et kapittel om mer avansert databearbeiding og programmering. Lær deg Stata er en selvstendig utgivelse. De som allerede bruker Kristen Ringdals Enhet og mangfold, 3. utgave, vil oppleve at de to bøkene fungerer godt sammen: I Lær deg Stata vises det hvordan dataanalysene i Enhet og mangfold kan gjennomføres i Stata.
ISBN 978-82-450-2058-8
,!7II2E5-acafii!
RINGDAL OG WIBORG L ÆR DEG STATA
Statistikkprogrammet Stata blir stadig mer populært. Lær deg Stata er en lett tilgjengelig og grundig innføring i programpakken. Boka er skrevet for studenter i sosiologi, statsvitenskap og andre samfunnsfag, samt pedagogikk, psykologi og helsefag. Den passer også for alle andre som skal bruke Stata til statistisk dataanalyse.
Kristen Ringdal og Øy vind Wiborg Kristen Ringdal er professor ved Institutt for sosiologi og statsvitenskap ved NTNU og har lang erfaring som foreleser i samfunnsvitenskapelig metode. Han har tidligere publisert bøkene Folkemeininga og den tredje verda (1981), Kausalanalyse i samfunnsvitenskap (1987) og Enhet og mangfold (2001, 3. utg. 2013) samt artikler i internasjonale fagtidsskrifter i sosiologi, statsvitenskap og organisasjonsfag. Han har vært medredaktør av Nordic Social Attitudes in a European Perspective (2008), The Future of the Welfare State (2012), The Aftermath of War: Experiences and Social Attitudes in the Western Balkans (2012) og Small States, Big Challenges: Norway and Slovenia in a Comparative Perspective (2016).
L Æ R D E G S TATA Innføring i statistisk dataanalyse
Øyvind Wiborg er førsteamanuensis ved Institutt for sosiologi og samfunnsgeografi ved UiO og forsker II ved Senter for profesjonsstudier ved HiOA. Han har erfaring som foreleser i kvantitativ metode på bachelornivå, og har ansvaret for lektorprogrammet i samfunnsfag ved Det samfunnsvitenskapelige fakultet, UiO. Han forsker på profesjoner, sosial ulikhet i utdanning og arbeidsmarked på tvers og innad i generasjoner. Wiborg har publisert vitenskapelige artikler blant annet i European Sociological Review og Work, Employment and Society.
LĂŚr deg Stata
Kristen Ringdal og Øyvind Wiborg
Lær deg Stata Innføring i statistisk dataanalyse
Copyright © 2017 by Vigmostad & Bjørke AS All Rights Reserved ISBN: 978-82-450-2058-8 Grafisk design: Laboremus AS Omslagsdesign ved forlaget Omslagsillustrasjon: Per Formo, Dobbelmandala (2014), digital arbeidstegning til maleri Spørsmål om publikasjonen kan rettes til: Fagbokforlaget Kanalveien 51 5068 Bergen Tlf.: 55 38 88 00 Faks: 55 38 88 01 E-post: fagbokforlaget@fagbokforlaget.no www.fagbokforlaget.no Materialet er vernet av åndsverkloven. Uten uttrykkelig samtykke er eksemplarfremstilling bare tillatt når det er hjemlet i lov eller etter avtale med Kopinor.
FORORD Lær deg Stata gir en innføring i hvordan programpakken Stata kan benyttes til statistisk dataanalyse. Vi har lagt stor vekt på å vise hvordan ulike typer modeller kan estimeres i Stata, og hvordan resultatene kan tolkes. Kristen Ringdal har skrevet kapitlene 1–9, mens Øyvind Wiborg har skrevet kapittel 10. Boka har tilleggsressurser på nettsiden https://stata.portfolio.no/. Her er filer for nedlasting, hjelp til øvingene og anledning til å sende spørsmål og kommentarer til boka og nettressursene. Stata-filene som brukes i eksemplene, er samlet i to filer som kan lastes ned: data.zip med alle datasettene som benyttes, og do.zip med en do-fil for hvert kapittel. Do-filene inneholder de fleste av kommandoene som benyttes i boka. I tillegg kan alle datafilene åpnes direkte fra Stata med denne kommandoen (som er lagt inn i do-filene): use "https://nedlasting.fagbokforlaget.no/stata/navn.dta", clear
Trondheim/Oslo, juli 2017 Kristen Ringdal
Øyvind Wiborg
INNHOLD
FORORD .......................................................................................................................
5
KAPITTEL 1
BLI KJENT MED STATA ......................................................................................... Hva er Stata? .................................................................................................................... Skrifttyper i boka ............................................................................................................. Varianter av Stata ............................................................................................................. Installering av Stata .......................................................................................................... Vinduene, Verktøylinjen og Menyene ................................................................................ Hjelp og manualer ............................................................................................................. Internett, brukersamfunn.................................................................................................. Trinn i statistiske analyser ................................................................................................ Åpne og beskrive en Stata datafil ..................................................................................... Inspisere variabler ............................................................................................................ Frekvensfordelinger ......................................................................................................... Do-filer og log-filer ........................................................................................................... Kopiere tabeller til Microsoft Word og Excel ...................................................................... Litteratur..........................................................................................................................
13 13 14 14 14 15 16 17 18 19 21 22 27 29 31
KAPITTEL 2
KLARGJØRING AV DATA ...................................................................................... Legge inn data .................................................................................................................. Variabelnavn og verdietiketter .......................................................................................... Slette og beholde variabler ............................................................................................... Omkode og lage nye variabler ........................................................................................... Omkoding av alder med recode ...................................................................................... Generelt om generate og egen ..................................................................................... Bruk av Data-menyen til å lage en ny aldersvariabel .......................................................... Omkoding av klasse med recode .................................................................................... Lage dummy-variabler med tabulate og recode .......................................................... Manglende informasjon (missing values)........................................................................... Klargjøre data fra European Social Survey 2014 ................................................................
33 33 34 37 37 38 40 41 42 44 45 48
8
InnhoLd
Temafil om politikk ........................................................................................................... Klargjøring av bakgrunnsvariabler: kjønn og alder .......................................................... Klargjøring av bakgrunnsvariabler: utdanning ................................................................ Stridsspørsmålsvariablene............................................................................................ Temafil om helse ............................................................................................................... Kroppsmasseindeksen ................................................................................................. Øvinger ............................................................................................................................ Litteratur..........................................................................................................................
48 49 51 54 56 58 60 60
KAPITTEL 3
STATISTISK OG GRAFISK BESKRIVELSE AV ENKELTVARIABLER ...... Målenivåer og beskrivende statistikk ................................................................................ Hvordan beskrive kategorivariabler .................................................................................. Kakediagram .................................................................................................................... Stolpediagram .................................................................................................................. Hvordan beskrive kontinuerlige variabler.......................................................................... Grafisk framstilling, histogram og boksdiagram.............................................................. Statistiske mål for sentraltendens, spredning og posisjon ............................................... Øvinger ............................................................................................................................ Litteratur..........................................................................................................................
61 61 63 65 67 70 70 73 77 77
KAPITTEL 4
KORRELASJON OG TABELLANALYSE FOR KATEGORIVARIABLER ... Korrelasjonsmål for kategorivariabler ............................................................................... Tabellanalyse av holdning til homofile ............................................................................... Øvinger ............................................................................................................................ Litteratur..........................................................................................................................
79 79 86 89 89
KAPITTEL 5
VARIANSANALYSE (ANOVA): FORSKJELLER MELLOM GRUPPER ..... T-testen for uavhengige utvalg ......................................................................................... Effektstørrelse basert på differanser mellom to grupper ................................................. T-testen for parede utvalg ................................................................................................ Enveis variansanalyse ....................................................................................................... Post hoc-tester for gruppeforskjeller............................................................................. Mer om gruppeforskjeller: pwcompare og contrast ........................................... Variansbasert mål på effektstørrelse ............................................................................. Forutsetninger i enveis variansanalyse .......................................................................... Enveis variansanalyse med en (nesten) kontinuerlig variabel .......................................... ANOVA: toveis variansanalyse .......................................................................................... Øving ............................................................................................................................... Litteratur..........................................................................................................................
91 91 94 96 97 99 100 104 105 106 107 111 111
InnhoLd
KAPITTEL 6
REGRESJONSANALYSE ........................................................................................ Korrelasjon mellom kontinuerlige variabler, Pearsons r ...................................................... Enkel (bivariat) regresjonsanalyse .................................................................................... Multippel regresjonsanalyse ............................................................................................. Regresjonsanalyse med dummyvariabler ....................................................................... Gruppevis regresjonsanalyse ........................................................................................ Hvordan sjekke forutsetningene for regresjonsmodellen ................................................... Forutsetningen om linearitet......................................................................................... Forutsetningen om additive sammenhenger .................................................................. Forutsetningene om residualene ................................................................................... Homoskedastisitet ........................................................................................................... Fordelingen av residualene ............................................................................................... Ekstremverdier og innflytelse ........................................................................................... Diagnoseplott .............................................................................................................. Statistiske mål på innflytelse ........................................................................................ Ekstremverdier og innflytelse i en stor fil ....................................................................... Multikollinearitet .............................................................................................................. Diagnose og løsning på problemene .................................................................................. Regresjonsanalysen med en logaritmisk transformasjon av timelønn................................. Øvinger ............................................................................................................................ Litteratur..........................................................................................................................
113 113 115 118 122 124 126 126 134 136 137 138 140 140 142 144 146 148 150 152 152
KAPITTEL 7
SKALA- OG INDEKSKONSTRUKSJON ............................................................. Den klassiske tilnærmingen: faktor- og reliabilitetsanalyse ............................................... Trinn 1: Beskrive indikatorene ....................................................................................... Trinn 2: Eksplorerende faktoranalyse av de 8 symptomene på depresjon ......................... Trinn 3: Reliabilitetsanalyse .......................................................................................... Trinn 4: Konstruksjon av skalaen for depresjon .............................................................. Trinn 5: Vurdering av depresjonsskalaens begrepsvaliditet ............................................. Teste skalaer ved hjelp av strukturligningsmodeller (SEM)................................................ Trinn 1: Teste målemodellen.......................................................................................... Trinn 2: Validering ved hjelp av en strukturmodell .......................................................... Trinn 3: Komparativ validitet og målingsinvarians ........................................................... Veien videre...................................................................................................................... Øvinger ............................................................................................................................ Litteratur..........................................................................................................................
153 154 154 157 164 165 167 168 168 183 184 190 191 191
9
10
InnhoLd
KAPITTEL 8
LOGISTISK REGRESJON OG DEN LINEÆRE SANNSYNLIGHETSMODELLEN ......................................................................... Eksempel 1: Forfremming i arbeidslivet ............................................................................. Den lineære sannsynlighetsmodellen ............................................................................ Modellens problemer ................................................................................................... Den (binære) logistiske regresjonsmodellen .................................................................. Tolkning i logit- og oddsskalaen.................................................................................... Tolkning i sannsynlighetsskalaen .................................................................................. Sammenligning av predikerte sannsynligheter fra de to analyseteknikkene ..................... Eksempel 2: En logistisk regresjonsanalyse av depresjon .................................................. Modellering og testing ................................................................................................. Tolkning av resultatene ................................................................................................ Tilpasningstester (Goodness of fit) ............................................................................... Forutsetninger og diagnostikk ...................................................................................... Residualanalyse og innflytelse ...................................................................................... Subgruppeanalyse ....................................................................................................... Kritikken mot logistisk regresjon benyttet til gruppesammenligninger............................. Øvinger ............................................................................................................................ Litteratur..........................................................................................................................
193 194 195 195 196 197 199 202 203 205 208 208 212 213 218 220 221 221
KAPITTEL 9
FLERNIVÅANALYSE ................................................................................................ Nullmodellen .................................................................................................................... Stokastiske (random) og faste (fixed) effekter .................................................................. Flernivåmodellen med stokastisk regresjonskonstant ....................................................... Flernivåmodellen med stokastisk regresjonskoeffisient .................................................... Analysestrategi ................................................................................................................ Eksempel 1: Flernivåanalyse av timelønn ........................................................................... Trinn 1: Estimere nullmodellen....................................................................................... Trinn 2: Utvikle modellen for nivå 1 ................................................................................ Trinn 3: Utvikle den stokastiske delen av modellen ......................................................... Visualisering av de stokastiske effektene med spagettidiagram ...................................... Trinn 4: Legge til nivå-2-forklaringsvariabler .................................................................. Eksempel 2: Flernivåanalyse av lykke i Europa .................................................................. Trinn 1: Nullmodellen .................................................................................................... Tusenbeindiagrammet ................................................................................................. Trinn 2: Utvikle modellen for nivå 1 ................................................................................ Trinn 3: Utvikle den stokastiske delen av modellen ......................................................... Trinn 4: Legge til nivå-2-forklaringsvariabler .................................................................. Alternativer til flernivåanalyse .......................................................................................... Øvinger ............................................................................................................................ Litteratur..........................................................................................................................
223 224 224 225 226 228 228 230 234 236 238 239 242 245 246 247 248 249 251 252 252
InnhoLd
KAPITTEL 10
MER OM DATABEARBEIDING I STATA ............................................................ Hvordan ser dataene ut? .................................................................................................. Søke etter og beskrive variabler og merkelapper i datasettet .......................................... Undersøke spesialtilfeller nærmere ............................................................................... Dubletter: undersøke, markere og fjerne ........................................................................ Sammenlikne manglende verdier i variabler og datasett ................................................. Bearbeding av variabler – en utdypning ............................................................................ Endre navn på mange variabler samtidig ....................................................................... Kode om flere variabler samtidig .................................................................................. Lage dummyvariabler basert på en eller flere betingelser ............................................... Kode og aggregere egenskaper over rader og kolonner, og innenfor grupper .................. Tekstbaserte data ....................................................................................................... Bearbeiding av data: innlesning, struktur og kobling ........................................................ Lese fra og skrive til andre dataformater ...................................................................... Omstrukturering av datasett ........................................................................................ Koble sammen datasett ............................................................................................... Enkle grep for å effektivisere do-filer ............................................................................... Åpne og kjøre do-filer fra andre do-filer......................................................................... Makrovariabler ............................................................................................................ Loops: foreach og forval ........................................................................................ Enkle programmer .......................................................................................................
253 253 254 255 256 258 259 259 260 262 266 272 275 275 277 282 287 287 287 289 291
11
KAPITTEL 1
BLI KJENT MED STATA
HVA ER STATA? Stata er en avansert og fleksibel programpakke for statistisk analyse av kvantitative data. De to store konkurrentene på området er SPSS og SAS, som begge har røtter tilbake til begynnelsen av 1970-årene da all databehandling foregikk på stormaskiner. SPSS er lettest å lære for nybegynnere, og har vært markedsleder i Norge. SAS har sin styrke i et fleksibelt programmeringsspråk og benyttes i dag av blant andre Statistisk sentralbyrå. En annen grunn til disse programpakkenes popularitet er at de gjør det mulig å behandle store datamengder med beskjedne krav til internminne i datamaskinen. I de senere årene har Stata fått økende popularitet av flere grunner. Nyvinninger i statistisk analyse blir gjerne tidlig tilgjengelig i Stata. En viktig fordel med Stata er det store tilfanget av hjelp fra andre brukeres erfaringer som er tilgjengelig på Internett. En økende mengde instruksjonsvideoer finnes på YouTube. For avanserte brukere er det gode muligheter til å integrere selvskrevne programmer. For de fleste er utviklingen av menyer for databehandling og statistisk analyse vel så viktig. Dette gjør det lettere for nybegynnere å komme i gang. Stata ble utviklet i California av et lite datafirma som så framtiden i statistiske analyser ved hjelp av personlige datamaskiner (PC). Versjon 1.0 for PC, som ble lansert i januar 1985, var i praksis bare et lite program for regresjonsanalyse (Cox 2005). I 1993 flyttet firmaet til College Station i Texas og ble Stata Corporation. Stata gjorde det tidlig mulig for brukere å lage sine egne programmer, og Stata User Group ble etablert i 1995. Brukerprogrammer kunne etter hvert publiseres i Stata Technical Bulletin og senere i Stata Journal. I 1996 ble nettstedet stata.com etablert. Etter hvert ble det mulig å laste ned oppdateringer og datasett fra dette nettstedet. I 1997 ble det laget et elektronisk arkiv av Stata-programmer som ble innsendt i e-post. Dette ble populært, spesielt etter at Stata fikk en ssc install kommando for å installere slike programmer. Brukergrensesnittet har utviklet seg gradvis fra å være rent kommandobasert til bruk av menyer og dialogbokser. Likevel er kjernen i Stata fortsatt et fleksibelt
14
KAPITTEL 1
kommandospråk som gjør avansert bruk av statistiske teknikker mulig. Kommandoene kan skrives inn, men analyser kan også gjøres ved hjelp av menyer som genererer kommandoer som utføres.
SKRIFTTYPER I BOKA Ulike skrifttyper benyttes systematisk for å gjøre teksten lettlest. Denne skrifttypen benyttes oftest, mens skrifttypen Courier benyttes for Stata-kommandoer og i alle utskrifter fra Stata. Variabel- og filnavn skrives også i Courier. For instruksjoner om hvordan analyser kan gjennomføres fra menyene, samt nødvendige trykk på tastaturet, benyttes rød tekst, mens i navn på vinduer og dialogbokser er den vanlige skrifttypen benyttet, men med stor forbokstav. Merk også at det både i kommandoer og variabelnavn skilles mellom store og små bokstaver; variabelen var1 er forskjellig fra Var1. En god hovedregel er derfor alltid å bruke små bokstaver både i kommandoer og i variabelnavn.
VARIANTER AV STATA Alle variantene av Stata benytter de samme kommandoene. Forskjellene går på bruk av flere prosessorer og øvre grenser for antall variabler og antall enheter. Den kraftigste varianten er Stata/MP, som krever en PC med flerkjerneprosessor og som kommer best til sin rett på en kraftig arbeidsstasjon. Stata kan også gjøres tilgjengelig fra en server over nettverk gjennom «remote desktop»-funksjonen i brukerens PC. De to mest vanlige versjonene for PC er Stata/SE for store datasett og Stata/IC for middels store datasett. Stata/IC dekker behovene til de fleste brukere. I tillegg finnes en liten studentversjon av Stata som bare kan behandle 99 variabler og inntil 1200 enheter. Denne varianten kan lastes ned gratis.
INSTALLERING AV STATA Programmet kommer vanligvis på en CD. Det trengs i tillegg en lisens- og aktiveringsnøkkel som kommer sammen med programmet. Det går fram av denne nøkkelen hvilken variant av Stata som den kan aktivere. Hvis installasjonsprogrammet ikke starter av seg selv, dobbeltklikk på filen Setup.exe, som finnes på CD-en, for å starte installeringen. Når du kommer til Select Executable, velges den variant av Stata du har lisens for. Den første gangen Stata startes, vil det spørres etter lisens- og aktiveringsnøkkelen. Hvis denne godtas, får du spørsmål om du vil undersøke om det finnes oppdateringer av Stata. Besvar dette ved å klikke OK, og følg instruksjo-
BLI KjEnT mEd STATA
15
nene på skjermen. Stata oppdateres hyppig, og det kan være greit å la automatisk sjekk for oppdateringer fortsatt være aktivert. Dermed er du klar til å bruke Stata.
VINDUENE, VERKTØYLINJEN OG MENYENE Skjermbildet som møter deg når programmet har startet, domineres av fem vinduer. Over vinduene finnes Verktøylinjen og Menyene. Det største vinduet er Resultatvinduet der alle resultater vises sammen med kommandoene som ble utført. I alle kapitlene vil utskrifter av resultater gjengis med samme skrifttype som i Resultatvinduet. Til venstre finnes Review-vinduet med en liste over utførte kommandoer etter at Stata er startet opp. Under Resultatvinduet er Kommandovinduet (Command) der kommandoer skrives inn. Øverst til høyre er Variabelvinduet som viser variablene i filen. Under dette er Egenskapsvinduet (Properties) som viser egenskaper til den variabel som er valgt i Variabelvinduet. Det finnes også en rekke andre vinduer som vi skal se etter hvert. En oversikt over alle typer vinduer finnes i Windows-menyen. Ved hjelp av denne kan vi også åpne et bestemt vindu. Ikonene i Verktøylinjen er kortkommandoer for flere av mulighetene i Menyene. Filer kan åpnes og lagres ved hjelp av de to første verktøyikonene, eller gjennom Filmenyen: File -> Open og File -> Save. Vi skal bli bedre kjent med mulighetene i Verktøylinjene og Menyene etter hvert. Figur 1.1 Hovedskjermbildet i Stata
16
KAPITTEL 1
Velge skrifttype og størrelse i vinduene Et høyreklikk i et vindu åpner en meny der font er et av valgene. I påfølgende dialogboks kan skrifttype og skriftstørrelse endres.
HJELP OG MANUALER Hjelp-menyen gir flere valg som er gjengitt i tabell 1.1 sammen med forklaringer på hva du får. Det første valget åpner et pdf-dokument (i.pdf) som gir tilgang til alle manualene, som tidligere ble trykt som en bokserie. Det er to typer innganger til manualene: I venstre mang kan du velge en av dem, for eksempel Getting Started. Eller du kan velge fra Combined subject table of contents. Tabell 1.1 Hjelpmenyen – valgmuligheter og forklaring
Valgmuligheter
Forklaring
PDF documentation Advice Search Stata command News Resources SJ and user-written programs What’s new? Check for updates
De fullstendige Stata-manualene i pdf-format Råd om å finne hjelp Søke etter nøkkelord Søke etter hjelp om en Stata-kommando Siste nyheter fra Stata.com Ressurser for å lære om Stata Om installering og bruk av programmer skrevet av brukere Oppdateringer siden siste offisielle Stata-versjon Sjekker om det finnes oppdateringer for din installering
About Stata
Informasjon om versjon og lisens
Noen av valgene i Hjelp-menyen åpner et Viewer-vindu slik som «Help contents» i figur 1.2. Denne type vindu har en forenklet menylinje samt valg av tema hvor du kan få hjelp og forklaringer. Kommandovinduet kan også benyttes til å få hjelp. Prøv help help og help contents. Den siste kommandoen gir vinduet i figur 1.2. En kan også søke etter hjelp om nøkkelord eller Stata-kommandoer, slik som help describe, som gir en forklaring på hva kommandoen gjør, og gir eksempler på hvordan den kan brukes.
BLI KjEnT mEd STATA
17
Figur 1.2 Help contents
INTERNETT, BRUKERSAMFUNN En av fordelene med Stata er de gode mulighetene til å finne hjelp ved å søke på Internett. Hvis du for eksempel vil vite hvordan en bytter arbeidsmappe i Stata, gir følgende google-søk, «how to change working directory in Stata», flere svar. Hvis du vil stille spørsmål til andre brukere eller følge med på hva som opptar brukere, er Stata User Forum stedet (http://www.statalist.org/). Programmer skrevet av brukere er også nyttige og gjør Stata mer fleksibelt. Velger vi SJ and user-written programs fra Hjelp-menyen, får vi vinduet i figur 1.3 med en oversikt over hvor vi finner denne typen programmer. Slike programmer eller moduler installeres slik: ssc install modulnavn
18
KAPITTEL 1
Figur 1.3 Programmer utviklet av brukersamfunnet
TRINN I STATISTISKE ANALYSER Det første trinnet er å gjøre data klar til analyse. Det er problemstillingen som er styrende for hvilke data som skal benyttes. Noen ganger er det nødvendig å samle inn egne data, men ofte er relevante data allerede tilgjengelig, for eksempel fra European Social Survey (ESS). I denne boka benyttes foreliggende data i nesten alle eksemplene. Klargjøringen starter med å åpne og beskrive datafilen. Det er viktig å få en oversikt og finne de variablene som er aktuelle for å belyse problemstillingen. Resten av dette kapitlet omhandler hvordan vi åpner og beskriver en datafil og ser på frekvensfordelinger for kategorivariabler. I neste kapittel går vi først et trinn tilbake og ser på hvordan egne data kan registreres i en datafil, og hvordan variabler og variabelverdier gis navn og etiketter. Størsteparten av kapittel 2 handler likevel om hvordan variabler omkodes, og hvordan en kan lage nye variabler på basis av variabler i en datafil. Det tredje kapitlet går nøyere gjennom hvordan enkeltvariabler kan beskrives ved hjelp av statistikk og grafisk framstilling. Her gis det også en første innføring i problemet med manglende informasjon («missing data»). Deretter følger kapitler som tar for seg analyser av både kategorivariabler og kontinuerlige variabler, samt et kapittel om hvordan en konstruerer sammensatte mål, skalaer og indekser i Stata. Boka avsluttes med et kapittel om mer avansert databearbeiding og programmering.
BLI KjEnT mEd STATA
ÅPNE OG BESKRIVE EN STATA DATAFIL Først litt om språkbruk. Et Stata-datasett omtales her oftest som en (Stata) datafil og er lagret i et format som bare kan leses av Stata. Stata kan heller ikke lese datafiler fra SPSS eller SAS, men Stata kan lese Excel-filer. Det er flere måter å åpne en Stata-datafil på. Det følger med flere datasett når Stata installeres. En oversikt over disse datasettene finnes i Filmenyen, File -> Example datasets … . Et av dem, auto, benyttes hyppig som eksempel i manualene. Den enkleste måten å åpne filen på er med kommandoen: sysuse auto. En første øving kan være å åpne denne datafilen og se på hva den inneholder, men vi skal ikke gå videre med dette datasettet her. I resten av kapitlet skal vi benytte filen abu89. Denne filen er laget på grunnlag av Arbeidstaker- og bedriftsundersøkelsen 1989 (Torp & Skollerud 1990). Det er to enkle måter å åpne en datafil på. Den første er å dobbeltklikke på filen i utforskeren. Hvis Stata allerede er åpnet, kan en bruke Filmenyen: File -> Open, eller – enklere – bruke det første ikonet på Verktøylinjen. Dette åpner mappen som sist ble benyttet for å åpne eller lagre filer. Anta at filen finnes i mappen c:\data\Statabok på PC-en. Vi må lete oss fram til denne, velge filen abu89 og trykk på Open. I Resultatvinduet ser vi at kommandoen for å åpne filer er use, men merk at stien til filen må være med for at Stata skal finne filen hvis den ikke er i arbeidsmappen (working directory). For å gjøre det lettere å holde styr på filene du arbeider med, er det fornuftig å velge mappen du benytter til et prosjekt, som arbeidsmappe. Den som automatisk blir definert når programmet starter, er synlig nederst i venstre hjørne i hovedskjermen. Hvis alle relevante filer for denne boka ligger i mappen c:\data\Statabok, er det best å gjøre denne til arbeidsmappe. Velg File -> Change working directory (se mer i tekstboksen). Nederst til venstre i hovedskjermen får vi nå bekreftet at arbeidsmappen er endret. Nå er det tilstrekkelig med kommandoen use abu89 for å åpne filen. Endre arbeidsmappe (working directory) Midlertidig endring av arbeidsmappe, eksempler: cd c:\data\Statabok cd c:\Users\brukernavn\Dropbox\Data
Permanent endring av arbeidsmappe: Lage en do-fil med navnet profile.do med en kommando som endrer arbeidsmappe, for eksempel: cd c:\Users\brukernavn\Dropbox\Data
Kopier profile.do til systemmappen der Stata er lagret. Dette kan være i c:\Program Files (x86)\Stata14\. Hver gang Stata åpnes, vil profile.do utføres.
19
20
KAPITTEL 1
Åpne datafiler i Stata • Finn filen med utforskeren, gjør et dobbeltklikk, og Stata åpnes med filen. Merk at hvis Stata allerede er åpnet, åpnes filen i en ny versjon av Stata. • Hvis Stata er åpnet, bruk Filmenyen til å finne og åpne datafilen. • En oversikt over alle datafiler som følger med installasjonen av Stata, finnes fra Filmenyen: File -> Example data sets, eller ved bruk av kommandoen: sysuse dir. De kan åpnes fra Filmenyen eller med kommandoen sysuse filnavn, for eksempel: sysuse auto. • Den generelle kommandoen for å åpne datafiler er: use filnavn. Dette virker bare hvis filen er i arbeidsmappen. Ellers kreves en fullstendig sti. • Det er også mulig å åpne utdrag fra en fil med en hvis-betingelse, for eksempel med bare kvinner. • Datafiler kan også åpnes direkte fra en nettadresse. Alle datafiler som benyttes i denne boka kan åpnes direkte fra Stata på denne måten: use "https://nedlasting.fagbokforlaget.no/stata/abu89.dta", clear
• Merk at selv om datafiler i Stata har “dta” som etternavn, trenger vi normalt ikke tenke på det siden kommandoen use bare benyttes for datafiler.
I noen tilfeller er referanser, kildeangivelse eller liknende lagret i datafilen. Kommandoen notes viser denne type informasjon i Utskriftsvinduet. Forsøk dette og se resultatet. Legge noter til en datafil Det er to typer noter: de som refererer til datafilen, og de som refererer til en variabel i filen. Her er et eksempel på den første typen: note: Data fra Arbeids- og bedriftsundersøkelsen /// 1989. Statistisk Sentralbyrå
Noter kan fjernes slik: notes drop _dta notes drop _dta 1
/* alle noter fjernes */ /* note 1 fjernes
Når datafilen er åpnet, er det nyttig å se på hvordan den kan beskrives. La oss bruke Data-menyen til å beskrive datafilen: Data -> Describe data -> Describe data in memory or in a file Resultatvinduet er gjengitt nedenfor. Øverst ser vi kommandoen som ble utført: describe. Deretter følger en oversikt over antall enheter, antall variabler og filstørrelsen. Dette tilsvarer det en får med kommandoen describe, short. Så følger
BLI KjEnT mEd STATA
en linje for hver variabel, men uten statistisk beskrivelse av variablene. Egentlig er denne informasjon allerede tilgjengelig i Variabel- og Egenskap-vinduene. . describe Contains data from C:\Users\kristenr\Dropbox\Statabok\Data\abu89.dta obs: 4,127 vars: 9 3 Sep 2016 16:25 size: 297,144 (_dta has notes)
variable name io_nr time89 ed age female klasse89 promot fexp private
storage type
display format
double double double double double double double double double
%10.0g %10.0g %10.0g %10.0g %10.0g %28.0g %11.0g %10.0g %10.0g
value label
Kjønn klasse89 promot private
variable label IO-nummer Gjennomsnittlig timelønn 1989 År utdanning Alder Respondentens kjønn Goldthorpe klasse 1989 Noen gang forfremmet Bedriftserfaring Privat sektor
INSPISERE VARIABLER En annen måte å få ut informasjon om variabler er å bruke kommandoen inspect. Kommandoen kan skrives i Kommandovinduet, eller vi kan gå via Data-menyen: Data -> Describe data -> Inspect variables. Dette åpner Inspect-dialogboksen med valg av variabler. La oss velge female. Hvis vi trykker på OK eller Submit uten å velge variabler, utføres kommandoen for alle variabler i filen. I utskriften nedenfor ser vi først kommandoen inspect female, under denne er et enkelt histogram med en søyle for hvert kjønn. Til høyre er blant annet totalt antall enheter vi har informasjon om, og antall med manglende informasjon (Missing). Det siste kommer vi tilbake til i neste kapittel. . inspect female female:
# # # # # # 0
Respondentens kjønn
# # # # #
(2 unique values)
1
Number of Observations
Negative Zero Positive
Total 2,193 1,934
Integers 2,193 1,934
Nonintegers -
Total Missing
4,127 -
4,127
-
4,127
21
22
KAPITTEL 1
En liknende kommando er codebook. Denne gir en oversikt med beskrivende statistikk for en eller flere variabler i datafilen. Kommandoen kan skrives i Kommandovinduet eller utføres gjennom Menyene: Data -> Describe data -> Describe data contents (codebook). Utskriften viser resultatet for variabelen female. . codebook female
female
Respondentens kjønn
type: label:
numeric (double) Kjønn, but label does not exist
range: unique values:
[0,1] 2
tabulation:
Freq. 2,193 1,934
units: missing .:
1 0/4,127
Value 0 1
FREKVENSFORDELINGER Det neste trinnet er normalt å bli kjent med datafilen ved hjelp av ulike former for beskrivende statistikk. Dette blir gjort mer detaljert i kapittel 3, men har skal vi gi en smakebit. Filen inneholder noen kontinuerlige variabler: time89, age og noen som klart er kategori-variabler: female og klasse89, mens ed (utdanning) er delvis kontinuerlig. La oss se nærmere på kjønn og klasse. I Kommandovinduet kan vi skrive: tabulate female. Eller vi kan benytte Statistikk-menyen: Statistics -> Summaries, tables, and tests -> Frequency tables -> One-way table, fra dialogboksen som åpner seg, velger vi variabelen female og trykker OK. Fordelen med denne framgangsmåten er at vi ikke trenger å vite kommandoen på forhånd. Utskriften nedenfor viser først kommandoen som ble utført, og frekvensfordelingen for kjønn. . tabulate female Respondente ns kjønn
Freq.
Percent
Cum.
0 1
2,193 1,934
53.14 46.86
53.14 100.00
Total
4,127
100.00
BLI KjEnT mEd STATA
23
Merk at kjønn har verdiene 0 og 1. Siden variabelen har navnet female, er det rimelig å anta at verdien 1 betyr kvinne, og dette er riktig. La oss se nærmere på denne variabelen ved å velge female i Variabel-vinduet. Dette innebærer at variabelen også er valgt i Egenskaps-vinduet. Merk at linjen for verdietiketter (Value label) er tom. Det vil si at verdiene 0 og 1 er tallkodene for respondentenes kjønn, mens verdietikettene ikke er definert. La oss gjøre det. Først må vi åpne hengelåsen under Properties. Velg deretter Value label, bruk knappen med prikker til å åpne «Manage value labels»dialogboksen. Her velger vi Create label og fyller inn tallkoden 0 i Value-feltet og Mann i Label-feltet. Klikk på Add og gjenta for verdien 1, Kvinne. Det er mest praktisk å la etikettnavnet være lik variabelnavnet. Skriv derfor «female» som etikettnavn (Label name) og trykk OK. Figur 1.4 viser hvordan den korrekt utfylte boksen ser ut. Figur 1.4 «Create label»dialogboksen
Value-label-feltet for female er fortsatt er tomt. Variabelen må først tilordnes etikettnavnet. Dette gjør vi ved å trykke på den første knappen i «Value label»-feltet og velge «kjønn». Til slutt bør en låse hengelåsen slik at informasjonen ikke endres ved et uhell. I Review-vinduet finner vi kommandoen som definerte og tilordnet verdietikettene: label define female 0 ˮMannˮ 1 ˮKvinneˮ label values female
24
KAPITTEL 1
Hvis vi skal legge til variabel- og verdietiketter for mange variabler, lønner det seg å utføre kommandoene fra en do-fil. Denne arbeidsmåten vil også dokumentere hva vi har gjort. La oss lage frekvensfordelingen for kjønn på nytt og se forskjellen ved å skrive kommandoen: tabulate female
Tabellen har nå «mann» og «kvinne» som etikettnavn, men tallkodene dette er lagret i, vises ikke. Oftest er vi interessert i å se begge deler. Tekstboksen viser hvordan dette gjøres. Legge tallkoder til variablenes verdietiketter Denne kommandoen legger til tallkoder for alle variabler med verdietiketter, og den påfølgende kommandoen brukes til å fjerne tallkodene hvis det er ønskelig. numlabel, add numlabel, remove
Menyvalg: Data -> Data utilities -> Label utilities -> Prepend values to value labels En kan også legge til eller fjerne tallkodene for navngitte variabler: numlabel female, add numlabel female, remove
Etter å ha lagt tallkodene til verdietikettene må vi lage frekvensfordelingen en gang til for å se forskjellen. Velg Kommandovinduet og trykk to ganger på Page-Up for å få tilbake kommandoen som lager frekvensfordelingen for kjønn. Bruk av Page-Up for å tilbake utførte kommandoer er meget nyttig. Nedenfor vises frekvensfordelingen med verdietiketter som starter med tallkodene. . numlabel female, add . tabulate female Respondente ns kjønn
Freq.
Percent
Cum.
0. Mann 1. Kvinne
2,193 1,934
53.14 46.86
53.14 100.00
Total
4,127
100.00
BLI KjEnT mEd STATA
25
La oss se på klassevariabelen, klasse89. Lag en frekvensfordeling enten med bruk av Statistikk-menyen eller ved bruk av kommandoen tabulate. Vi ser at verdiene allerede har etiketter som starter med tallkodene. . tabulate klasse89 Goldthorpe klasse 1989
Freq.
Percent
Cum.
1. I Øvre serviceklasse 2. II Nedre serviceklasse 3. III Rutinefunksjonærer 4. V-VI Faglærte arbeidere 5. VIIa Ufaglærte arbeidere
328 1,181 1,248 648 637
8.11 29.22 30.88 16.03 15.76
8.11 37.33 68.21 84.24 100.00
Total
4,042
100.00
La oss gå et skritt videre og lage en krysstabell, klasse etter kjønn, ved å bruke Statistikk-menyen: Statistics -> Summaries, tables, and tests -> Frequency tables -> Two-way table with measures of association. Dette åpner boksen gjengitt i figur 1.5. Figur 1.5 Tabulate2dialogboksen
Her er klasse89 valgt som rekkevariabel og female som kolonnevariabel. Bak dette valget ligger tanken om at klasse89 er avhengig variabel og at female er uavhengig variabel. Da er det naturlig å velge kolonneprosenter og krysse av for Withincolumn relative frequencies. Vi kan også velge et korrelasjonsmål og har krysset av for Cramér’s V og for Pearson’s chi-squared for å få med kjikvadrattesten for å se om kjønnsforskjellene er statistisk signifikante. Nå er vi klare til å trykke på OK. Resultatet ser du nedenfor.
Boka starter med å gjøre leseren kjent med hovedskjermbildet, vinduene, verktøylinjen og menyene. Man får raskt et inntrykk av hvordan Stata kan brukes til enkle analyser. Etter kapitler om klargjøring av data og beskrivende statistikk følger kapitler som tar for seg de vanligste statistiske analyseteknikkene: varians- og regresjonsanalyse, faktoranalyse og strukturlikningsmodeller, flernivåanalyse og logistisk regresjon. Boka avsluttes med et kapittel om mer avansert databearbeiding og programmering. Lær deg Stata er en selvstendig utgivelse. De som allerede bruker Kristen Ringdals Enhet og mangfold, 3. utgave, vil oppleve at de to bøkene fungerer godt sammen: I Lær deg Stata vises det hvordan dataanalysene i Enhet og mangfold kan gjennomføres i Stata.
ISBN 978-82-450-2058-8
,!7II2E5-acafii!
RINGDAL OG WIBORG L ÆR DEG STATA
Statistikkprogrammet Stata blir stadig mer populært. Lær deg Stata er en lett tilgjengelig og grundig innføring i programpakken. Boka er skrevet for studenter i sosiologi, statsvitenskap og andre samfunnsfag, samt pedagogikk, psykologi og helsefag. Den passer også for alle andre som skal bruke Stata til statistisk dataanalyse.
Kristen Ringdal og Øy vind Wiborg Kristen Ringdal er professor ved Institutt for sosiologi og statsvitenskap ved NTNU og har lang erfaring som foreleser i samfunnsvitenskapelig metode. Han har tidligere publisert bøkene Folkemeininga og den tredje verda (1981), Kausalanalyse i samfunnsvitenskap (1987) og Enhet og mangfold (2001, 3. utg. 2013) samt artikler i internasjonale fagtidsskrifter i sosiologi, statsvitenskap og organisasjonsfag. Han har vært medredaktør av Nordic Social Attitudes in a European Perspective (2008), The Future of the Welfare State (2012), The Aftermath of War: Experiences and Social Attitudes in the Western Balkans (2012) og Small States, Big Challenges: Norway and Slovenia in a Comparative Perspective (2016).
L Æ R D E G S TATA Innføring i statistisk dataanalyse
Øyvind Wiborg er førsteamanuensis ved Institutt for sosiologi og samfunnsgeografi ved UiO og forsker II ved Senter for profesjonsstudier ved HiOA. Han har erfaring som foreleser i kvantitativ metode på bachelornivå, og har ansvaret for lektorprogrammet i samfunnsfag ved Det samfunnsvitenskapelige fakultet, UiO. Han forsker på profesjoner, sosial ulikhet i utdanning og arbeidsmarked på tvers og innad i generasjoner. Wiborg har publisert vitenskapelige artikler blant annet i European Sociological Review og Work, Employment and Society.