Regresjonsanalyse av Christer Thrane: Utdrag

Page 1


KAPITTEL 1

Innledning

1.1 Et lite eksempel: Boligareal og salgspris Ta en kikk på Figur 1.1. Hver av prikkene representerer en solgt enebolig i en norsk småby i 2015. På den vannrette aksen – x-aksen – har vi boligens størrelse i kvadratmeter (m2), på den horisontale aksen – y-aksen – har vi boligens salgspris i millioner kroner. Salgspris i millioner kroner 8

6

4

2

0 50

100

150 Boligareal i kvadratmeter

200

250

FIGUR 1.1 Salgspris på eneboliger etter bolig­areal.

Hva forteller figuren? Jo, at skyen av prikker har en bestemt form, og at det er flest eneboliger oppe i det høyre hjørnet og ned mot det venstre. Mer presist: De fleste eneboliger over 150 m2 koster over 4 millioner kroner; de fleste eneboliger under 150 m2 koster under 4 millioner kroner. Enda enklere og mer generelt kan vi si at jo større en enebolig er, desto dyrere ser den ut til å være – selv om det er noen unntak. Figur 1.1 viser en statistisk sammenheng. Vi ser hvordan arealet henger sammen – eller samvarierer – med salgsprisen. Tendensen er en positiv sammenheng: Desto mer av det ene (desto større enebolig), jo mer av det andre


14

R e g r e s j o n s a n a ly s e

( jo høyere salgspris). Ta en kikk på Figur 1.2. Det nye i denne, sammenlignet med Figur 1.1, er den heltrukne linja som går fra venstre og oppover mot høyre. I første omgang trenger du kun å vite at den representerer en slags gjennomsnitts- eller trendlinje gjennom skyen av prikker. Linja har en praktisk funksjon: Start et hvilket som helst sted på x-aksen, for eksempel på 150 m2. Beveg deg rett oppover til du treffer linja, og så vannrett mot v­ enstre. Punktet du da skjærer y-aksen i, er snittsprisen for en enebolig på 150 m2 – litt over 4 millioner kroner. Ønsker du å finne snittprisen for en bolig av en annen størrelse, starter du med å bestemme deg for antall kvadratmeter og gjentar prosedyren. Generelt kan vi si at linja oppsummerer den typiske trenden – eller den statistiske sammenhengen – i dataene: Desto større bolig­ areal, jo høyere salgspris. Salgspris i millioner kroner 8

6

4

2

0 50

100

150

200

250

Boligareal i kvadratmeter Bolig

Fitted values

FIGUR 1.2 Salgspris på eneboliger etter bolig­areal, med trendlinje.

Ingenting i Figur 1.1 eller 1.2 eller i kommentarene til disse er overraskende eller vanskelige å forstå. Det er heller ikke meningen. Tvert om, eksempelet er valgt for å illustrere noe alle kjenner til: at store eneboliger jevnt over koster mer enn små. Men det er også andre grunner til at dette eksempelet innleder boken. Mer om det i neste kapittel.

1.2 Hva boken handler om, og hvorfor den er skrevet Denne boken gir deg en bred og meget praktisk innføring i den statistiske analysemetoden som kalles regresjonsanalyse eller regresjon. Med «bred» menes det at du skal presenteres for en rekke ulike aspekter ved regresjon –


k a p itt e l 1 : i n n l e d n i n g

noe du kommer til å trenge. Med «praktisk» menes det at boken ikke bare skal fortelle deg hvordan regresjon fungerer; den skal også gjøre deg i stand til å utføre, tolke og presentere regresjonsanalyser i egne prosjekter. Boken har med andre ord en gjøre-dimensjon utover det som går på å forstå. I sum er dette en ambisiøs pedagogisk målsetting. Regresjonsanalyse er arbeidshesten innen statistisk analyse i samfunnsfagene. I disse fagene inkluderer jeg også samfunns- og bedriftsøkonomisk forsk­n ing, markedsføring og samfunnsmedisin (epidemiologi). Dette er forsk­ning som studerer hvordan ulike forhold henger sammen, samvarierer eller korrelerer – som i eksempelet bolig­areal og salgspris i kapittel 1.1. Siden regresjon er mye brukt, er det skrevet mange lærebøker om emnet. Et vesentlig spørsmål blir da: Hvorfor enda en bok? Eller: Hva skiller denne boken fra tidligere lærebøker? Et første svar er at denne boken er skrevet på norsk, mens det store flertallet av slike bøker selvsagt er skrevet på engelsk. Et andre svar er at nesten alle bøker om regresjon gjør dette emnet vanskeligere enn det trenger å være! Dermed faller for mange av lasset for fort, og spesielt personer med lite kunnskap i statistikk og/eller matematikk. Denne boken er derfor mindre matematisk, teknisk og symboltung enn normalen, noe du kan lese mer om i kapittel 1.4. Et tredje svar er at eksemplene i mange bøker er rettet mot studenter fra et spesifikt fag, noe som gjør dem lite anvendelige for studenter med litt annen fagbakgrunn. Dette er helt unødvendig. Eksempelet i starten er derfor valgt av to grunner: (1) Alle kjenner seg igjen i boligmarkedet, helt uavhengig av personlige interesser og fagbakgrunn. (2) Som vi skal se, er eksempelet gunstig å bygge videre på pedagogisk når man skal forklare og illustrere regresjon i praksis. Et fjerde svar er at mange lærebøker i regresjon gjør en ok jobb med å forklare hvordan metoden fungerer. Men like mange svikter ved praksisbiten av analysen. For det første er bøkene lite koplet til statistisk programvare og ferdighetene som trengs for å kunne utføre egne regresjoner. (Man lærer heller ikke regresjon ved kun å lese om andres analyser!) For det andre mangler bøkene ofte praktiske råd og tips for å løse utfordringene man kommer opp i når man skal gjennomføre egne regresjoner. Og der det gis råd, er disse gjerne generelle eller bare en oppramsing av hva som kan gå galt. Oppsummert er de fleste lærebøker til nokså liten hjelp når du sitter ved PC-en og skal utføre og vurdere resultatene fra regresjoner du har utført. Et femte svar går på tolkning og presentasjon av resultater fra regresjon. Dette har i mine øyne blitt for lite vektlagt i lærebøkene. Konsekvensen er at formidlingen av funn i rapporter, bachelor- og masteroppgaver – og selv i vitenskapelige artikler – ofte blir mer omtrentlig enn den trenger å være. Og i noen tilfeller kan den sikkert sies å være upresis eller misvisende. Et sjette svar er at regresjon som regel inngår som én av flere metoder i lærebøker, med den konsekvens at «alt» skal få plass på tretti sider. Dermed

15


16

R e g r e s j o n s a n a ly s e

blir fremstillingen så fortettet at faren for information overload er overhengende. Disse svarene peker alle mot behovet for en norskspråklig, lettfattelig og praksisnær lærebok i regresjonsanalyse, og dette oppsummerer den pedagogiske ambisjonen for denne boken.

1.3 Noen begreper og litt om statistisk programvare Regresjon er en statistisk metode som brukes for å studere hvordan ulike forhold henger sammen, samvarierer eller korrelerer – noe som går ut på ett. Men i statistisk forskning bruker vi ikke begrepet «forhold» eller «fenomen»; vi snakker om variabler. Bolig­areal er en variabel (boliger varierer i størrelse) – på samme måte som salgspris er en variabel (boliger varierer i pris). Åpenbar huskeregel: En variabel er noe som varierer! Men når vi driver med regresjon, er det også viktig å skille mellom såkalt uavhengig og avhengig variabel. Den uavhengige er den vi tenker skaper statistisk variasjon i den avhengige. I vårt eksempel blir derfor bolig­areal den uavhengige variabelen og salgspris den avhengige variabelen. Det er ikke uvanlig å fremstille dette med bokser og piler, som i Figur 1.3. Uavhengig variabel

Avhengig variabel

Boligareal

Salgspris

FIGUR 1.3 Uavhengig og avhengig variabel. Pilene angir retningen på statistisk

påvirkning.

Pilene i Figur 1.3 går veien vi tror den statistiske påvirkningen går. Uavhengig variabel skaper statistisk variasjon i den avhengige variabelen; variasjon i bolig­areal skaper statistisk variasjon i salgspris på eneboliger – og ikke motsatt. Det er språklig tungt å tale om uavhengige og avhengige variabler. For å omgå dette, bruker vi ofte bokstaven x for uavhengig variabel og y for avhengig variabel. Vi tenker med andre ord at statistisk variasjon i x skaper statistisk variasjon i y. Her kan det som en huskeregel være ok å tenke på x som årsak og y som virkning, men det må vi være forsiktige med når det gjelder tolkning og presentasjon av resultater – derav hermetegnene i Figur 1.4. (Mer om dette i kapittel 2.3 og 7.2.) Andre navn på avhengig variabel du vil støte på i bøker, er dependent variable, outcome variable, response variable, criterion variable og regressand; andre navn på uavhengig variabel er independent variable, explanatory variable, predictor variable, treatment variable, covariate og regressor.


k a p itt e l 1 : i n n l e d n i n g

x

y

«Årsak»

«Virkning»

FIGUR 1.4 Andre måter å omtale uavhengig og avhengig variabel på. Pilene angir

retningen på statistisk påvirkning.

Nok et viktig begrep ved regresjon er observasjoner eller enheter eller observasjonsenheter. I vårt eksempel er observasjonene eller enhetene eneboliger. I andre tilfeller kan de være bedrifter, kommuner eller land – eller produkter, tjenester eller aksjer. I samfunnsfagene vil de, rimelig nok, ofte være personer. Ellers vil du støte på den talemåten at observasjonene er «de man har data om». Mer korrekt er å si at observasjonene er de man har variabelinformasjon om. Er de personer som for eksempel har svart på et spørreskjema, kalles de respondenter. Regresjon er en metode for å finne ut om og hvordan en uavhengig variabel, x, i statistisk forstand samvarierer med en avhengig variabel, y, for et bestemt sett observasjoner. I kapittel 3 og utover skal vi se at vi også kan ha flere uavhengige variabler, x-er, i analysen. Kun fantasien setter grenser for hva som kan være x, y og observasjoner i en analyse. Ofte faller dette sammen med disiplinfaglige grenser. Noen eksempler har vi i Tablå 1.1: TABLÅ 1.1 Eksempler på problemstillinger der regresjonsanalyse kan benyttes:

– En markedsfører kan lure på om mengden reklame på TV for et bestemt produkt (x) samvarierer med merkekjennskapen for dette produktet ( y) blant 500 norske menn i alderen 40–50 år. – En økonom kan undersøke hvordan innovasjonsaktivitet (x) samvarierer med lønnsomheten ( y) for 200 bedrifter. – En samfunnsmedisiner kan være interessert i å finne ut hvordan variasjon i treningsmengde (x) slår ut på folks vurdering av egen helsetilstand ( y) for 400 nors­ke kvinner i 40-årene. – En statsviter kan lure på om en økning i andelen personer med høyere utdanning (x) fører til høyere valgdeltakelse ( y) i et utvalg på 120 norske kommuner. – En sosialforsker kan lure på om tiden brukt på arbeidsrettet rehabilitering (x) reduserer tiden det tar å komme i fast jobb ( y) blant 200 NAV-klienter. – En organisasjonsforsker kan lure på om et bestemt program for bedring av arbeidsmotivasjon (x) har en effekt på ansattes trivsel ( y) i 250 bedrifter. – En idrettsmedisiner kan undersøke om mengden styrketrening (x) samvarierer med prestasjonene i «Birken» på ski ( y) for 40 eliteidrettsutøvere.

17


18

R e g r e s j o n s a n a ly s e

– En vinforsker kan være interessert i å fastslå om det er en sammenheng m ­ ellom kvalitet (x) og pris ( y) på rødvin for 250 viner tilgjengelig på det norske Vin­ mono­polet. – En psykolog kan lure på om mengden av et bestemt personlighetstrekk (x) øker risikoen for en bestemt form for aggressiv atferd ( y) for 140 innsatte i norske fengsler. – En sosiolog kan være interessert i hvordan prestasjoner på banen (x) samvarierer med lønnen ( y) til de ca. 240 fotballspillerne i den norske Tippe­ligaen. – En reiselivsforsker kan lure på hvordan antall dager man er på en ferie­des­ti­na­sjon (x) samvarierer med totalpengeforbruket på denne destinasjonen ( y) blant 500 turister

Jeg gjentar: Bare fantasien setter grenser for hva som kan være x, y og observasjoner i en gitt regresjonsanalyse. For å utføre en regresjon trenger vi to ting: (1) Vi trenger data, dvs. variabelinformasjon for noen observasjoner. Dataene eller datasettene brukt i denne boken, kan lastes ned fra bokens hjemmeside (www.cda/regresjon/thrane). På denne siden finner du også øvingsoppgaver med tilhørende data og løsninger. (2) Vi trenger en PC med et program til å utføre statistiske analyser. Slike programmer finnes det mange av. I denne boken brukes statistikkprogrammet Stata for å forklare og illustrere regresjon (www.stata.com). Det er flere grunner til at akkurat dette er valgt: – Programmet er et av de få som for alle praktiske formål løser alt man kommer opp i av utfordringer ved regresjon og beslektede statistiske metoder. – Programmet er enkelt å bruke og har en meget god dokumentasjon og hjelpefunksjon. – Programmet er svært populært blant samfunnsvitere og økonomer, og øker i popularitet blant flere andre faggrupper. Når dette er sagt, vil jeg innledningsvis også vise regresjon via noen andre mye brukte statistiske programmer. Datasettene på bokens hjemmeside er også tilgjengelige i flere versjoner enn Stata, blant annet i R, SPSS og Excel. De fleste av analysene som vises i kapittel 2 til og med 7 i denne boken, finnes det tilsvarende løsninger for i blant annet SPSS. Lesere som bruker SPSS eller et annet statistikkprogram, vil dermed også ha nytte av boken.


k a p itt e l 1 : i n n l e d n i n g

1.4

Bokens presentasjonsform, kilder og litteraturhenvisninger

Av ulike grunner har jeg brukt mye tid på å lære bort regresjon til studenter med større eller mindre grad av tallskrekk. Det går helt fint. Denne skrekken opptrer gjerne sammen med sin fetter, symbolskrekken. Disse erfaringene preger boken. Det vil si at jeg – så langt som mulig – bruker kjente eksempler og ord fremfor abstraksjoner og symboler. Ja, kanskje presser jeg dette i overkant. Av den grunn tar fremstillingen mer plass enn den ville gjort ved utstrakt bruk av symboler. Lesere med god skolering i statistikk og matematikk vil derfor kanskje finne boken noe «ordrik». Gevinsten ved å ofre litt presisjon er imidlertid at personer med moderate kunnskaper i matematikk og statistikk – og dem er det mange flere av – ikke blir motløse og ramler av. Men noen få formler og symboler må det bli, som x og y. Boken har til nå ikke hatt noen kildehenvisninger, noe fagbøker gjerne er fulle av. Grunnen er at jeg finner stadige navn i parenteser lite læringsfremmende. Henvisninger i teksten blir derfor holdt på et minimum. Men det betyr ikke at alt jeg skriver, er sugd av eget bryst. Tvert imot, nesten alt er sagt og skrevet av andre på lignende, men ofte vanskeligere, måter. Min viktigste inspirasjonskilde er Introductory Econometrics, skrevet av Jeffrey M. Wooldridge i 2000 (femte utgave kom i 2013). Forenklet er econometrics (økonometri) økonomenes navn på regresjon. Tilsvarende har jeg hatt stort utbytte av Skog (2005). På slutten av hvert kapittel finner du henvisninger til andre lærebøker og fagartikler som kaster mer lys over temaene som er tatt opp. To pedagogiske momenter til slutt: Mange lærebøker i regresjon starter med et crash course i sannsynlighetsregning, algebra, induktiv statistikk, variab­ lers sentraltendens, variablers spredning og målenivå, osv. Dette er selvsagt godt ment, men jeg tror ofte det fungerer dårlig for alle andre enn dem som på forhånd er matematisk godt skolert. Man taper også mye tempo. Min tilnærming er helt motsatt: Jeg introduserer kun ideene og begrepene som trengs for å eksemplifisere og forklare det aktuelle temaet. Videre starter jeg – så langt mulig – med praktiske, illustrerende eksempler før jeg gjennomgår de prinsipielle tankene som ligger til grunn for eksemplene. Som amerikanerne sier: Show, don’t tell! Noen vil kanskje finne denne metoden uvant og lite akademisk; men min erfaring er at den fungerer best pedagogisk. I tillegg til at boken beskriver hva regresjon er for noe, har den en gjøredimensjon. Når det gjelder beskrivelse, er det lett å se for seg at forfatteren blir borte fra teksten – matematikken i regresjon er objektiv. Når det der­ imot gjelder gjøre-dimensjonen, altså praksisbiten, vil denne farges av mine erfaringer med regresjon – som er forskjellige fra andre læreres. Dette er ikke til å komme unna, og jeg gjør ikke noe forsøk på å prøve. Sammenlignet med det som muligens er typisk i lærebøker, er jeg derfor mye til stede

19


20

R e g r e s j o n s a n a ly s e

i teksten. Av den grunn finnes ikke «forfatteren» i denne boken, mens vi, du og jeg er her. Dette kan kanskje være uvant for noen, men da har du bakgrunnen for det.

1.5 Målgrupper, bokens plass i undervisning/ forskning og veien videre Boken har to målgrupper: (1) Studenter som ønsker å forstå og lære seg å utføre regresjon samt å tolke og formidle dens funn på en adekvat måte, og (2) forskere/andre med lignende behov. Fagområdene boken passer for, er samfunnsfagene inkludert økonomi og markedsføring, helsefag og samfunnsmedisin (epidemiologi). For (2) tror jeg også boken kan fungere som en oppdatering eller oppslagsbok om regresjon. Ikke minst håper jeg den gir økt bevissthet om hva man kan si, bør si og ikke bør si om resultater basert på regresjon. Her anbefaler jeg spesielt kapitlene 4, 5, 7, 8 og utover. Boken fordrer ingen kunnskaper i matematikk og statistikk utover videregående skole. Det er et mål at lesere uten kurs i samfunnsvitenskapelig metode og/eller i statistikk skal kunne lese den med fullt utbytte. En enkel og ikke-teknisk inngang til induktiv statistikk gis derfor i kapittel 4. Boken har to deler: Basisemner i regresjonsanalyse og Videregående emner i regresjonsanalyse. Den sistnevnte og noe tyngre delen forutsetter at den førstnevnte er lest, bearbeidet og rimelig godt forstått. Disposisjonen for bokens del 1 – kapittel 1 til og med 7 – er som følger: I kapittel 2 legges grunnlaget for det som kommer i kapittel 3 og senere. Her griper vi igjen fatt i eksempelet med den statistiske sammenhengen mellom bolig­areal (x) og salgspris blant hundre eneboliger (y) i en norsk småby. Jeg kan ikke få understreket nok hvor viktig det er at dette kapittelet er lest, bearbeidet og forstått før du går videre i boken. De med noe kjennskap til regresjon trenger kun å skumlese kapittel 2, først og fremst for å bli kjent med eksemplene som blir fulgt opp senere i boken. Kapittel 2 til og med 5 dekker det som forbindes med lineær regresjon (forklaring av termen lineær gjøres i kapittel 2.4). I kapittel 6 utvides den lineære modellen til å kunne håndtere ikke-linearitet, mens kapittel 7 kopler lærdommen fra kapittel 1 til og med 6 sammen med hvordan man utfører et regresjonsbasert akademisk prosjekt fra A til Å. Kapittel 1 til og med 7 dekker det som trengs for å sluttføre et akademisk arbeid (bacheloroppgave, masteroppgave eller en vitenskapelig artikkel) basert på såkalt vanlig eller tradisjonell regresjon. Trolig bør de leses i rekkefølgen de står i for best pedagogisk utbytte. Del 2 i boken – Videregående emner i regresjonsanalyse – består av kapittel 8 til og med 12. Bakgrunnen for metodene som presenteres her, er at man av og til står i situasjoner der vanlig regresjon ikke strekker til for å løse den konkrete oppgaven på en tilfredsstillende måte. Jeg gjentar at kapittel 8 til og med 12 tar opp emner som er noe mer komplekse enn dem som dekkes i


k a p itt e l 1 : i n n l e d n i n g

bokens del 1. Derfor er det som nevnt en fordel å ha lest – og forstått – kapittel 1 til og med 7 før man gir seg i kast med de senere kapitlene. Kapittel 1 til og med 4/5 vil normalt dekke bachelornivået i samfunnsfagene vidt definert, mens for eksempel økonomene, som har et større innslag av statistikk i fagkretsen, trolig kan ta med kapittel 6. Kapittel 7 er ikke teknisk krevende, men mest relevant for studenter og andre som skal gjennomføre en masteroppgave eller et forsknings- eller utredningsprosjekt basert på regresjon – noe som også kan være en bacheloroppgave. Kapittel 8 til og med 12 er på masternivå og over, men akkurat hva som passer hvor, må vurderes i hvert enkelt tilfelle.

21


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.