Boken gir en fullstendig beskrivelse av verktøy for bygging av logistiske regresjonsmodeller, testing og vurdering av modeller og tolkning av effektmål. Presentasjonen er pedagogisk og gir rom for tilpasset undervisning slik at den egner seg på både bachelornivå, masternivå og ph.d.-nivå, spesielt innenfor helsefag. Den er også egnet innenfor fag som økonomi, statsvitenskap, psykologi og sosiologi, samt i analyse av samfunnsrisiko. I tillegg egner boken seg for forskere som benytter eller ønsker å sette seg inn i denne analyseformen.
ISBN 978-82-450-2322-0
,!7II2E5-acdcca!
Innføring i logistisk regresjon
Boken har fire deler. Første del gjennomgår teorien for logistisk regresjon. Her behandles tankegangen bak logistisk regresjon, innholdet i formler, hvordan de er bygd opp, og tolkningen av resultater fra utførte analyser. Modeller med samspill er viet stor plass. Del 2 gjennomgår flere eksempler fra ulike fagområder som helse, økonomi og samfunnsfag. Del 3 presenterer modeller for analyse av kategoriske variabler med mer enn to nivåer. Multinomisk logistisk regresjon håndterer avhengige variabler på nominalnivå, mens rangert (ordinal) logistisk regresjon håndterer avhengige variabler på ordinalnivå. Del 4 tar opp prosessen med å utarbeide en «beste modell», ulike typer effektmål og en metode for justering for tilleggsvariabler.
Fugleberg Småstuen Tufte
Boken gir en grundig presentasjon av logistisk regresjonsanalyse. Forfatterne kombinerer teori og praktisk analyse på en måte som man i liten grad finner i andre – norske eller utenlandske – bøker om emnet. Spesielt for boken er at den matematiske formidlingen av teorien for logistisk regresjonsanalyse er kombinert med visuelle fremstillinger og forklaring i teksten. Boken skiller seg også fra andre bøker på området gjennom det store innslaget av praktiske eksempler fra ulike fagområder. I tillegg viser boken hvordan analyser gjøres i både SPSS og Stata.
Ole Albert Fugleberg Milada Cvancarova Småstuen Per Arne Tufte
Innføring i logistisk regresjon Med eksempler på analyse
Ole Albert Fugleberg er cand.oecon. og cand.real. med hovedfag i statistikk fra Universitetet i Oslo. Han har lang og bred erfaring fra undervisning i statistikk på bachelor- og masternivå fra Handelshøyskolen BI og OsloMet – Storbyuniversitetet (tidligere Høgskolen i Oslo og Akershus) og har tidligere skrevet en lærebok i regresjonsanalyse. Han har anvendt statistiske metoder på ulike problemstillinger innenfor energiøkonomi, landbruk og fiskeoppdrett og innenfor helse, samfunn og risiko. Disse forskningsarbeidene har resultert i over 50 publikasjoner, hvorav flere i internasjonale tidsskrifter. Milada Cvancarova Småstuen er født i Praha, har studert anvendt matematikk ved Universitetet i Oslo og har en ph.d. i anvendt biostatistikk/epidemiologi fra Det medisinske fakultet samme sted. Hun har bred erfaring som foreleser både på masternivå og ph.d.nivå og har vært med på å starte ph.d.programmet i Folkehelse (Public Health) ved OsloMet – Storbyuniversitetet. Hun er medforfatter på nesten 200 publikasjoner innenfor medisinsk og samfunnsvitenskapelig forskning. Per Arne Tufte er siviløkonom fra BI og dr.polit. i sosiologi fra Universitetet i Oslo. Han er førsteamanuensis ved OsloMet – Storbyuniversitetet, og har bakgrunn som forsker ved Statens institutt for forbruksforskning (SIFO) og Senter for profesjonsstudier (SPS). Han har i en årrekke undervist i forskningsmetoder ved Universitetet i Oslo og flere høgskoler i Norge og har skrevet flere sentrale lærebøker innenfor samfunnsvitenskapelig forskningsmetode.
Ole Albert Fugleberg Milada Cvancarova Småstuen Per Arne Tufte
Innføring i logistisk regresjon Med eksempler på analyse
&RS\ULJKW ‹ E\ 9LJPRVWDG %M¡UNH $6 $OO 5LJKWV 5HVHUYHG XWJDYH RSSODJ ,6%1
*UDILVN SURGXNVMRQ -RKQ *ULHJ %HUJHQ 2PVODJVGHVLJQ YHG IRUODJHW og forfatterne Grafisk formgivning ved forfatterne %LOGHU Sn VLGH ‹ %ULWYLFK _ 'UHDPVWLPH FRP ¡YHUVW
© subarashii21 | Shutterstock (figuren i midten) Â&#x2039; $XUHPDU _ 'UHDPVWLPH FRP L PLGWHQ Â&#x2039; $QGUH\ <XUORY _ 6KXWWHUVWRFN QHGHUVW
Boken er utgitt med støtte fra Lærebokutvalget for høyere utdanning. 6S¡UVPnO RP GHQQH ERNHQ NDQ UHWWHV WLO )DJERNIRUODJHW .DQDOYHLHQ %HUJHQ 7OI )DNV H SRVW IDJERNIRUODJHW#IDJERNIRUODJHW QR ZZZ IDJERNIRUODJHW QR 0DWHULDOHW HU YHUQHW HWWHU nQGVYHUNORYHQ 8WHQ XWWU\NNHOLJ VDPW\NNH HU HNVHPSODUIUHPVWLOOLQJ EDUH WLOODWW QnU GHW HU KMHPOHW L ORY HOOHU DYWDOH PHG .RSLQRU
Til min kone Ingegerd, og mine døtre Tone Kari og Elin. Ole Albert Fugleberg
Til min mann Pål og mine foreldre. Takk for deres kjærlighet og støtte. Milada Cvancarova Småstuen
Forord I mange forskningsmessige problemstillinger er andeler i fokus. Som et lite knippe av eksempler nevner vi: Hvor stor andel av nyetablerte foretak innenfor en bestemt næring oppnår «suksess» etter et bestemt antall år? Hvor stor andel av næringsdrivende leverer ikke korrekte avgiftspliktige omsetningsoppgaver? Hvor stor andel av befolkningen har en god skattemoral? Hvor stor andel av befolkningen har søvnproblemer? Hvor stor andel lykkes med en varig vektreduksjon etter gjennomført livsstilskurs? Hvor stor andel av befolkningen får et godt og meningsfullt yrkesaktivt liv? Hvor stor andel av innlegginger i somatiske sykehus i Norge medfører sykehusinfeksjon? Hvor stor andel av nyfødte har for lav fødselsvekt? Hvor stor andel får senvirkninger etter fedmeoperasjoner? Et annet navn på andeler er sannsynligheter. Ofte ønsker vi å forklare variasjoner i disse andelene eller sannsynlighetene for en hendelse (begivenhet) B. Eller uttrykt som å forklare variasjonen i oddsen for B. Den er forholdet (sannsynligheten for B) / (sannsynligheten for ikke B). Da stiller vi spørsmål som: Hvilke faktorer kjennetegner foretak innenfor en bestemt næring som har «suksess» etter et bestemt antall år? Hvilke faktorer influerer særlig inn på søvnproblemer? Hva skiller de som har god skattemoral fra de som har dårlig skattemoral? Hvilke faktorer kjennetegner de som får et godt og meningsfullt yrkesliv? Omformet til et statistisk språk: Hva er for eksempel sannsynligheten eller oddsen for god skattemoral? Vi kan ha ulike hypoteser / teorier om faktorer som influerer på sannsynligheten eller oddsen for en hendelse eller begivenhet B (influerer på forekomsten av B). Innenfor mange fagområder har vi ofte problemstillinger, hvor det oppstår: x x
behov for å forklare variasjoner i sannsynligheter ut fra kjennetegn ved grupper av analyseenheter metoden som nettopp håndterer dette er logistisk regresjon
Det er en økende tendens til at problemstillinger innenfor samfunnsfagene (økonomi, statsvitenskap, sosiologi, psykologi) gir dette behovet
Denne boken presenterer logistisk regresjon som analysemetode for å håndtere problemstillinger, hvor vi ønsker å forklare variasjoner i andeler eller sannsynligheter. Boken er inndelt i 4 deler.
Del 1 om gjennomgang av teorien for logistisk regresjon: Del 1 gir en dokumentasjon av logistisk regresjon. Den matematiske formidlingen av teorien for logistisk regresjon er integrert med visuelle fremstillinger og forklaring i tekst. Det innebærer at det i stor grad er brukt grafer, figurer og tabeller for å formidle:
4
INNFØRING I LOGISTISK REGRESJON
x x
x x
Tankegangen i logistisk regresjon. Logistiske regresjonsmodeller og hvordan de er bygd opp i tre komponenter som: - En komponent for logit - En komponent for odds - En komponent for sannsynlighet En enkel effekt av en variabel på odds Innholdet i ulike statistiske mål. - Tolkningen av resultater fra utførte analyser
Vi integrerer teori og matematikk gjennom et visuelt bilde
I en lineær regresjonsmodell er det enkelt å forstå teorien for å finne den lineære relasjonen som er best tilpasset observasjonene. Det er den lineære relasjonen (en linje med en kontinuerlig uavhengig variabel) som har minst avstand til samlingen av observasjonene. Metoden for å finne denne linjen er minste kvadraters metode. I logistisk regresjon bruker vi en helt annen tilnærmelse. Vi maksimerer sannsynligheten (maximum likelihood) for å få de observasjonene vi har fått ved utfallene (B inntreffer, B inntreffer ikke) og verdiene / kategoriene til de uavhengige variablene samlet for observasjonene. Basert på dette prinsippet utleder vi mål for om vi har en god modellspesifikasjon og mål for å sammenligne ulike logistiske regresjonsmodeller ut fra at de inneholder ulikt antall uavhengige variabler. Videre utleder vi noen pseudo R2-mål som skal korrespondere til R2- målet i lineær regresjon, men de måler ikke forklart variasjon som R2 gjør i logistisk regresjon. Likevel har de verdier innenfor (0 , 1). Jo nærmere verdien er 1, jo bedre er tilpasningen til data. Ulike varianter av logistiske regresjonsmodeller ut fra inkludering av ulike typer variabler som kontinuerlige og kategoriske variabler og samspill mellom variabler presenteres fortløpende. Vi går fra en enkel logistisk regresjonsmodell med en uavhengig kontinuerlig variabel til modeller som inkluderer så vel flere kontinuerlige variabler som kategoriske variabler med flere enn to kategorier og med ulike former for samspill mellom variablene. Disse er løpende fulgt opp med eksempler på anvendelser. Disse anvendelsene er i stor grad hentet fra analysene av problemstillingene i del 2. Der gir vi en samlet og omfattende analyse av hver enkelt av disse problemstillingene.
Del 2 om analyser av problemstillinger fra ulike fagområder: Etter gjennomgangen av teorien formuleres logistiske regresjonsmodeller for problemstillinger innenfor noen fagområder. Innenfor økonomi har vi valgt å rette oppmerksomheten mot skattemoral. Hvilke variabler kan forklare forekomsten av god skattemoral? Innenfor helserelaterte områder ser vi på modeller for å forklare søvnproblemer. Hvilke variabler kan forklare søvnproblemer? Videre ser vi på modeller for å forklare effekten av livsstilkurs. Hvilke faktorer er vesentlige for å forklare at en vektreduksjon er opprettholdt ett år etter avslutning av ett livstillskurs? Endelig ser vi på to områder innenfor medisin. Det ene er hvilke morrelaterte variabler som kan forklare lav fødselsvekt. Det andre eksemplet fokuserer på senvirkninger etter fedmeoperasjon. For alle disse problemstillingene presenteres en omfattende analyse. Den dreier seg om omforming av problemstillingen til ett statistisk språk og formulering av en logistisk
FORORD
5
regresjonsmodell for problemstillingen. Deretter gjennomfører vi analysen og fortolker resultatene, i stor grad sammen med presentasjon av SPSS’ utskrifter fra utført analyse. Ut fra problemstillingen om skattemoral viser vi spesielt hvordan en statistisk analyse utføres i så vel SPSS som i Stata gjennom menyen for logistisk regresjon.
Del 3 om multinomisk logistisk regresjon: Vi kan ofte ønske å analysere en problemstilling som må reflekteres gjennom en kategorisk variabel med flere enn to kategorier. Variabelen kan være nominal. Vi viser hvordan vi formulerer en multinomisk logistisk regresjonsmodell, når den avhengige variabelen er nominal. Deretter gjennomfører vi for en egnet problemsstilling en multinomisk logistisk regresjonsanalyse så vel i SPSS som i Stata. Resultatene fortolkes samtidig som vi presenterer utskriften fra analysen. På den annen side kan variabelen for å belyse en problemstilling være ordinal, og kategoriene kan ordnes sekvensielt. Da viser vi hvordan vi formulerer en ordinal logistisk regresjonsmodell, når den avhengige variabelen er ordinal. Deretter gjennomfører vi for en egnet problemstilling en rangert logistisk regresjonsanalyse så vel i SPSS som i Stata. Resultatene fortolkes samtidig som vi presenterer utskriften fra analysen.
Del 4 tar for seg modellstrategier i logistisk regresjon. Den tar for seg prosessen mot en «beste» modell og justering for bakgrunnsvariabler: Ut fra et potensial av forklaringsvariabler viser vi prosessen for å finne en modell som inkluder de variablene som akkurat er signifikante ut fra tradisjonelt signifikansnivå (0,05 eller 0,01). Vi skiller mellom eksponeringsvariabler og bakgrunnsvariabler / tilleggsvariabler (konfunderende variabler). Vi utleder en modell for å forklare effekten av eksponeringsvariablene, men justert for bakgrunnsvariablene.
Hovedhensikten med boken: Hovedhensikten er å formidle statistisk teori og metoder, slik at man får et egnet verktøy til selv å utføre logistiske regresjonsanalyser på ulike problemstillinger.
Det krever god og dyp forståelse av teorien for å: x Finne egnet modell som reflekterer problemstillingen x Utføre analysen x Fortolke resultatene i lys av forutsetningene for modellen Til boken finnes det også en hjemmeside med ressurser og tillegg som ikke er inkludert i selve boken. Oslo april 2018 Ole Albert Fugleberg Per Arne Tufte Milada Cvancarova Småstuen
Innhold Hva er logistisk regresjon? .................................................................................................... 13
Del 1: Teorier for logistiske regresjonsmodeller ......................... 27 1. Kjernen i en logistisk regresjonsmodell ........................................................................... 29 2. Drøfting av modeller for å forklare en sannsynlighet ..................................................... 33 2.1 Lineær sannsynlighetsregresjon .................................................................................................................. 34 2.1.1 Konsekvensene av lineær sannsynlighetsregresjon .............................................................................. 35 2.1.2 Nærmere om S-formet kurve som funksjonell form ............................................................................ 36 2.1.3 Begrunnelse for en logistisk kurve ....................................................................................................... 38 2.2 Om brudd på de statistiske forutsetningene................................................................................................. 40
3. Eksempel på sannsynlighetsregresjon .............................................................................. 43 4. Konstruksjon av en logistisk regresjonsmodell ............................................................... 47 4.1 Hvordan sikre at oddsen er positiv og at sannsynligheten er mellom 0 og 1 .............................................. 48 4.2 Formulering av den logistiske regresjonsmodellen i sin helhet med relasjonene for logit, odds og sannsynlighet ............................................................................................................................................... 57 4.3 Fortolkning av en økning av en kontinuerlig variabel ................................................................................. 59 4.3.1 Effekten av en endring i X på logit ...................................................................................................... 60 4.3.2 Effekten av en økning i X på oddsen ................................................................................................... 60 4.3.3 Effekten av en endring i X på sannsynligheten P ................................................................................. 62 4.3.4 Beregning av ny sannsynlighet via beregning av ny odds.................................................................... 63 4.3.5 Estimere odds og sannsynlighet ........................................................................................................... 64 4.3.6 Oddsforholdet....................................................................................................................................... 65 4.3.7 Risikoforholdet ..................................................................................................................................... 68 4.3.8 Eksempel analyse av skattemoral for å vise en estimert logistisk regresjonsmodell. Fortolke parameterne og beregne oddsforhold ................................................................................................... 69 4.3.9 Grafisk illustrasjon av relasjonene i den logistiske regresjonsmodellen .............................................. 72
5. Estimering av parameterne .............................................................................................. 75 5.1 Estimering av parameterne ved sannsynlighetsmaksimeringsmetoden (Maximum Likelihoodmetoden) ...................................................................................................................................................... 75 5.2. Essensen i Maximum Likelihood-metoden ................................................................................................ 76 5.3 Utledning av Maximum Likelihood-estimatoren ........................................................................................ 78
6. Vurdere modellens tilpasning til data, prediksjonsevne og modellspesifikasjon ......... 85 6.1 Vurdere modeller og tilpasning til data ....................................................................................................... 85
6.1.1 Et mål for modellens tilpasning til data ............................................................................................... 86 6.1.2 Et mål for å teste hvor god en modell er i forhold til en modell som bare inneholder konstantleddet (nullmodell) ................................................................................................................. 87 6.1.3 Hvordan informasjonen om test av foreslått modell mot nullmodellen fremkommer i SPSS .............. 89 6.1.4 Et mål for å teste hvor god en utvidet modell er i forhold til en basismodell...................................... 90 6.1.5 Vurdere betydningen av en enkelt uavhengig variabel ........................................................................ 91 6.1.6 Pseudo R2-mål for en logistisk regresjonsmodell ................................................................................. 92 6.1.7 Hvordan informasjonen om pseudo R2-målene fremkommer i SPSS .................................................. 94
8
INNFØRING I LOGISTISK REGRESJON 6.2 Vurdere modellens prediksjonsevne ........................................................................................................... 95 6.2.1 Klassifikasjonstabell for å vurdere modellens prediksjonsevne ........................................................... 95 6.2.2. Hvordan informasjonen om klassifikasjonstabellen fremkommer i SPSS .......................................... 98 6.3 Hosmer og Lemeshow test for å vurdere modellspesifikasjon .................................................................... 99 6.3.1 Hvordan informasjonen om Hosmer og Lemeshow test fremkommer i SPSS ................................... 101
7. Logistiske regresjonsmodeller med ulike varianter av forklaringsvariabler ............. 103 7.1 Repetisjon av en modell med en kontinuerlig uavhengig variabel ............................................................ 104 7.1.1 Effekten på odds av at X øker med en enhet ...................................................................................... 104 7.2 Generelt K kontinuerlige uavhengige variabler ...................................................................................... 105 7.2.1 Fortolkning av at en av de kontinuerlige variablene øker med en enhet ............................................ 106 7.2.2. Effekten av en økning i en av de kontinuerlige variablene med en enhet på odds ............................ 107 7.2.3 Effekten av en økning i en av de kontinuerlige variablene på sannsynligheten P .............................. 108 7.2.4 Estimere odds og sannsynligheter ...................................................................................................... 109 7.2.5 Oddsforholdet..................................................................................................................................... 110 7.2.6 Risikoforholdet................................................................................................................................... 111 7.2.7 Hvorfor bruke odds og oddsratio i logistisk regresjon? ..................................................................... 112 7.3 En dikotom forklaringsvariabel ................................................................................................................. 113 7.3.1 Effekten på Logit, odds og sannsynlighet når vi går fra referansekategori til representativ kategori .............................................................................................................................................. 114 7.3.2 Eksempel: Analyse av lav fødselsvekt med en uavhengig kategorisk forklaringsvariabel. Fortolkning av parameterne og beregne odds og sannsynlighet ......................................................... 116 7.4 En kontinuerlig og en dikotom forklaringsvariabel ................................................................................... 118 7.4.1 Effekten av at X øker med en enhet ................................................................................................... 118 7.4.2 Effekten når vi går fra referansekategori til representativ kategori .................................................... 120 7.4.3 Forløpet av kurven for odds og sannsynligheten med X .................................................................... 121 7.4.4 Oddsforholdet..................................................................................................................................... 125 7.4.5 Risikoforholdet ................................................................................................................................... 126 7.4.6 Analyse av skattemoral som eksempel på en modell med en kontinuerlig og en kategorisk variabel som uavhengige variabler ..................................................................................................... 127 7.5 Logistisk regresjonsmodell med samspill mellom en kontinuerlig og en dikotom variabel .................... 130 7.5.1 Effekten når vi går fra referansekategori til representativ kategori .................................................... 131 7.5.2 Effekten av en økning i den kontinuerlige variabelen med en enhet .................................................. 136 7.6 Generelt flere kategoriske variabler .......................................................................................................... 139 7.6.1 Effekten fra referansekategori til en representativ kategori for en kategorisk variabel ...................... 141 7.7 Samspill mellom kategoriske variabler ..................................................................................................... 143 7.7.1 Samspill mellom to kategoriske variabler hver med to kategorier ..................................................... 143 7.7.2 Samspill mellom to kategoriske variabler. En med to kategorier og en med tre kategorier ............... 145 7.7.3 Analyse av søvnproblemer som eksempel på en modell med kategoriske uavhengige variabler med flere enn 2 kategorier og med samspill mellom de kategoriske variablene ................................ 149 7.8 Generelt om hvordan kategoriske variabler inngår i en logistisk regresjonsmodell .................................. 155 7.9 Flere kontinuerlige og kategoriske uavhengige variabler ......................................................................... 159 7.9.1 Effekten av en økning i en av de kontinuerlige variablene med en enhet ved samspill med en kategorisk variabel ............................................................................................................................. 161 7.9.2 Effekten av overgang fra referansekategori til en representativ kategori for den kategoriske variabelen ved samspill med en kontinuerlig variabel og kategorisk variabel ................................... 162 7.9.3 Analyse av skattemoral som eksempel på en modell med både kontinuerlige og kategoriske variabler og med samspill mellom to kategoriske variabler og samspill mellom en kategorisk variabel og en kontinuerlig variabel ................................................................................................... 163 7.10 Metoder og prinsipper for søking etter en god modell ........................................................................... 167
8. Sammenhengen mellom odds og sannsynlighet ............................................................ 169
INNHOLD
9
9. Valg mellom ulike modeller ............................................................................................. 175 10. Hypoteseprøving om regresjonsparameterne og konfidensintervall for oddsfaktorene .................................................................................................................. 177 10.1 Beregning av signifikanssannsynligheten for en estimert parameter ...................................................... 178 10.2 Hypoteseprøving om en variabel ............................................................................................................. 180 10.3 Konfidensintervall for parameterne ......................................................................................................... 183 10.4 Estimere odds og sannsynlighet .............................................................................................................. 184 10.5 Eksempel på hypoteseprøving ................................................................................................................. 185
11. Stegvis utvelgelse av variabler ...................................................................................... 189 12. Utliggere og innflytelsesrike observasjoner ................................................................. 191 13. Spesielle forhold ved logistiske regresjonsmodeller .................................................... 195 14. Presentasjon av odds og sannsynlighet for en estimert modell ................................. 197 14.1 Finne konfidensintervall for sannsynligheten og odds ............................................................................ 199
15. Prosessen i logistisk regresjon: Samlet oversikt over ulike deler i en analyse og vurderinger...................................................................................................................... 201
Del 2: Eksempler på analyser av logistiske regresjonsmodeller ................................................. 209 Introduksjon til eksemplene ................................................................................................ 211 Eksempel 1: Analyse av skattemoral .................................................................................. 215 1. Enkel modell for analyse av skattemoral ................................................................... 216 1.1 Variabler i dataene fra World Value Survey (WVS) ............................................................................. 217 1.2 Enkel modell for analyse av skattemoral............................................................................................... 219 1.3 Menyer i SPSS for å utføre logistisk regresjonsanalyse vist ved analyse av enkel modell for skattemoral ........................................................................................................................................... 219 1.4 Utskrift fra analysen av enkel modell for skattemoral. Tolkning av resultatene ................................... 224 1.5 Tolkning av de eksponentielle koeffisientene ....................................................................................... 231 1.6 Residualer og predikerte sannsynligheter .............................................................................................. 234 1.7 Oversikt over ulike alternativer for innlegging av kategoriske variabler, og hvordan dikotome variabler for representative kategorier blir laget i SPSS ....................................................................... 238
Eksempel 1: Analyse av skattemoral utført i STATA ...................................................... 243 1. Enkel modell for analyse av skattemoral .................................................................. 244 1.1 Variabler i World Value Survey (WVS) data ........................................................................................ 245 1.2 Enkel modell for analyse av skattemoral............................................................................................... 247 1.3 Menyer i Stata for å utføre logistisk regresjonsanalyse vist ved eksemplet analyse av enkel modell for skattemoral ...................................................................................................................................... 248
10
INNFØRING I LOGISTISK REGRESJON
Eksempel 2: Analyser av skattemoral og av samfunnsøkonomisk moral ....................... 261
Eksempel 3: Forklare sannsynligheten for søvnproblemer i den australske befolkningen .................................................................................................................... 283 Eksempel 4: Vektreduksjon ................................................................................................ 297 Eksempel 5: Analyse av lav fødselsvekt ............................................................................. 321 Eksempel 6: Senvirkninger etter fedmeoperasjon ............................................................ 335
Del 3: Logitmodeller for avhengige variabler med mer enn to verdier ............................................................................................. 349 Introduksjon ......................................................................................................................... 351 1. Multinomisk logistisk regresjon ...................................................................................... 353 1.1 Modell med én uavhengig variabel ........................................................................................................... 356 1.2 Modell med mange uavhengige variabler ................................................................................................ 360 1.3 Tolkning av koeffisienter ......................................................................................................................... 361 1.4 Betinget sannsynlighetsplott .................................................................................................................... 362 1.5 Statistiske tester ........................................................................................................................................ 365 1.6 Vurdering av modellen - modelltilpasning ............................................................................................... 367 1.7 Forutsetningen om uavhengighet av irrelevante alternativer.................................................................... 370
2. Rangert logitmodell .......................................................................................................... 373 2.1 Framgangsmåte i Stata og SPSS .............................................................................................................. 376 2.2 Tolkning av estimater ............................................................................................................................... 378 2.3 Statistiske tester ........................................................................................................................................ 382 2.4 Goodness-of-fit ........................................................................................................................................ 383 2.5 Forutsetningen om parallelle kurver......................................................................................................... 385 2.6 Sammenligning av multinomisk og ordinal logistisk regresjon ............................................................... 386
Del 4: Modellstrategier i logistisk regresjon ................................. 387 1. Strategier for bygging av modeller ved logistisk regresjon .......................................... 389 1.1 Strategier for å velge ut de forklaringsvariablene som forklarer forekomsten av en begivenhet .............. 389 1.2 Eksempel skattemoral. Anvendelse av strategier for å velge ut de forklaringsvariabler som akkurat forklarer forekomsten av god skattemoral ................................................................................................. 393
2. Korrigere for variabler som ikke er risikofaktorer (tilleggsvariabler) ....................... 399 2.1 Prosedyren for å korrigere for tilleggsvariabler ........................................................................................ 399 2.2 Utførelse av korreksjon for tilleggsvariabler i praksis .............................................................................. 401 2.3 Presentasjon av odds og sannsynlighet for en estimert modell korrigert for tilleggsvariabler .................. 402
INNHOLD
11
2.4 Skattemoral som eksempel for ĂĽ korrigere for tilleggsvariabler ............................................................... 404
3. EffektmĂĽl i logistisk regresjon ........................................................................................ 409
Referanser .......................................................................................................................... 415
Hva er logistisk regresjon? Lineær regresjon har vært den dominerende metoden for å påvise sammenhenger ved å undersøke om variasjonen i en kontinuerlig variabel kan forklares av variasjonen i en eller flere andre variabler. Vi vil si noe om en eventuell avhengighet. For å si at det kan være en kausalitet, kreves en faglig begrunnelse og ikke en statistisk begrunnelse. For eksempel dersom vi ut fra en lineær regresjon av en medisinsk problemstilling påviser en avhengighet, må det en medisinsk begrunnelse til for å si at dette er en kausalitet. Lineær regresjon har bred anvendelse innenfor naturvitenskapelige fagområder, men har også fått økende utbredelse i samfunnsfagene. Særlig gjelder dette innenfor økonomi (hvor modeller og analyser av slike sammenhenger betegnes som økonometri), men også innenfor andre samfunnsfag som statsvitenskap, sosiologi og psykologi. Det er en del restriktive krav som skal være oppfylt, for at en lineær regresjon betegnes som god. Det grunnleggende kravet til den avhengige variabelen er: x x
Den skal være kontinuerlig. Det skal ikke være noen begrensninger på verdiene variabelen kan anta.
I lineær regresjon ønsker man å forklare hvordan variasjonen i den avhengige kontinuerlige variabelen avhenger av variasjonen i verdiene til kvantitative variabler (kontinuerlige eller diskret), og / eller i variasjonen i kategoriene til kvalitative variabler. I samfunnsfagene og medisin har vi ofte en annen problemstilling. Vi ønsker å forklare sannsynligheten for at en begivenhet/hendelse skal inntreffe. Mer presist er hensikten å undersøke om variasjonen av forekomst / ikke forekomst av en begivenhet (den avhengige variabelen) kan forklares av variasjonen i en eller flere uavhengige variabler (kontinuerlige eller kategoriske variabler). Eksempler på slike problemstillinger kan være: -
-
Innenfor medisin kan det dreie seg om å forklare sannsynligheten for en bestemt sykdom (helsetilstand) ut fra variabler for henholdsvis genetiske faktorer, ernæring, fysisk aktivitet og sosioøkonomiske faktorer. Kan variasjonen i forekomst / ikke forekomst av sykdommen forklares av variasjonen i verdiene/kategoriene for disse variablene? Innenfor økonomi kan det dreie seg om å forklare sannsynligheten for at nyetablert foretak oppnår «suksess» etter fem år ut fra variabler som beskriver kjennetegn ved foretaket, markedet det opererer i og økonomiske konjunkturer. Innenfor sosiologi / psykologi kan det dreie seg å belyse om utdanning kan forklare sannsynligheten for en god livskvalitet.
For å reflektere sannsynligheten for at en hendelse B inntreffer, er det hensiktsmessig å konstruere en avhengig variabel med 0 eller 1 som tallkoder (0 dersom B ikke inntreffer, og 1 dersom B inntreffer) sammen med verdiene/kategoriene til ett sett av forklaringsvariabler for hver enhet (individ / objekt) i undersøkelsen. Vi får da en avhengig binær (dikotom) variabel.
14
INNFØRING I LOGISTISK REGRESJON
1 dersom B inntreffer B= 0 dersom B ikke inntreffer
Dikotom variabel
Variasjonen i tallkodene 0 og 1 mellom enhetene, sammenholdt med variasjonen i verdiene / kategoriene til forklaringsvariablene, vil reflektere sannsynligheten for at B inntreffer for en bestemt enhet. Verdiene 0 og 1 har i seg selv ingen mening. De er et hjelpemiddel for å belyse variabler som influerer på sannsynligheten for B.
Hvordan kan vi si at den dikotome variabelen sammenholdt med verdiene på forklaringsvariablene reflekterer sannsynligheten for at en hendelse B inntreffer? Vi har jo ikke registrert noen sannsynligheter, bare verdiene 0 og 1. Forklaringen er at vi kan beregne sannsynligheten for en gruppe av enheter som har like verdier på forklaringsvariablene. Hvis det for eksempel blant 10 ansatte som er menn i alderen 30 ̶ 49 år er 3 ledere, estimerer vi sannsynligheten for å være leder i denne gruppen til: P(B = leder) = 3/10 ≈ 0,3 Dette kan gjøres for alle kombinasjoner av verdier på forklaringsvariabler, og vi kan følgelig sammenlikne sannsynligheten for å være leder mellom de ulike gruppene. Den dikotome variabelen som reflekterer sannsynligheten for B tilfredsstiller ikke det ovennevnte grunnleggende kravet for en avhengig variabel i en lineær regresjonsmodell. Det følger av at: x x
Variabelen er ikke kontinuerlig, men kvalitativ og dikotom. Den legges inn med tallkodene 0 og 1. Variabelen som reflekterer sannsynligheten, har klare begrensninger, fordi verdier utenfor (0,1) har ingen mening.
Det viser seg at mekanismen i hvordan en sannsynlighet avhenger av en uavhengig kontinuerlig variabel, har en kurvesammenheng. Dette er helt forskjellig fra en lineær regresjonsmodell, hvor mekanismen for hvordan en avhengig kontinuerlig variabel avhenger av en kontinuerlig uavhengig variabel, er en linje som funksjonell form. Det er illustrert i figurene 2.1 og 2.2 i kapittel 2.1.2 Nærmere om S-formet kurve som funksjonell form. Ut fra denne funksjonelle formen modellerer vi avhengigheten med det vi kaller for en logistisk regresjonsmodell. Utledningen av denne er gitt i kapittel 4. Konstruksjon av en logistisk regresjonsmodell. Den utledede modellen har som konsekvens at sannsynligheten alltid er innenfor intervallet (0,1). Gitt den estimerte modellen sikrer vi oss da at en predikert sannsynlighet ut fra hvilke som helst kombinasjoner av verdier på de uavhengige variablene alltid er innenfor (0,1)
HVA ER LOGISTISK REGRESJON?
15
Å forklare en sannsynlighet springer ut fra en problemstilling Den generelle begrunnelsen for at S-kurven (logistisk modell) er egnet for å forklare sannsynligheten / andelen for en hendelse B er: x x x
Når sannsynligheten for B først er liten, skal det ofte mye til for å øke sannsynligheten for at B inntreffer. Forklaringsvariablene har liten effekt på sannsynligheten. Når sannsynligheten for B er kommet opp på et visst nivå, er det lettere å påvirke sannsynligheten. Forklaringsvariablene har større effekt på sannsynligheten. Når sannsynligheten for B er svært høy (nærmer seg 1), skal det mye til for å øke sannsynligheten. Forklaringsvariablene har liten effekt på sannsynligheten.
Bilbeltebruk er ett eksempel. Når det er få sjåfører som bruker bilbelte, skal det stor innsats til for å øke andelen som bruker bilbelte. Når andelen har blitt større, går prosessen med å få flere til å bruke bilbelte raskere. Derimot skal det svært mye innsats til for å øke andelen bilbeltebrukere, dersom det i utgangspunktet er mange som bruker bilbelte. I medisin er ofte problemstillingen å forklare forekomsten av en helsetilstand (sykdom). Da kan en logistisk regresjonsmodell ut fra en medisinsk begrunnelse være egnet. Mekanismen for hvordan sannsynligheten for en sykdom avhenger av ulike forklaringsvariabler, kan begrunnes ut fra en speilvendt S-formet kurve. En slik sammenheng viser vi i figur 2.2 i kapittel 2.1.2 Nærmere om S-formet kurve som funksjonell form. I de siste 20 ̶ 30 årene har logistisk regresjon også fått en økende anvendelse innenfor økonomi, men kanskje enda mer innenfor de øvrige samfunnsfagene som sosiologi, psykologi og statsvitenskap. Innenfor disse fagområdene har vi ofte har en problemstilling om å forklare en begivenhet som kan inntreffe eller ikke, og at det kan begrunnes at sammenhengen mellom sannsynligheten for begivenheten og variabler som influerer på den, har en S-formet kurve (jamfør bilbelteeksemplet ovenfor). Da kan vi direkte formulere en regresjonsmodell med den avhengige variabelen som en dikotom variabel for forekomst av begivenheten som relevant for problemstillingen. I andre problemstillinger kan grunnlaget for den avhengige dikotome variabelen være en variabel på nominal / ordinal nivå med generelt K kategorier. x
Ut fra problemstillingen kan vi spesielt være interessert i å forklare sannsynligheten for forekomst av en av kategoriene (for eksempel kategori k). Da formulerer vi som avhengig dikotom variabel. 1 dersom kategori k inntreffer Kk = 0 dersom kategori k ikke inntreffer
Et eksempel på dette er problemstillingen nedenfor om å forklare skattemoralen i befolkningen ut fra en ordinal variabel for graden av å rettferdiggjøre skatteunndragelse, dersom muligheten foreligger. Ut fra en logistisk regresjonsmodell for å forklare skattemoralen er denne problemstillingen gitt en omfattende analyse i Eksempel 1: Analyse av skattemoral i Del 2.
16
INNFØRING I LOGISTISK REGRESJON
Tilsvarende kan problemstillingen også gjøre det interessant å forklare sannsynligheten for en samling (union) av noen av kategoriene. Da formulerer vi tilsvarende en dikotom variabel for en union av noen av kategoriene. Problemstillingen med nominal- / ordinalvariabler med mer enn to verdier (kategorier) kan også belyses ved hjelp av spesialmoduler innenfor logistisk regresjon. x x
Multinomisk logistisk regresjon for avhengig variabel på nominalnivå Ordinal logistisk regresjon for avhengig variabel på ordinalnivå
Begge disse modellene kjennetegnes av at vi ikke kan dikotomisere den avhengige variabelen forut for analysen. Disse modellene er beskrevet i Del 3 Logitmodeller for avhengige variabler med mer enn to verdier. Endelig kan utgangspunktet være en kontinuerlig variabel, hvor det er av interesse å forklare forekomst av ett bestemt intervall av verdiområdet. Dette verdiområdet vil da være utgangspunktet for en dikotom variabel for en logistisk regresjonsmodell. Hensikten er da å forklare sannsynligheten for at den kontinuerlige variabelen skal anta verdier innenfor det spesifiserte verdiområdet. Et eksempel på dette kan være å undersøke om vektreduksjonen av deltagelse i kurs om kosthold og livsstil er varig eller ikke. Vi kan ta utgangspunkt i de som oppnådde minst 5 % total vektreduksjon gjennom kursperioden. Vi definerer «suksess» som at denne vektreduksjonen er opprettholdt ett år etter kursavslutning. Ut fra den kontinuerlige variabelen VVR = Prosentvis varig vektreduksjon lager vi denne dikotome variabelen for å reflektere sannsynligheten for «suksess». 1 dersom VVR ≥ 5 % S= 0 dersom VVR < 5 % Ut fra en rekke faktorer som karakteriser deltagerne på kursene kan vi formulere en logistisk regresjonsmodell for sannsynligheten for «suksess» av deltagelse på kurs om kosthold og livsstil.
Sammensatte begivenheter Noen begivenheter er sammensatte. En slik begivenhet inntreffer dersom flere kriterier samtidig er oppfylt. Ut fra en problemstilling kan vi ønske å definere / konstruere en hensiktsmessig begivenhet B, som vi ønsker å forklare sannsynligheten for. Da belyser vi problemstillingen med å finne variabler, hvor variasjonen i disse variablene forklarer sannsynligheten for den definerte / konstruerte hendelsen B, ved bruk av en korresponderende dikotom variabel for B. Et eksempel er innenfor økonomi, hvor vi for en bestemt bransje har problemstillingen: Hva er sannsynligheten for at et nyetablert foretak oppnår «suksess» etter 5 år? Da må vi først definere hva vi forstår med «suksess».
HVA ER LOGISTISK REGRESJON?
x
17
«Suksess» er at verdien for noen økonomiske variabler er innenfor bestemte verdier. La V = (V1,V2,…,Vk ,…,VK) betegne verdiene for K variabler som utgjør grunnlaget for å vurdere «suksess». Vi betegner «suksess» som at V er innenfor et bestemt verdiområde, la oss si V er innenfor
x V * V1* ,...,Vk* ,...,VK*
x Da fokuserer vi på å forklare sannsynligheten for at et nyetablert foretak etter fem år har verdier for V innenfor V*.
Analysen gjennomføres ved at vi innhenter data for et antall foretak, og har for disse data for V, samt for en rekke variabler som karakteriserer foretakene og som utgjør potensialet av forklaringsvariabler. For å reflektere sannsynligheten for suksess konstruerer vi den dikotome uavhengige variabelen S for «suksess». 1 dersom V ϵ V* S=
0 dersom V ϵ V*
Andre eksempler innenfor økonomi som reflekterer sannsynligheten for sammensatte begivenheter kan være: For nyetablerte små selskaper innenfor en bestemt bransje kan Næringslivets Hovedorganisasjon (NHO) ønske å analysere hvordan sannsynligheten for konkurs innen fem år avhenger av at noen variabler er innenfor bestemte verdiområder / kategorier. Et annet eksempel er långivere som kan ønske å belyse hvordan sannsynligheten for kredittverdighet avhenger av verdiene til noen utvalgte variabler.
Direkte samsvar mellom en problemstilling og en begivenhet B i medisin I medisin er det ofte direkte samsvar mellom å belyse en problemstilling og hendelsen vi skal forklare sannsynligheten for. Problemstillingen er ofte å belyse variabler som influerer på forekomsten av en bestemt sykdom / medisinsk tilstand (S). Da blir S hendelsen vi skal forklare sannsynligheten for. Potensialet av variabler for å forklare forekomsten av S er innenfor hovedområdene: x Genetikk x Kosthold x Fysisk aktivitet x Fysisk miljø x Sosioøkonomiske forhold Innenfor hver av disse hovedområdene kan vi ha teorier om variabler som kan influerer på sannsynligheten for S. Da kan vi umiddelbart formulere problemstillingen som en logistisk regresjonsmodell. Dette er illustrert i figur 1 nedenfor.
18
INNFØRING I LOGISTISK REGRESJON
Figur 1 Illustrasjon av grunnlaget for en logistisk regresjonsmodell for å belyse variabler som kan influere på sannsynligheten (forekomst / ikke forekomst) av en sykdom S
HVA ER LOGISTISK REGRESJON?
19
Figuren illustrerer på et overordnet nivå hvordan man søker å forklare hvordan sannsynligheten for en sykdom avhenger av ulike variabler fra de ovennevnte hovedområdene som: x
Genetikk, kjønn, alder.
x
Livsstil (kosthold, fysisk aktivitet), fysisk miljø og sosioøkonomiske variabler.
Variabler som vi ikke kan gjøre noe med
Variabler som vi kan gjøre noe med, og / eller samfunnet kan gjøre noe La oss bruke hjerneslag som ett eksempel: For det første, hvordan avhenger sannsynligheten av hjerneslag av genetikk? Hvordan avhenger hjerneslag av direkte risikofaktorer som fysisk aktivitet, kosthold, alkohol og andre rusmidler, samt av sosioøkonomiske variabler som for eksempel stressnivå? Til slutt, hvordan avhenger hjerneslag av modifiserende faktorer som kjønn og alder? Endelig, kan hjerneslag avhenge av samspill mellom disse variablene? Spesielt samspill mellom en variabel vi kan gjøre noe med (fysisk aktivitet), og en variabel vi ikke kan gjøre noe med (genetikk). Dette samspillet kan i så fall reflektere epigenetikk. Det dreier seg om at genene kan oppfattes som et potensial av tilstander som kan endres avhengig av innflytelsen av eksterne variabler. For eksempel kan genene til eneggede tvillinger være noe ulike når de er 50 år, ut fra at de har endret seg på grunn av ulike eksterne variabler (for eksempel av ulik eksponering av sosioøkonomiske variabler).
Analyse av lav fødselsvekt: Som ett eksempel på å belyse en problemstilling innenfor medisin skal vi bruke en logistisk regresjonsmodell for å forklare sannsynligheten for lav fødselsvekt. Problemstillingen er sammenfallende med hendelsen vi skal belyse sannsynligheten for: Forklaringsvariabler: Morrelaterte variabler For tidlig fødsel (Ja , Nei) Høyt blodtrykk (Ja , Nei)
Lav fødselsvekt (Ja )
Dikotom variabel for lav fødselsvekt 1 dersom lav fødselsvekt
Urin-irritasjon (Ja , Nei)
Lav fødselsvekt (Nei )
LF = 0 dersom ikke lav fødselsvekt
Røyker (Ja , Nei)
Figur 2
Illustrasjon av en logistisk regresjonsmodell for å belyse morrelaterte variabler som kan influere på sannsynligheten (forekomst / ikke forekomst) av lav fødselsvekt
Formulering av en logistisk regresjonsmodell for denne problemstillingen og analyse av den er gitt i Eksempel 5: Analyse av lav fødselsvekt i Del 2.
20
INNFØRING I LOGISTISK REGRESJON
Eksempel på forklaring av sannsynligheten for en hendelse som springer ut fra en ordinal variabel. Lage en binær variabel for analyse av skattemoral ut fra en ordinal variabel World Value Survey (WVS) gjennomføres hvert 5 år i mange land. Den er ikke spesielt rettet mot å belyse skattemoral, men inkluderer dette spørsmålet som en ordinal variabel: x Rettferdiggjøre å unndra skatt (RUS) dersom mulighet foreligger: Kandidater til binære variabler for skattemoral 1 = alltid 2 3 4 5 6 7 8 9 10 = aldri
Bare 2 % svarer alltid rettferdiggjøre
Binær variabel for bra skattemoral (BSM) 1 dersom RUS = 6,7,8,9,eller 10 BSM = 0 dersom RUS = 1,2,3,4 eller 5
90 % svarer innenfor (6 , 10) Hele nær 50 % svarer aldri rettferdiggjøre
Tar hensyn til naturlige skillelinjer for skattemoral og fordelingen av svaralternativene, når vi definerer variabel som skal reflektere skattemoral. x Et naturlig skille er mellom de som aldri vil rettferdiggjøre og de øvrige. De kan ha vesentlige ulike holdninger. Derfor fokuserer vi på sannsynligheten for aldri å Å rettferdiggjøre (god skattemoral). x Et annet skille er mellom de som svarer midt på treet. Da fokuserer vi på sannsynligheten for bra skattemoral.
Binær variabel for god skattemoral (GSM) 1 dersom RUS = 10 (aldri rettferdiggjøre) GSM = 0 ellers; Dersom RUS = 1,2,…, eller 9 Denne som mest interessant?
Fra WVS undersøkelsen har vi funnet et potensial av forklaringsvariabler for skattemoral, som vi har inndelt i 7 hovedgrupper G1) Demografiske variabler (kjønn og alder) G2) Sosiale variabler (sivilstand og utdanning) G3) Religiøs tro G4) Variabler for livskvalitet (grad av tilfredshet med livet, grad av tilfredshet med finansiell situasjon) G5) Tillit til politikere og offentlige institusjoner / etater G6) Vektlegging av oppfatning om inntektsfordeling og om offentlig ansvar G7) Vektlegging av økonomisk vekst versus miljø Langs hovedgruppene G1‒G7 går det et skille mellom hvor permanente / varige de er, og hvor situasjonsbestemte de er. Således er det grunn til å anta at variablene innenfor G4‒G7 kan endres mer gjennom livsløpet enn for eksempel variablene innenfor G3.
Figur 3 Illustrasjon av en logistisk regresjonsmodell for å forklare sannsynligheten for god / bra skattemoral
Analyse av en logaritmisk regresjonsmodell for denne problemstillingen er gitt i Del 2 gjennom Eksempel 1: Analyse av skattemoral, og gjennom Eksempel 2: Analyse av skattemoral og samfunnsøkonomisk moral, og i Del 4: Modellstrategier i logistisk regresjon.
HVA ER LOGISTISK REGRESJON?
21
Eksempler på forklaring av sannsynligheten for en hendelse som er definert ut fra verdiområder på en kontinuerlig variabel for problemstillingen Varig oppnådd vektreduksjon etter livsstilskurs er ett eksempel på en problemstilling, hvor verdiområdet til den kontinuerlige variabelen prosentvis vektreduksjon etter kurs (VR) gir grunnlag for å definere en binær variabel for en logistisk regresjonsmodell.
x Problemstillingen: Gir livsstilskurs suksess? - Er vektreduksjonen ett år etter avslutning av kurset opprettholdt (VRO)? Binær variabel for å belyse problemstillingen 1 dersom VR er opprettholdt ett år etter fullført kurs VRO = 0 dersom VR ikke er opprettholdt ett år etter fullført kurs 1 dersom VR > 5 % er opprettholdt VRO = 0 dersom VR > 5 % ikke er opprettholdt
Uavhengige kontinuerlige variabler for karakteristikk av individet. (basert på faktor analyse for å redusere antall variabler).
Skår for: 1) 2) 3) 4) 5) 6) 7)
Strategi Selvovervåking God helseforståelse Tangegang Regularitet Positiv innstilling Motivasjon
Uavhengige kontinuerlige variabler for familieforhold
For eksempel
Forklare variasjonen i forekomst av: Vektreduksjon opprettholt ett år etter kursavslutning Vektreduksjon ikke opprettholdt ett år etter kursavslutning
Forklare variasjonen i vektredusjon
(basert på faktor analyse for å redusere antall variabler)
1) Familie støtte 2) Overvekt familie/venner
Forklare Sannsynligheten for varig vektreduksjon
Figur 4 Illustrasjon av en logistisk regresjonsmodell for å forklare sannsynligheten for suksess med livstilsskurs
Uavhengige kategoriske variabler Demografiske faktorer: 1) Kjønn 2) Alder Utdanning: x x x
Videregående Bachelor Master eller høyere
BMI ved kursstart: x x x
Normal vekt Overvekt Fedme
Holdning til kurs: 1) Følger kursråd (nei, delvis, ja) 2) Komplementære kurs (ja, nei)
En logistisk regresjonsmodell for denne problemstillingen om varig vektreduksjon og analyse av den er gitt i Del 2 gjennom Eksempel 4. Vektreduksjon.
22
INNFØRING I LOGISTISK REGRESJON
Et annet eksempel på en problemstilling hvor verdiområder til en kontinuerlig variabel gir grunnlag for å definere en binær variabel for en logistisk regresjonsmodell er uønsket nivå av ulike helseindikatorer.
Problemstillingen: Forklare uønsket nivå av ulike helseindikatorer i en populasjon a) Uønsket nivå av total kolesterol (TK) - TK > 240 mg/dl. b) Uønsket nivå av det gode kolesterol (HDL) - HDL < 40 mg/dl. c) Uønsket nivå av langtidsblodsukker (LB) - LB > 7,0 d) Uønsket nivå av systolisk blodtrykk (SBT) - SBT > 160 e) Uønsket nivå av diastolisk blodtrykk (DBT) - DBT > 90 Potensialet av forklaringsvariabler for å forklare sannsynligheten for uønskede nivåer av disse helseindikatorene er: kjønn, alder og bosted. Tar vi for oss det totale kolesterolnivået, måles det i mg/dl. Nedenfor følger verdiområdet for den kontinuerlige variabelen total kolesterol etter grad av ønskede verdier. Akseptabel
Ønsket verdi
Uønsket verdi
_____________________________________________________________ 200
240
Dikotom avhengig variabel for uønsket nivå på TK som TK > 240 mg/dl (HK). 1 dersom uønsket nivå TK = 0 ellers
Gir en kombinasjon av verdiene 1 og 0 for den avhengige variabelen Forklarer variasjonen i forekomst av: Total kolesterol (TK) > 240 Total kolesterol (TK) ≤ 240
Variasjonen i verdier / kategorier for: x Kjønn x Alder x Livsstil - Kosthold - Fysisk aktivitet x Sosioøkonomiske faktorer
Figur 5 Illustrasjon av en logistisk regresjonsmodell for å forklare sannsynligheten for uønskede nivåer av ulike helseindikatorer
HVA ER LOGISTISK REGRESJON?
23
Eksempel for å forklare sannsynligheten for en hendelse som springer ut fra konstruksjon av en begivenhet Innenfor økonomi og andre samfunnsfag er vi ofte interessert i å fokusere på en hendelse/begivenhet som springer ut fra en definisjon og konstruksjon av ett kriterium. La oss se på to eksempler. a) Sannsynligheten for at nyetablerte foretak innenfor en bestemt bransje skal oppnå suksess etter et bestemt antall år. For eksempel sannsynligheten for at et nyetablert foretak innenfor Facility Management skal oppnå suksess innen tre år. Avhengig variabel:
Uavhengige variabler
Konstruksjon av et samlet kriterium som er ett mål på suksess (S)
-
Ut fra verdier til en samling av økonomiske størrelser og eller kriterier V = (V1,V2, …Vk ,…,VK) Suksess dersom V er innenfor V * V * ,...,V * ,...,V *
1
k
K
x x x x
Et bestemt verdiområde av V
1 dersom V er innenfor kriterium for suksess S=
Størrelse Demografi Lokalisering Økonomiske størrelser for inntjening og utgifter
0 ellers 1 dersom V ϵ V* S= 0 ellers
V ϵ V*
b) Sannsynligheten for at utdanning øker sannsynligheten for et godt og meningsfullt liv Avhengig variabel: Konstruksjon av et samlet kriterium som er et mål på et godt liv (GL) - Ut fra verdier / kategorier til en samling av variabler (økonomiske og sosioøkonomiske variabler). 1 dersom GL er innenfor kriteriene for et godt liv
x x
GL =
Type utdanning Sosioøkonomiske faktorer - Sosialt nettverk etc.
0 ellers
Disse eksemplene viser: Et stort behov for å forklare sannsynligheter innenfor de fleste fagområder En modell / metode som vi kaller for logistisk regresjon, er egnet til dette. Vi skal snart forklare hva logistisk står for
24
INNFØRING I LOGISTISK REGRESJON
En best tilpasset relasjon til observasjonene Som i lineær regresjon skal vi finne en best tilpasset relasjon til observasjonene. Ut fra den funksjonelle formen som legges til grunn for logistisk regresjon, må vi benytte et helt annet prinsipp enn minste kvadraters metode for å gjøre dette. Nå kan vi ikke finne en lineær relasjon (en linje med en forklaringsvariabel) som er best tilpasset observasjonene. A) Matematikken som legges til grunn for å finne verdier til parameterne som korresponderer til forklaringsvariablene (og som forklarer avhengigheten) i den funksjonelle formen for logistisk regresjon, kalles for maximum likelihood (sannsynlighetsmaksimering på norsk). Denne matematikken er vanskeligere å forstå, enn matematikken for minste kvadraters metode i lineær regresjon. Den er heller ikke så lett å vise intuitivt. Samtidig er det viktig at man har en forståelse for hva man driver med; det vil si at man forstår hva som ligger bak prosessen for å estimere parameterne i den logistiske regresjonsmodellen. Imidlertid viser det seg at ett av resultatene fra sannsynlighetsmaksimeringen er relativt enkelt å fortolke. Det kommer av at vi direkte får ut hvor mye oddsen for en begivenhet B endres med som følge av en endring i en uavhengig variabel: B) Hvor mye oddsen–forholdet mellom sannsynligheten for B og sannsynligheten for ikke B ̶ endres med en uavhengig variabel; det vil si når en kontinuerlig variabel øker med en enhet, eller ved «overgang» fra referansekategori til en representativ kategori for en kategorisk variabel. Prinsippet for å finne den relasjonen som er best tilpasset observasjonene til samlingen av enhetene i undersøkelsen er svært ulikt mellom lineær regresjon og logistisk regresjon. Prinsippet for minste kvadraters metode er relativt enkelt å forstå intuitivt og geometrisk som den linjen (ved en uavhengig variabel) som har minst avstand til samlingen av observasjonene. Essensen i prinsippet for sannsynlighetsmaksimeringen er gitt i kapittel 5.2 Essensen i Maximum Likelihood-metoden. Utledningen av denne metoden er gitt i kapittel 5.3. Utledning av Maximum Likelihood-estimatoren. Det er også store forskjeller i prinsipper for hvordan endringer i uavhengige variabler influerer på den avhengige variabelen mellom de to modelltilnærmelsene.
Lineær regresjonsmodell: I en lineær regresjonsmodell uttrykker regresjonsparameteren til en kontinuerlig uavhengig variabel endringen (positiv eller negativ) av den avhengige kontinuerlige variabelen, når den kontinuerlige uavhengige variabelen øker med en enhet. - Denne endringen er uavhengig av verdien i utgangspunktet til den kontinuerlige variabelen og av verdiene til eventuelle andre kontinuerlige variabler, samt av kategoriene til eventuelle kategoriske variabler.
HVA ER LOGISTISK REGRESJON?
25
Regresjonsparamateren til en dikotom variabel (en dikotom variabel for en representativ kategori til en kategorisk variabel) uttrykker endringen (positiv eller negativ) i den uavhengige kontinuerlige variabelen når vi går fra referansekategorien til den representative kategorien. - Denne endringen er uavhengig av kategorien til eventuelle andre kategoriske variabler (dikotome variabler for representative kategorier for disse), samt av verdiene til de kontinuerlige variablene.
Logistisk regresjonsmodell Regresjonsparameterne til de korresponderende variablene i en logistisk regresjonsmodell har ikke en tilsvarende enkel fortolkning av effekten på sannsynligheten. Endringen i sannsynlighet (positiv eller negativ) ved en økning i en kontinuerlig variabel avhenger både av verdien til den kontinuerlige variabelen i utgangspunktet og av verdiene til andre kontinuerlige variabler, samt av kategorien til kategoriske variabler. Den logistiske regresjonsmodellen gir at parameteren til hver variabel kan omregnes til å uttrykke en enkel effekt på oddsen. Oddsen uttrykker sannsynligheten for at hendelsen B inntreffer delt på at sannsynligheten for at B ikke inntreffer. Hvis det for eksempel er like sannsynlig at B inntreffer som at den ikke inntreffer, er oddsen 0,5/0,5 = 1. En enkel effekt på oddsen forstår vi som at den er uavhengig av verdiene / kategoriene til variablene før endringen. Dette utdypes nedenfor: Relatert til oddsen uttrykker Eulers konstant (tallet e = 2,71828) opphøyd i regresjonsparameteren en faktor vi multipliserer oddsen med for å få effekten av en endring i en variabel. Følgelig: -
Når en kontinuerlig uavhengig variabel øker med en enhet, uttrykker Eulers konstant opphøyd i regresjonsparameteren for variabelen (eβ) den faktoren vi multipliserer oddsen med for å få oddsen etter økningen. Verdien på denne faktoren er uavhengig av verdien på den uavhengige kontinuerlige variabelen før økningen, og på verdiene til eventuelle andre kontinuerlige uavhengige variabler, samt av kategoriene til eventuelle kategoriske variabler.
-
Når vi går fra referansekategori til en representativ kategori for en kategorisk uavhengig variabel, uttrykker Eulers konstant opphøyd i regresjonsparameteren for den dikotome variabelen (eτ) den faktoren vi multipliserer oddsen med for å få oddsen etter overgang til referansekategorien. Verdien på denne faktoren er uavhengig av kategoriene til eventuelle andre kategoriske variabler, og av verdiene til de uavhengige kontinuerlige variablene.
Hvis regresjonsparameteren (logiten) for en variabel, er 0,69, er e0,69 ≈ 2. Koeffisienten forteller at oddsen for B dobles hver gang den uavhengige variabelen øker med 1 i verdi. Hvis oddsen i utgangspunktet er 1, vil den være 2, dersom den uavhengige variabelen er en verdi høyere. Vi kan oppsummere forskjellen mellom lineær regresjon og logistisk regresjon som følger:
26
INNFØRING I LOGISTISK REGRESJON
Lineær regresjon Avhengig variabel Y Numerisk og kontinuerlig: Ingen restriksjoner på verdier
Logistisk regresjon Avhengig variabel Dikotom variabel for en hendelse/begivenhet Reflekterer sannsynligheten (P) for at B inntreffer Restriksjon: P er innenfor (0 , 1) og odds > 1
Modellen består av tre relasjoner. Modellen består av en lineær relasjon mellom en kontinuerlig Logit: lineær relasjon i uavhengige variabler avhengig variabel Y og uavhengige variabler. Odds: Ikke-lineær relasjon i uavhengige variabler Sannsynlighet: Ikke-lineær relasjon i uavhengige variabler
Uavhengige variabler som kan inngå i begge modellene Kontinuerlige Kategoriske Kategoriske variabler med to kategorier: - En av kategoriene velges som referansekategori. - Den andre inngår som representativ kategori. - Dikotom variabel for representativ kategori. Den inngår som uavhengig variabel. Kategoriske variabler med K kategorier (K ≥ 3). - En av kategoriene velges som referansekategori. - De andre inngår som representative kategorier. - Dikotome variabler for hver av de representative kategoriene. De inngår som uavhengige variabler.
Lineær regresjon Enkelt å forstå teorien for å finne den lineære relasjonen som er best tilpasset observasjonene.
Logistisk regresjon Vanskelig å forstå teorien for å finne uttrykket for sannsynligheten som er best tilpasset observasjonene.
Finne den lineære relasjonen (en linje med en kontinuelig uavhengig variabel) som har minst avstand til samlingen av observasjonene ved Minste kvadraters metode.
Finne verdiene på konstantleddet og parameterne til de uavhengige variablene som maksimerer sannsynligheten (Maximum Likelihood) for å få observasjonene vi har fått som: For linjen Y = α + βX. Finne verdiene på parameterne α og β Utfallene (B , ikke B) og verdiene / kategoriene til de (som funksjon av observasjonene av X og Y) som gir den linjen uavhengige variablene samlet for observasjonene. som har minst avstand til samlingen av observasjonene.
Både enkelt og vanskelig å fortolke avhengigheten Enkelt å fortolke avhengigheten Kontinuerlig uavhengig variabel X
Enkelt å fortolke effekten på odds som Odds = P/(1-P) Komplisert å fortolke effekten på sannsynligheten P
Kontinuerlig uavhengig variabel X
X øker med en enhet: Det gir en konstant multiplikativ effekt på odds. Multipliserer odds verdien før økningen med en X øker med en enhet: Y øker / avtar med en fast størrelse. faktor. Den er uavhengig av verdien på X før økningen og av Den er uavhengig av verdien på X før økningen og av verdiene verdiene til andre kontinuerlige variabler og av kategoriene til eventuelle andre kontinuerlige variabler og av kategoriene til eventuelle kategoriske variabler. til kategoriske variabler. Endringen i sannsynligheten avhenger av verdiene / kategoriene til variablene før økningen.
Kategorisk uavhengig variabel Fra referansekategori til en representativ kategori. Y øker / avtar med en fast størrelse. Den er uavhengig av verdiene til kontinuerlige uavhengige variabler og av kategoriene til andre kategoriske variabler.
Kategorisk uavhengig variabel Fra referansekategori til en representativ kategori. Det gir en konstant multiplikativ effekt på odds. Multipliserer odds verdien for referansekategorien med en faktor. Den er uavhengig av verdiene til kontinuerlige variabler og av kategoriene til andre kategoriske variabler. Endringen i sannsynligheten avhenger av verdiene / kategoriene til variablene før økningen.
Figur 6: Forskjeller og likheter mellom en lineær regresjonsmodell og en logistisk regresjonsmodell
Del 1 Teorier for logistiske regresjonsmodeller
1. Kjernen i en logistisk regresjonsmodell I mange sammenhenger er vi interessert i å studere nærvær eller fravær av en begivenhet / hendelse som kan forekomme eller ikke, og om variabiliteten av nærvær / fravær av begivenheten avhenger av variabiliteten til andre variabler, så vel kvantitative som kvalitative. Vi er ute etter en modell som er egnet til å: x
Forklare variasjonen i sannsynligheten for en hendelse ut fra variasjonen i forekomst / ikke forekomst av hendelsen sett i forhold til variasjonen i verdiene til uavhengige kvantitative variabler og / eller variasjonen i kategoriene til uavhengige kvalitative variabler. (Dette er svært ulikt fra lineær regresjon som dreier seg om å forklare variasjonen i en kontinuerlig variabel.)
Eksempler på å forklare sannsynligheten for en hendelse som kan eller ikke kan inntreffe Nedenfor gir vi noen eksempler hvor vi beskriver en hendelse, en tilstand, et valg eller en kategori vi fokuserer på å forklare. a) Sannsynligheten for at en person får utviklet tykktarmskreft innen han / hun er 60 år. Variasjonen i genetikk, variabler for livsstil (kosthold, fysisk aktivitet) og i sosioøkonomiske variabler
b) Sannsynligheten for at den globale temperaturen stiger over 2 grader fra den industrielle revolusjon innen 2030 gitt at årlige utslipp globalt av CO2 fortsetter på 2018 nivå Naturvitenskapelig innsikt ut fra Gaia (teorier for samspillet mellom geosfære, hav, biosfære og atmosfære Geosfæren Hav Biosfæren Atmosfæren
Atmosfæren Global temperatur
Samspill mellom å avgi og ta opp CO2.
Menneskeskapte utslipp
c) Sannsynligheten for en flyulykke med et nordamerikansk, vesteuropeisk, afrikansk, østeuropeisk selskap. d) Sannsynligheten for en ulykke i det amerikanske romfartsprogrammet. - Challenger ulykken 28 januar 1986. Av 24 tidligere oppskytninger hadde 7 skader i tekniske komponenter. Dette er en klassisk situasjon på en binær respons: x Skade eller ikke skade
Faktorer for mestring av teknologi.
30
INNFØRING I LOGISTISK REGRESJON
e) Skattemoral -
Sannsynligheten for ikke å innberette korrekt avgiftspliktig omsetning Sannsynligheten for å innberette for lav avgiftspliktig omsetning
Faktorer for næring / bransje. Ulike holdninger etter bransje
f) Sannsynligheten for å tilhøre en bestemt kategori / gruppe - For eksempel sannsynligheten for kjønn til havskilpadder Kjønn til havskilpadder er bestemt av miljøbetingelser under perioden som egg, hvorav temperaturen synes å spille en vesentlig rolle
-
Faktorer som influerer på sannsynligheten for å tilhøre enn kategori
Sannsynligheten for at en person er veganer? Kjønn, alder, sosio økonomiske faktorer Sannsynligheten for at en person er rusmisbruker?
Kjernen i en logistisk regresjonsmodell Felles for logistiske regresjonsmodeller Vi søker å finne uavhengige variabler, hvor variasjonen i disse kan forklare sannsynligheten for en begivenhet / hendelse (som variasjoner i forekomst / ikke forekomst av hendelsen). Som avhengig variabel i en logistisk regresjonsmodell bruker vi: 1 dersom begivenheten / hendelsen vi fokuserer på inntreffer Avhengig dikotom variabel = 0 ellers Frekvensene av verdiene 1 og 0 reflekterer sannsynligheten for hendelsen / begivenheten.
I innledningen Hva er logistisk regresjon? viste vi eksempler på problemstillinger fra en rekke fagområder som var egnet for logistisk regresjonsanalyse.
Innføringsbøker og eksempler på anvendelser av logistisk regresjon: (Se referanser for fyldigere dokumentasjon.)
Blant innføringsbøker i logistisk regresjon trekker vi fram Hosmer og Lemeshow (1989), Draper og Smith (1981) og Scott (2010). En bok som også tar for seg mer avanserte emner med anvendelser, har vi i Menard (2000).
KJERNEN I EN LOGISTISK REGRESJONSMODELL
31
En bok som viser et bredt spekter av anvendelser av logistiske regresjonsmodeller er Hilbe (2015). Den dekker nøkkelpunktene i logistiske regresjonsmodeller, og illustrerer på en god og ryddig måte hvordan vi modellerer avhengigheten til en binær variabel. Den viser hvordan denne metoden kan brukes til å belyse problemstillinger og analysere data fra ulike områder som medisin- og helse utfall, forsikring, økonomi og transport, økologi og forvaltning av fiskepopulasjoner og astronomi. Tre gode innføringer på norsk finner vi hos Tufte (2000), Heldal (2006) og hos Hegre (2011).
Håndbøker i logistisk regresjon: En bok som kan tjene som en håndbok i logistisk regresjon og bruken av metoden, er McDonald (2014).
Anvendelse av logistisk regresjon i sjeldne hendelser: Logistisk regresjon er også brukt til å studere sjeldne hendelser. Dette er hendelser som inntreffer for eksempel i en av noen tusener ganger. Det kan dreie seg om sjeldne sykdommer eller epidemiologiske infeksjoner. Slike hendelser har vist seg vanskelig å forklare og predikere av to grunner. Logistisk regresjon kan brått underestimere sannsynligheten for sjeldne hendelser. For det andre er strategier for datainnsamling ofte ikke effektive for sjeldne hendelser. Bekymring for å få data med altfor få hendelser for den sjeldne hendelsen leder ofte til et svært høyt antall observasjoner, med dårlig målte forklaringsvariabler. Dette er redegjort for i King og Zeng (2001).
Anvendelse av logistisk regresjon i økologisk litteratur: Gode anvendelser av logistisk regresjon i økologisk litteratur finner vi i Connor (1994) og i Trexler og Travis (1993).
Anvendelse av logistisk regresjon i psykiatri: En anvendelse av logistisk regresjon i psykiatri finner vi i Fleiss mfl. (1986). Den avhengige binære variabelen reflekterer sannsynligheten for å være i en av to tilstander for psykisk helse som krever hvert sitt behandlingsopplegg. Således er den avhengige variabelen behandling med atferds orientert psykoterapi versus psykoanalytisk behandlingsopplegg.
Anvendelse av logistisk regresjon i studier av høyere utdanning: En anvendelse av logistisk regresjon i studiet av høyere utdanning finner vi i Peng mfl. (2002). Artikkelen undersøker bruken av logistisk regresjon i tre ledende tidsskrift for høyere utdanning fra 1988 til 1999. Et antall på 52 artikler ble identifisert som å bruke logistisk regresjon. Det var en økende tendens til sofistikert bruk av logistisk regresjon. På samme tid synes det å være noe forvirring omkring terminologien. Det ble ikke alltid brukt et tilstrekkelig stort utvalg for å oppnå et ønsket stabilitetsnivå på de estimerte parameterne.
2. Drøfting av modeller for ü forklare en sannsynlighet Til nü har vi fokusert pü problemstillinger innenfor ulike fagomrüder, hvor det oppstür et behov for ü forklare en sannsynlighet. Som beskrevet i innledningen til boken er det ikke rimelig ü anta at en slik avhengighet er lineÌr (som i lineÌr regresjon). Hensikten med dette kapitlet er nettopp ü begrunne at den funksjonelle formen for hvordan en sannsynlighet avhenger av en kontinuerlig variabel, er en spesiell kurverelasjon (det vil si en krum linje); nemlig en S- formet kurve.
En S- formet kurve er en modell som reflekterer godt mekanismen i hvordan en sannsynlighet avhenger av en kontinuerlig variabel Dersom vi kan begrunne dette substansielt, vil en lineÌr relasjon ikke vÌre en god avbildning av avhengigheten til en sannsynlighet. Siden vi ikke observerer sannsynligheter direkte, men kun nÌrvÌr / fravÌr av en begivenhet, legges den avhengige variabelen inn som en dikotom variabel (1 dersom begivenheten forekommer, 0 dersom den ikke forekommer). Denne dikotome avhengige variabelen reflekterer imidlertid sannsynligheten for at begivenheten skal inntreffe (som beskrevet i innledningen) Vi skal se hvordan dette i sin helhet bryter med antagelsene for en lineÌr regresjonsmodell. I kapittel 3. Eksempel pü sannsynlighetsregresjon utfører vi likevel en lineÌr regresjon med dikotom avhengig variabel som reflekterer sannsynligheten for hendelsen. En slik regresjonsmodell kalles for lineÌr sannsynlighetsregresjon. Eksemplet viser nettopp hvordan den ikke fungerer over hele verdiomrüdet til den uavhengige variabelen. Vi tydeliggjør først noen vesentlige forhold som karakteriserer en lineÌr regresjonsmodell.
Y E0 E1X W1D H ; hvor
(2.1)
Y er en kontinuerlig avhengig variabel, X er en kontinuerlig uavhengig variabel, D er en uavhengig dikotom variabel, og Îľ er feilleddet. Den observerte fordelingen av Y danner utgangspunktet for ĂĽ regne ut gjennomsnittet av Y. Det medfører at vi fĂĽr: 1) Regresjonsparameteren β1 er endringen i gjennomsnittsverdien til Y (positiv eller negativ), nĂĽr den uavhengige variabelen øker med en enhet. 2) Regresjonsparameteren Ď&#x201E; er endringen i gjennomsnittverdien til Y (positiv eller negativ), nĂĽr vi gĂĽr fra referansekategorien (D = 0) til representativ kategori (D=1). 3) Regresjonsparameteren β0 er gjennomsnittverdien til Y nĂĽr X = 0 og for referansekategorien (D = 0).
34
INNFĂ&#x2DC;RING I LOGISTISK REGRESJON
2.1 LineĂŚr sannsynlighetsregresjon I modellen (2.1) bytter vi Y med en dikotom variabel, for eksempel U for skatteunndragelse. 1 dersom skatteunndragelse
Representativ kategori
U= 0 ellers; dvs. dersom ikke skatteunndragelse
Referansekategori
Vi erstatter den lineĂŚre regresjonsmodellen (2.1) med modellen:
U E0 E1X W1D H ; hvor X er en kontinuerlig variabel for en økonomisk faktor. D en dikotom variabel for bransje tilhørighet.
(2.2)
Dette er vĂĽr modell ut fra lineĂŚr sannsynlighetsregresjon for ĂĽ forklare sannsynligheten for en skatteunndragelse
(Undersøkelser tyder pü at omfanget av skatteunndragelser i enkelte bransjer er sÌrlig høyt). Her har vi bare to bransjer, hvor den ene betegnes som referansebransjen (D = 0), og den andre som den representative bransjen (D = 1).
Siden den avhengige variabelen reflekterer en sannsynlighet, kalles modellen for lineÌr sannsynlighetsregresjon. For hver enhet (her: selskap eller person) legges skatteunndragelse inn som 0 eller 1 sammen med verdien for X og bransjetilhørigheten.
En lineĂŚr relasjon med en dikotom avhengig variabel kalles for en lineĂŚr sannsynlighetsregresjon. Frekvensene av 0 og 1 av U danner utgangspunktet for ĂĽ regne ut andelen som har verdien 1 pĂĽ den avhengige variabelen. For eksempel, anta at vi observerte 2 unndragelser av 10 selskaper. Gjennomsnittet av variabelen unndragelser U er:
U
0 0 0 0 0 0 0 0 1 1 2 10 10
0, 2 er andelen unndragelser
Tolkningen av regresjonsparameterne: Generelt har vi: Gjennomsnittet av en dikotom variabel med verdiene 0 eller 1, vil alltid vĂŚre andelen med verdien 1.
Ut fra tolkningene 1)â&#x20AC;&#x201C;3) av den lineĂŚre regresjonsmodellen (2.1) fĂĽr vi med U som avhengig variabel 1) Regresjonsparameteren β1 er økningen i andelen til U (positiv eller negativ), nĂĽr den uavhengige variabelen øker med en enhet. 2) Regresjonsparameteren Ď&#x201E;1 er en økning (skift) i andelen til U (positiv eller negativ), nĂĽr vi gĂĽr fra referansebransjen (D = 0) til representativ bransje (D = 1). 3) Regresjonsparameteren β0 er andelen til U nĂĽr X = 0 og for D = 0; dvs. for referansebransjen.
DRØFTING AV MODELLER FOR Å FORKLARE EN SANNSYNLIGHET
35
2.1.1 Konsekvensene av lineær sannsynlighetsregresjon Fra utledningen i (2.1) ser vi at sannsynlighetsregresjon svarer til lineær regresjon, hvor vi studerer endringer i et gjennomsnitt. Men alt er likevel ikke OK. Det kommer først og fremst av forholdene: F1) Reell funksjonell form er ikke lineær, som gir F2) Ingen garanti for at estimert / predikert P ligger mellom 0 og 1
Ingen garanti for at vi ikke får et meningsløst resultat
Hvorfor er sannsynligheter utenfor intervallet (0,1) meningsløse? En sannsynlighet på 0 innebærer at begivenheten med full sikkerhet ikke inntreffer. En sannsynlighet lavere enn 0 skulle innebære at vi kunne være enda sikrere enn helt sikre på at begivenheten ikke inntreffer, hvilket er meningsløst. Tilsvarende med sannsynligheter over 1. Disse ville innebære at vi kunne være mer enn helt sikre på at begivenheten inntreffer, hvilket også er meningsløst. Videre har vi brudd på standardforutsetningene om feilleddene i en lineær regresjonsmodell på grunn av: F3) Heteroskedastisitet; dvs. variansen til feilleddet ε avhenger av verdien på X. - Feilleddet ε i den lineære modellen for U gitt ved (2.2) har samme fordeling som U, og U er binomisk fordelt med variansen p(x)[1− p(x)]; det betyr at den avhenger av X fordi sannsynligheten avhenger av X. F4) Feilleddene er ikke normalfordelt.
36
INNFØRING I LOGISTISK REGRESJON
2.1.2 Nærmere om S-formet kurve som funksjonell form Det viser seg at mekanismen for innflytelsen av en uavhengig kontinuerlig variabel X på sannsynligheten for en begivenhet gir at sannsynligheten øker med X (gitt at sammenhengen er positiv) svarende til en S-formet kurve som illustrert i figuren nedenfor. Følgelig er kurven svært ulik den lineære funksjonelle formen som legges til grunn i lineær regresjon.
P som funksjon av X
Øker lineært med X
1
P
En matematisk betegnelse på en Sformet kurve er en logistisk kurve. Således kan vi si at den funksjonelle formen er logistisk. Vi skal snart se hva det innebærer. Da gir vi samtidig opprinnelsen til betegnelsen logistisk regresjon.
Maksimal helning for p = 0,5
a 0 0
Innenfor et begrenset område av X (område a) ser vi at avhengigheten tilnærmet svarer til en lineær relasjon; dvs. økningen i P når X øker med en enhet, er tilnærmet uavhengig av verdien til X.
Essensen i lineær regresjon: P skulle øke med en fast størrelse, når X øker med en enhet, uavhengig av nivå på X. Åpenbart ikke tilfellet for innflytelsen av X på sannsynligheten.
X
14
Vi tenker oss en underliggende mekanisme (en underliggende atferd, eller mekanisme i naturen) som influerer på at hendelsen inntreffer. Størrelsen av denne påvirkningen fordeler seg ulikt etter verdien på den uavhengige variabelen i utgangspunktet. Et eksempel er en læringsprosess. La X betegne innsatsen for å lære en ferdighet eller et fag, og P sannsynligheten for å mestre ferdigheten eller faget. Til å begynne med øker sannsynligheten for mestring lite med innsatsen X. Når innsatsen er kommet opp på et visst nivå, øker sannsynligheten for mestring mye og maksimalt med økende innsats. Deretter når, både innsatsen og sannsynligheten for mestring er kommet opp på et høyt nivå, vil en ytterligere større innsats bare gi en marginal økning i sannsynligheten for mestring. Figur 2.1 Illustrasjon av en S-formet kurve om sammenheng mellom sannsynlighet P for en hendelse og en uavhengig variabel X. Sannsynligheten for en hendelse øker med verdien på X, men økningen er ulik etter nivå på X
Figuren viser at økningen i Y som følge av en økning i X er minst i de to endene av halen på kurven; dvs. økningen ut fra en lav verdi på X, eller økningen ut fra en høy verdi på X.
DRØFTING AV MODELLER FOR Å FORKLARE EN SANNSYNLIGHET
37
Når X øker med en enhet i et område med lave verdier på X (hvor P er nær 0), øker P til å begynne med svært lite. Så tiltar økningen til å bli relativt stor og deretter forbli tilnærmet konstant og stor (maksimal) for et begrenset område (et mindre område av verdiene for X markert med a), for så gradvis å avta og flate helt ut for høye verdier av X (hvor P er nær1). Dersom vi har observasjoner innenfor område a, kan lineær regresjon brukes om en tilnærming innenfor dette området.
Vi bør merke oss at P aldri når grenseverdiene 0 eller 1 hhv; dvs. aldri når 0, når X blir svært liten, eller aldri når 1, når X blir svært stor. P vil nærme seg 0, men aldri nå 0. Analogt P vil nærme seg 1, men aldri nå 1. Matematisk skriver vi dette på følgende vis (for en variabel X som kan anta verdier > 0).
lim P = 1 X
∞
(2.3)
lim P = 0 X
0
Sannsynligheten kan avta med X: For mange fenomener kan vi ha at sannsynligheten for en begivenhet avtar med X, istedenfor å øke med X. Da får vi en S-formet kurve som er speilvendt av den foregående når P øker med X. Dette er vist i figuren nedenfor. Sannsynligheten P avtar med X 1
P
Sannsynligheten avtar åpenbart ulikt med en økning av X med en enhet, avhengig av nivået på X i utgangspunktet.
0 0
X
Figur 2.2 Illustrasjon av en speilvendt S-formet kurve om sammenheng mellom sannsynlighet P for en hendelse og en uavhengig variabel X. Sannsynligheten for en hendelse avtar med verdien på X, men nedgangen er ulik etter nivået på X
38
INNFØRING I LOGISTISK REGRESJON
Når X øker med en enhet i et område med lave verdier av X (hvor P er nær 1), avtar P til å begynne med svært lite. Så tiltar reduksjonen i P til å bli relativt stor og deretter forbli konstant og stor (maksimal) for et begrenset område av X, for så gradvis å avta mindre med X, for så å flate helt ut for høye verdier av X (hvor P er nær 0). (Se ellers kommentarene til kurven i Figur 2.1, hvor P øker med X.) La oss se på noen fenomener som reflekterer en mekanisme i avhengigheten til en sannsynlighet som gir en S-formet kurve eller en speilvendt S-formet kurve. Dette gir også en god begrunnelse for den logistiske kurven.
2.1.3 Begrunnelse for en logistisk kurve En S-formet kurve eller en speilvendt kurve av denne: En S-formet kurve som følge av en læreprosess: Hvordan sannsynligheten for å mestre en ferdighet avhenger av innsatsfaktoren X (for eksempel antall timer opplæring), følger gjerne en S formet kurve svarende til den i figur 2.1. x x x
Til å begynne med går læreprosessen langsomt. Når man så har kommet opp på et visst nivå, kan mestringen øke raskt med opplæring Til slutt vil den øke langsomt med opplæringen, sannsynligheten for å mestre oppgaven nærmer seg 1.
En speilvendt S-formet kurve for skatteunndragelse: Sannsynligheten for en form for unndragelse av skatt kan avhenge av for eksempel omfanget av ulike former for tiltak (kontrolltiltak, informasjonstiltak etc.), og denne sammenhengen kan følge en logistisk kurve svarende til den i figur 2.2 (Speilvendt av den S-formede kurven i figur 2.1). x x x
Til å begynne med avtar sannsynligheten for unndragelse langsomt med tiltakene. Når så omfanget av kontrolltiltak eller informasjonsmengden har kommet opp på et visst nivå, kan sannsynligheten for unndragelse avta raskt og maksimalt med tiltakene. Deretter vil den avta langsomt med ytterligere økt kontroll eller informasjonstiltak. Noen få personer er vanskelig å nå. De har en holdning om alltid å rettferdiggjøre skatteunndragelse dersom de har mulighet for det. De vurderer unndragelse ut fra risikoen ved unndragelse som er produktet av sannsynligheten for å bli oppdaget og konsekvensen dersom de blir oppdaget.
En speilvendt S-formet kurve for sykdom: Det er godt dokumentert at visse former for kreft (for eksempel tykktarmskreft), ved siden av en genetisk faktor, også i stor grad avhenger av livsstilsfaktorer. Det dreier seg om kost, mosjon og sosioøkonomiske faktorer, og eventuelle samspill mellom disse. Sannsynligheten for en kreftform kan avhenge av omfanget av bestemte former av disse livsstilsfaktorene,
DRØFTING AV MODELLER FOR Å FORKLARE EN SANNSYNLIGHET
39
svarende til den logistiske kurven i figur 2.2. Undersøkelser indikerer særlig at høyt inntak av rødt kjøtt øker sannsynligheten for tykktarmskreft. Verdens helseorganisasjon (WHO) har gått gjennom 100 studier, og skiver følgende om kreftrisikoen i sin rapport: En metaanalyse av tykktarmskreft i ti studier rapporterte en signifikant sammenheng med 17 % økning i risiko per 100 gram rødt kjøtt daglig, og 18 % økning i risiko per 50 gram bearbeidet kjøtt daglig. x x x
Til å begynne med avtar sannsynligheten for sykdommen langsomt med endringene i livsstil. Når endringene har kommet opp på et visst nivå, kan sannsynligheten for sykdommen avta raskt. Deretter vil den avta langsomt med endringer i livsstilsfaktorene.
En speilvendt S-formet kurve for flyulykker: Fly er en svært sikker form for transport. Det gjelder særlig de vesteuropeiske og nordamerikanske selskapene. En stadig forbedring av flysikkerheten for disse selskapene har medført at sannsynligheten for en ulykke nå nærmer seg 1 av 10 millioner flygninger. Det arbeides med å få denne sannsynligheten for ulykker ytterligere ned. Men det synes svært vanskelig å oppnå dette, fordi vi er til høyre i kurven i figur 2.2. En annen sak er at afrikanske og østeuropeiske selskaper relativt sett har en flerdoblet risiko, svarende til at vi må multiplisere oddsen for ulykke med et vesteuropeisk selskap med omlag 20 for å få oddsen for ulykke for et afrikansk selskap. (Oddsen er her sannsynligheten for ulykke delt på sannsynligheten for ikke ulykke) I kapittel 4. Konstruksjon av en logistisk regresjonsmodell redegjør vi nærmere for oddsen og hvordan den inngår i en logistisk regresjonsmodell. Kan vi transformere en slik S-formet funksjonell sammenheng til en lineær relasjon? I regresjonsanalyser har vi ofte at mekanismer i naturen eller i atferd kan reflektere en kurvesammenheng istedenfor en lineær sammenheng. Lineær regresjon kan håndtere slike sammenhenger. For eksempel dersom sammenhengen i utgangspunktet er eksponentiell, kan vi transformere den til en lineær relasjon ved hjelp av transformerte variabler, og deretter bruke teorien for lineær regresjon på den transformerte modellen. Det kan vi dessverre ikke gjøre, når den avhengige variabelen i utgangspunktet er en sannsynlighet representert ved en dikotom avhengig variabel. Altså: x
Vi kan ikke transformere en sannsynlighetsregresjon til en lineær regresjonsmodell.
Den alvorligste innvendingen mot lineær sannsynlighetsregresjon er likevel: x
Vi har ingen garanti for at predikert Y ikke faller utenfor [0 , 1]; dvs. ingen garanti for at vi ikke får et meningsløst resultat.
40
INNFØRING I LOGISTISK REGRESJON
2.2 Om brudd på de statistiske forutsetningene Den binære naturen til den dikotome avhengige variabelen som antar verdien 0 eller 1, medfører at de statistiske antagelsene vi legger til grunn for den lineære regresjonsmodellen, ikke er oppfylt. En lineær regresjonsmodell forutsetter at feilleddene er fordelt homoskedastisk. Det innebærer at variasjonen omkring regresjonslinjen er uavhengig av verdien på den uavhengige variabelen. Således, for hver X er fordelingen av avvikene omkring den estimerte linjen den samme; dvs. fordelingen av avstanden mellom observert verdi og den predikerte Y er den samme for enhver verdi av X.
Ved sannsynlighetsregresjon: Heteroskedastisitet (fremfor homoskedastisitet) Ved sannsynlighetsregresjon får vi at: x Feilleddet i en sannsynlighetsregresjon følger den binomiske fordelingen, og ikke normalfordelingen som legges til grunn i lineær regresjon. x
Variansen til en binomisk variabel er ikke konstant. Anta det er en sannsynlighet p(x) for at begivenheten B skal forekomme, for enheter med verdien x for X. Anta at n enheter har verdien x. Da er: Var X = n p(1 − p) = p(x)[1 − p(x)].
Medfører at standardantagelsen om homoskedastisitet (konstant varians) ikke er oppfylt. Vi får heteroskedastisitet.
Følgelig avhenger variansen av p.
Dette illustrerer vi grafisk i figuren nedenfor. Figur 2.3 nedenfor illustrerer tilpasningen av en linje (sannsynlighetsregresjon) til observasjoner av enheter med ulike verdier av X (avhengig variabel), og hvor vi for hver enhet for en dikotom variabel D legger inn verdien 0 dersom en begivenhet B ikke forekommer, og 1 dersom den forekommer. 1 dersom B forekommer D= 0 dersom B ikke forekommer
DRØFTING AV MODELLER FOR Å FORKLARE EN SANNSYNLIGHET
41
1 0,9 0,8 0,7
D
0,6 0,5
Liten P for B gir få enheter med D =1 og mange med D = 0.
Mange enheter med forekomst av B
Samme sannsynlighet for B eller ikke B. Forventer like mange enheter med D = 1 som med D = 0.
Var D = 10·0,1·0,9 = 0,95
Var D = 10·0,9·0,1 = 0,95
Var D =10·0,5·0,5 =1,59
0,4 0,3 0,2
Mange enheter uten forekomst av B
0,1
Får maksimal varians når det er lik sannsynlighet for B og ikke B
Stor P for B gir mange enheter med D = 1 og få med D = 0 Gir liten varians
0
x1
P(B|x1) = 0,1
X
x2
x3
P(B|x2 ) ) = 0,5
P(B|x3) ) = 0,9
For hver av de tre x-verdiene har enhetene de tre ulike sannsynlighetene 0,1 , 0,5 og 0,9 hhv. for begivenheten B. Vi antar 10 observasjoner for hver av disse tre verdiene. De mørklagte sirklene illustrerer forventet antall enheter med forekomst og ikke forekomst hhv. av hendelsen. Figur 2.3
Illustrasjon av at betingelsen om konstant varians på feilleddet i lineær sannsynlighetsregresjon ikke er oppfylt
Med dette har vi vist: x
Når vi har en avhengig dikotom variabel, vil den betingede variansen til feilleddet avhenge av nivået på den uavhengige variabelen X, fordi P avhenger av X, og dermed avhenger variansen av X. - Vi får ulik varians for hver av de ulike sannsynlighetene etter verdien på uavhengig variabel X.
Dette er en form for heteroskedastisitet som ikke kan bli løst med transformasjoner, slik som vi kan i lineær regresjon. Dette kan antagelig håndteres ved estimering av robuste standardfeil. Problemet med robuste standardfeil er at de ikke er effektive, selv om de er robuste.
42
INNFØRING I LOGISTISK REGRESJON
Ikke normalfordelte feilledd: x
Feilleddene til en dikotom variabel følger den binomiske fordelingen istedenfor normalfordelingen. Medfører at standardantagelsen om normalfordelte feilledd ikke er oppfylt
Hvor alvorlige er bruddene på standardantagelsene? Så vel heteroskedastisitet som ikke normalfordelte feilledd ødelegger ikke betingelsen om forventningsrette estimatorer for parameterne. Den medfører imidlertid: x
Estimatoren til regresjonsparameterne har ikke lenger ønskede fordelingsegenskaper. Grunnlaget for konfidensintervall og t-tester og F-tester som vi bruker i regresjonsanalysen, er ikke oppfylt.
Igjen, dette kan antagelig takles ved å estimere robuste standardavvik. Følgelig er ikke dette den mest alvorlige innvendingen mot lineær sannsynlighetsregresjon. Som tidligere nevnt, den alvorligste innvendingen mot å bruke sannsynlighetsregresjon er at denne modellen ikke reflekterer den funksjonelle formen og at vi kan få meningsløse verdier på predikerte sannsynligheter; dvs. en predikert sannsynlighet < 0 eller > 1. Før vi går i gang med å utlede en modell som er egnet til å reflektere mekanismen bak en S formet kurve som reflekterer mekanismen for avhengigheten til en variabel X, går vi gjennom et eksempel på lineær sannsynlighetsregresjon. Vi vil se at vi faktisk lett får predikerte verdier utenfor (0,1), samt heteroskedastisitet og ikke normalfordelte feilledd som illustrert ovenfor.
Hvor er vi så langt? Det er åpenbart at en lineær regresjonsmodell ikke er en egnet modell for å: x Reflektere mekanismen i avhengigheten til en sannsynlighet, og vi har gitt: x Begrunnelser for at essensen i denne avhengigheten best kan modelleres med en S-formet kurve (eller en speilvendt S-formet kurve). Vi kan lett få et meningsløst resultat som en en predikert sannsynlighet utenfor [0,1], dersom vi modellerer avhengigheten til en sannsynlighet med en lineær modell. Da er tiden inne for å konstruere en modell som: x Nettopp gir oss garanti for at vi ikke får predikert en sannsynlighet utenfor [0,1]. Det tar opp i kapittel 4, men først viser vi at sannsynlighetsregresjon nettopp gir ingen garanti for et meningsløst resultat.
Boken gir en fullstendig beskrivelse av verktøy for bygging av logistiske regresjonsmodeller, testing og vurdering av modeller og tolkning av effektmål. Presentasjonen er pedagogisk og gir rom for tilpasset undervisning slik at den egner seg på både bachelornivå, masternivå og ph.d.-nivå, spesielt innenfor helsefag. Den er også egnet innenfor fag som økonomi, statsvitenskap, psykologi og sosiologi, samt i analyse av samfunnsrisiko. I tillegg egner boken seg for forskere som benytter eller ønsker å sette seg inn i denne analyseformen.
ISBN 978-82-450-2322-0
,!7II2E5-acdcca!
Innføring i logistisk regresjon
Boken har fire deler. Første del gjennomgår teorien for logistisk regresjon. Her behandles tankegangen bak logistisk regresjon, innholdet i formler, hvordan de er bygd opp, og tolkningen av resultater fra utførte analyser. Modeller med samspill er viet stor plass. Del 2 gjennomgår flere eksempler fra ulike fagområder som helse, økonomi og samfunnsfag. Del 3 presenterer modeller for analyse av kategoriske variabler med mer enn to nivåer. Multinomisk logistisk regresjon håndterer avhengige variabler på nominalnivå, mens rangert (ordinal) logistisk regresjon håndterer avhengige variabler på ordinalnivå. Del 4 tar opp prosessen med å utarbeide en «beste modell», ulike typer effektmål og en metode for justering for tilleggsvariabler.
Fugleberg Småstuen Tufte
Boken gir en grundig presentasjon av logistisk regresjonsanalyse. Forfatterne kombinerer teori og praktisk analyse på en måte som man i liten grad finner i andre – norske eller utenlandske – bøker om emnet. Spesielt for boken er at den matematiske formidlingen av teorien for logistisk regresjonsanalyse er kombinert med visuelle fremstillinger og forklaring i teksten. Boken skiller seg også fra andre bøker på området gjennom det store innslaget av praktiske eksempler fra ulike fagområder. I tillegg viser boken hvordan analyser gjøres i både SPSS og Stata.
Ole Albert Fugleberg Milada Cvancarova Småstuen Per Arne Tufte
Innføring i logistisk regresjon Med eksempler på analyse
Ole Albert Fugleberg er cand.oecon. og cand.real. med hovedfag i statistikk fra Universitetet i Oslo. Han har lang og bred erfaring fra undervisning i statistikk på bachelor- og masternivå fra Handelshøyskolen BI og OsloMet – Storbyuniversitetet (tidligere Høgskolen i Oslo og Akershus) og har tidligere skrevet en lærebok i regresjonsanalyse. Han har anvendt statistiske metoder på ulike problemstillinger innenfor energiøkonomi, landbruk og fiskeoppdrett og innenfor helse, samfunn og risiko. Disse forskningsarbeidene har resultert i over 50 publikasjoner, hvorav flere i internasjonale tidsskrifter. Milada Cvancarova Småstuen er født i Praha, har studert anvendt matematikk ved Universitetet i Oslo og har en ph.d. i anvendt biostatistikk/epidemiologi fra Det medisinske fakultet samme sted. Hun har bred erfaring som foreleser både på masternivå og ph.d.nivå og har vært med på å starte ph.d.programmet i Folkehelse (Public Health) ved OsloMet – Storbyuniversitetet. Hun er medforfatter på nesten 200 publikasjoner innenfor medisinsk og samfunnsvitenskapelig forskning. Per Arne Tufte er siviløkonom fra BI og dr.polit. i sosiologi fra Universitetet i Oslo. Han er førsteamanuensis ved OsloMet – Storbyuniversitetet, og har bakgrunn som forsker ved Statens institutt for forbruksforskning (SIFO) og Senter for profesjonsstudier (SPS). Han har i en årrekke undervist i forskningsmetoder ved Universitetet i Oslo og flere høgskoler i Norge og har skrevet flere sentrale lærebøker innenfor samfunnsvitenskapelig forskningsmetode.