Innføring i GIS og statistikk, 2. utgave

Page 1

2. UTGAVE Foto: Rita Hokseggen

INNFØRING I GIS OG STATISTIKK

Det finnes få norske statistikkbøker med et geografisk perspektiv. Denne boka forsøker å fylle dette tomrommet ved å inkludere statistikk og GIS i ei og samme bok, for ofte er det nødvendig å vite noe om begge deler. Skal man lage et tematisk kart, forutsetter det innsikt i grunnleggende statistikk, og har man gjort en statistisk analyse, ønsker man gjerne å presentere resultatene i et kart.

JAN KETIL RØD

Dette er ei innføringsbok i statistikk og geografiske informasjonssystemer (GIS). Dette er kunnskapsområder som er etterspurt i både privat og offentlig virksomhet, og som anvendes i de fleste akademiske disipliner. Boka passer for alle som ønsker å vite noe om hvordan en samler inn, beskriver og presenterer geografisk informasjon i form av tall, kart og bilder, og den er aktuell som pensumbok innen geografi, geologi, biologi, ingeniøremner, samfunnsfaglige emner, helsefag, arkitektur og planlegging.

JAN KETIL RØD

JAN KETIL RØD

INNFØRING I GIS OG STATISTIKK VERKTØY FOR Å BESKRIVE VERDEN

ISBN 978-82-450-2023-6

,!7II2E5-acacdg!

er professor innen geografisk informasjonsvitenskap ved Institutt for geografi, Norges teknisknaturvitenskapelige universitet (NTNU). Han er utdannet sivilingeniør fra NTNU med spesialisering innen geomatikk (GIS, kartografi og fjernanalyse), og har siden studert humanistiske fag, samfunnsfag og tatt doktorgrad i geografi. Ved Institutt for geografi underviser han i statistikk, kartografi, GIS, fjernanalyse og bruk av geografisk informasjonsteknologi i feltbasert undervisning. Hans forskning omhandler blant annet temaer som effekter av klimaendringer, byplanlegging og væpnede konflikter.



Innføring i GIS og statistikk



Jan Ketil Rød

Innføring i GIS og statistikk Verktøy for å beskrive verden 2. utgave


Copyright © 2017 by Vigmostad & Bjørke AS All Rights Reserved ISBN: 978-82-450-2023-6 1. utgave 2009 Grafisk produksjon: John Grieg, Bergen Grafisk formgivning: Type-it AS, Trondheim Omslagsdesign ved forlaget Boken er utgitt med støtte fra Lærebokutvalget for høyere utdanning. Forfatteren har mottatt støtte fra Det faglitterære fond. Spørsmål om denne boken kan rettes til: Fagbokforlaget Kanalveien 51 5068 Bergen Tlf.: 55 38 88 00 Faks: 55 38 88 01 e-post: fagbokforlaget@fagbokforlaget.no www.fagbokforlaget.no Materialet er vernet etter åndsverkloven. Uten uttrykkelig samtykke er eksemplarfremstilling bare tillatt når det er hjemlet i lov eller avtale med Kopinor.


Forord Denne boken gir en innføring i grunnleggende verktøy for å beskrive verden vi lever i. Geografer har til alle tider vært opptatt av å beskrive og registrere miljøet rundt oss og menneskene som lever der. Det samme kan sies om personer med annen faglig bakgrunn, for geografisk beskrivelse av bestemte fenomener i omgivelsene er viktig i en rekke sammenhenger. En biolog kan være interessert i habitatbetingelser for bestemte arter, en arkeolog kan være interessert i hva som kjennetegner eksisterende funn av tidligere bosetninger for å sannsynliggjøre hvor nye funn av bosetninger kan finnes, og en statsviter kan ønske å kartlegge hvilke faktorer som medvirker til at væpnede konflikter oppstår eller vedvarer. Geografi spiller uansett en rolle, og for å kunne beskrive og/eller besvare disse problemstillingene behøves noen verktøy. Denne boken er ment som en første innføring i de verktøy (metoder og teknikker) som kan anvendes på geografiske problemstillinger. Manuskriptet bygger hovedsakelig på forelesninger i et bacheloremne som jeg i flere år har undervist i ved Institutt for geografi ved NTNU. Emnet heter Geografi i praksis: Statistikk, kart og bilder. Boken har særlig tre typer verktøy i fokus: statistikk, kartografi og fjernanalyse. I dag er alle disse tilgjengelig fra geografiske informasjonssystemer (GIS). Statistikk, kartografi og fjernanalyse er verktøy som geografer og andre gjerne benytter for å belyse eller løse problemer der lokalisering spiller en rolle. Egentlig er det få problemstillinger der geografisk lokalisering ikke er relevant. Det finnes en rekke lærebøker som gir gode introduksjoner til fagområdene statistikk, kartografi og fjernanalyse brukt i GIS, men både jeg og studentene har savnet en lærebok som kombinerer alle områdene i én bok. Boken du nå holder i hånden, er ment å fylle dette tomrommet. Målgruppen for boken er geografistudenter og alle andre som jobber med problemstillinger med et geografisk perspektiv.


6 · Innføring i GIS og statistikk

Siden bokens førsteutgave har jeg lagt til to nye kapitler. Dette er kapitlene om spørreundersøkelser (kapittel 4) og om kartografisk kommunikasjon og geografisk visualisering (kapittel 11). De øvrige kapitlene er revidert, med fornyede eksempler, og de fleste figurene er nå gjengitt i farger. I dag skjer all flyfotografering i Norge digitalt, noe som har effektivisert ortofotoproduksjonen. LIDAR har dessuten for alvor blitt en flybåren datafangstmetode, og nye aktuelle satellitter har blitt satt i bane siden bokens førsteutgave. Kapittel 3 om datafangst fra fly og satellitt har inkludert disse endringene. Kapitlene om statistikk er utvidet med flere eksempler på hvordan en kan utføre statistiske tester av signifikans. Emnet samvariasjon er nå plassert i kapittel 10, og dette er noe utvidet for å inkludere bivariat regresjon og enkel residualanalyse. Statistisk sentralbyrå har siden førsteutgaven tilrettelagt mye data for rutenett (som alternativ til administrative enheter som kommuner eller grunnkretser). Dette er beskrevet med et avsnitt om rutenettkart i kapittel 12. Siden sist har jeg også etablert YouTube-kanalen Verktøy for å beskrive verden,1 der korte kunnskapsklipp (deler av forelesninger) og enda kortere demoklipp (om hvordan man utfører diverse operasjoner med GIS og statistisk programvare) legges ut. I boken er det i margen plassert QR-koder til flere av disse kunnskapsklippene. I margen her er QR-koden for websiden som angis i fotnoten. I resten av boken vises kun QR-koden, men i appendikset finner du en oversikt over alle QR-kodene og deres webadresse. Til bokens førsteutgave fikk jeg flere nyttige kommentarer fra Erik R. Sund, Frank R. Haugan, Wenche Larsen, Ragnvald Larsen, Gunhild Setten, Geir Vatne, Zan Strabac og Diana van der Meer. Jeg er fremdeles meget takknemlig for disse. Til denne andre utgaven er jeg spesielt takknemlig for alle figurene som Tomasz Opach har laget, og for innspill fra Svein Åge Relling. Takk også til Canada Centre for Remote Sensing, Kartverket, Trondheim kommune, Michael Jones og Miljødirektoratet for å ha gitt meg rettigheter til å bruke deres figurer. Om du oppdager noen feil eller har synspunkter på denne boken, positive så vel som negative, hører jeg gjerne fra deg. Trondheim, mars 2017 Jan Ketil Rød Institutt for geografi, NTNU jan.rod@ntnu.no 1

URL-en til denne er: https://www.youtube.com/channel/UC7R0yZ3nQfBes3AY6ItJn1A


Innhold Kapittel 1 Introduksjon 1.1 1.2 1.3

Statistikk, kartografi og fjernanalyse Fra positivisme til pragmatisme Samfunnsrelevante verktøy

Kapittel 2 Geografiske data 2.1 2.2 2.3 2.4 2.5 2.6

Datatabell Målenivå Geografiske enheter Topografiske kart versus temakart Diskrete og kontinuerlige representasjoner Oppsummering

Kapittel 3 Datafangst fra fly og satellitter 3.1 3.2 3.3 3.4 3.5 3.6 3.7

Grunnlaget for bildedannelse Tradisjonell flyfotografering Ortofoto Digital flyfotografering Satellittbilder LIDAR Oppsummering

Kapittel 4 Spørreundersøkelser 4.1 4.2 4.3

Innledning Variabler i analytiske spørreundersøkelser Trinn i en spørreundersøkelse

11 11 12 14 19 20 22 28 31 32 33 35 36 42 48 50 52 58 60 63 63 64 65


8 · Innføring i GIS og statistikk

4.4 4.5 4.6 4.7

Hva slags informasjon kan vi få fra spørreundersøkelser? Utforming av spørreskjema Utforming av spørsmål Oppsummering

Kapittel 5 Teknikker for å presentere tabelldata 5.1 5.2 5.3 5.4

Tabeller og diagram for å vise frekvenser Stolpediagrammer Stablet arealdiagram Oppsummering

Kapittel 6 Kartprojeksjoner og koordinatsystemer 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8

Jordas form Projeksjon Geografiske koordinater Trinn i kartprojeksjonen Tre metoder for kartprojeksjoner Egenskaper ved kartprojeksjoner Plane referansesystemer Oppsummering

Kapittel 7 Deskriptiv statistikk 7.1 7.2 7.3 7.4

Mål på sentralitet Mål på spredning Romlig sentraltendens Oppsummering

Kapittel 8 Sannsynlighetsmodeller 8.1 8.2 8.3 8.4 8.5 8.6

Sannsynlighet Binomisk fordeling Poissonfordeling Normalfordeling Kjikvadratfordeling Oppsummering

Kapittel 9 Generaliserende statistikk 9.1 9.2 9.3 9.4

Hypotese Utvalg og populasjon Konfidensintervall Oppsummering

72 74 76 79 81 84 90 90 91 93 93 95 95 96 97 100 109 112 115 116 120 125 130 131 131 134 138 144 151 152 155 155 157 159 165


Innhold

Kapittel 10 Samvariasjon og bivariat regresjon

·9

167 167 170

10.1 10.2 10.3

Hvorfor samvarierer to variabler? Korrelasjonskoeffisienter og målenivå Samvariasjon av to dikotome variabler (nominalnivå)

171

10.4

Samvariasjon med polykotome variabler (nominalnivå)

178

10.5 10.6 10.7 10.8

Samvariasjon mellom variabler på ordinalnivå Samvariasjon mellom variabler på intervall-/forholdsnivå Regresjonsanalyse Oppsummering

181 186 188 194

Kapittel 11 Kartografisk kommunikasjon og geografisk visualisering 197 11.1 11.2 11.3 11.4

Kartografisk kommunikasjon Grafisk semiologi Geografisk visualisering Oppsummering

Kapittel 12 Typer av temakart 12.1 12.2 12.3 12.4 12.5 12.6

Korokromatiske kart Prikkekart (kart med enhetssymboler) Koropletkart (skravurkart) Kart med flateproporsjonale punktsymboler Isolinjekart Oppsummering

Kapittel 13 Kartetikk 13.1 13.2 13.3 13.4 13.5 13.6 13.7

Kartsensur Stedsnavn og minoritetsgrupper Bruk av kart i politisk propaganda og fredsmekling Forføreriske illustrasjoner Kart i naturens tjeneste Kvalitetskontroll av klasseinndelte skravurkart Oppsummering

Appendiks Illustrasjonskilder Referanser Stikkordregister

198 200 211 214 217 218 219 225 239 241 244 245 246 247 250 252 254 256 262 265 272 273 283



Kapittel 1

Introduksjon 1.1

Statistikk, kartografi og fjernanalyse

Verktøyene som presenteres i denne boken, kan sortere under tre temaer: 1) statistikk, 2) kartografi og 3) bruk av fly- og satellittbilder (fjernanalyse), som alle er verktøy tilgjengelig fra geografiske informasjonssystemer (GIS). Vanligvis skilles det mellom kvantitative og kvalitative metoder. Noe grovt kan vi skille mellom dem ved at kvantitative metoder baserer seg på numeriske data, mens kvalitative metoder baserer seg på ikke-numeriske data. Opplevd virkelighet, som for eksempel opplevelse av trygghet, er et av mange eksempler på fenomener som er vanskelig å tallfeste, og som det derfor er fordelaktig å studere ved hjelp av kvalitative metoder. Statistikk baserer seg på numeriske data og er derfor en kvantitativ metode. GIS har tradisjonelt vært mest brukt sammen med kvantitativ metode. I løpet av de siste tiårene har imidlertid GIS også blitt mye brukt sammen med kvalitativ metode, for eksempel bruk av deltagende GIS for å kartlegge lokal kunnskap. I denne boken vil kvantitative metoder stå i fokus, men mye av stoffet vil også være relevant innenfor en kvalitativ kontekst. Ordet geografi kommer fra to greske ord: geo, som betyr planeten Jorda, og graphein, som betyr å skrive eller beskrive. Selv om ordet geografi i dag kan ha mange betydninger, og fagdisiplinen omfatter mange retninger, var dette en rådende betydning av geografi på 1500-tallet. Det var en periode med flere oppdagelsesreiser, og det var mye «nytt» land som skulle beskrives. Kartografi var en del av denne klassiske geografien, idet


12 · Innføring i GIS og statistikk

kart både ble benyttet til navigasjon og som supplement til beskrivelsene av de nye landområdene. Metodene for å tegne kart var basert på ulike landmålingsteknikker, men etter hvert som teknologien ble utviklet, baserte man seg på bilder. Fotografiet ble oppfunnet i 1839, og allerede året etter foreslo direktøren ved observatoriet i Paris å benytte fotografi til topografisk kartlegging. Det første kjente fotografiet tatt fra luften mot bakken ble gjort av den parisiske fotografen Gaspard-Félix Tournachon. Bildet ble tatt fra ballong. I 1908 ble fly for første gang benyttet som kameraplattform. Sensorteknologien ble kraftig forbedret utover 1960-tallet, da bildedannende sensorer ble mer eller mindre standardutstyr på værsatellitter, og på 1970-tallet kom jordressurssatellitter, som gjorde ressurskartleggingen mer effektiv (Lillesand, Kiefer & Chipman, 2015). Kartleggingsprosessen er i dag digital og automatisert, blant annet ved hjelp av geografiske informasjonssystemer (GIS). I motsetning til kartografi har statistikk en langt kortere fartstid innen geografifaget. Først omkring 1950 begynte geografer å ta i bruk statistikk. Til gjengjeld var oppslutningen så massiv at dette siden er blitt kalt «den kvantitative revolusjon». Noen tiår senere, da en ble oppmerksom på begrensningene ved statistiske teknikker, begynte oppslutningen å avta, og flere alternative retninger innen geografifaget fikk økt tilslutning. Det var en sunn reaksjon. Det er absurd å tro at ethvert geografisk problem kan løses statistisk, og å mene at om noe ikke kan kvantifiseres, er det ikke verdt vår oppmerksomhet. Fra 1970- og 1980-årene ble de kritiske røster mot kvantitative tilnærminger og særlig mot datidens bakenforliggende vitenskapssyn, positivismen, stadig flere. Det positivistiske vitenskapssyn er et naturvitenskapelig vitenskapsideal. Akkurat som naturvitenskapen søker å finne lover for hvordan naturen fungerer, skulle en innen samfunnsvitenskapene (inkludert samfunnsgeografi) prøve å finne de lovene som styrer samfunnet, og som gjør oss i stand til å forutsi og forklare menneskelige handlinger. Andre kjennetegn ved positivismen er at den kun anerkjenner empiri som grunnlag for erkjennelse. Viten må med andre ord baseres på observerbare data. Alt som ikke kan måles, kan dermed heller ikke studeres. Positivismen innebærer også en tro på at vitenskapen kan være objektiv og verdinøytral.

1.2

Fra positivisme til pragmatisme

Geografer har alltid vært opptatt av det romlige, men geografene som utførte kvantitative studier på 1970-tallet, og som regnet seg som positivister, ønsket å gjøre dette med naturvitenskapelige metoder, da de mente


Kapittel 1 Introduksjon

· 13

det var nødvendig for å vitenskapeliggjøre geografi som romlig vitenskap. To av de verkene som regnes som viktige i denne sammenheng, Haggetts Locational Analysis in Human Geography (1965) og Harveys Explanation in Geography (1969), manglet vitenskapsfilosofiske refleksjoner. De ble da også kritisert for ensidig å rette søkelys mot metodologiske problemstillinger. Resultatet av denne kritikken kan vi spore i andre utgave av Locational Analysis in Human Geography (Haggett, Cliff & Frey, 1977), som inkluderte et lite avsnitt om positivisme. I dette avsnittet sies det at bokens hensikt er å formidle positivistiske perspektiver. Positivisme ble definert som a philosophical approach which holds that our sensory experiences are the exclusive source of valid information about the world. This attitude developed in the natural sciences (like physics) but has been borrowed by geographers working in social science areas. A positivistic approach leads to the discussion of human behaviour in terms of analogies drawn from the natural sciences. (Haggett mfl., 1977, s. 23)

Med Harvey, Haggett og flere ble det naturvitenskapelige vitenskapsideal og fremgangsmåte (som den hypotetisk-deduktive metode) forsøkt overført til geografi for å forklare samfunnsfenomener. Som nevnt i Haggett mfl.s definisjon var en positivistisk tilnærming å trekke analogier fra naturvitenskapen og anvende dem i studier av menneskelig adferd. Et eksempel på en analogi til naturvitenskapen var sammenhengen mellom Newtons gravitasjonslov og migrasjon, som det trekkes frem flere anvendelser av i Haggett mfl. (1977). I løpet av 1970-tallet ble positivisme og forsøket med å etablere geografi som romlig vitenskap utsatt for sterk kritikk. Kritikken kom hovedsakelig fra to hold: fra humanistene, som hevdet at mennesket var glemt eller redusert til en mekanisk gjenstand som kun reagerer på stimuli, og fra marxistene, som hevdet at geografi som romlig vitenskap hadde mislyktes i ambisjonen om å være forklarende. Også i dag kritiseres den kvantitative tilnærmingen til faget, men ofte ut fra forståelsen av at den har vært uforandret siden 1970-tallet. Dessverre settes det altfor lett likhetstegn mellom kvantitativt baserte studier og positivisme. Kritikere av GIS har også stemplet GIS som positivistisk i den tro at det er en revitalisering av 1970-tallets forsøk på å etablere geografi som en romlig vitenskap. Selv om GIS blant annet kan sees på som et barn av den såkalte kvantitative revolusjonen, må det påpekes at kvantitative metoder og/eller GIS ikke bare benyttes av positivister, og anvendelsen av kvantitative metoder og/eller GIS gjør ikke et undersø-


14 · Innføring i GIS og statistikk

kelsesopplegg positivistisk. De viktigste kjennetegnene på et positivistisk undersøkelsesopplegg er at det er en lovsøkende vitenskap med en tro på at både forskeren og forskningen kan være objektiv og verdinøytral. Ifølge Schuurman (2004, s. 29) er det veldig lite GIS-basert forskning som kan karakteriseres som positivistisk. Schuurman hevder at pragmatisme er en mye bedre vitenskapsfilosofisk etikett for GIS enn positivisme. Pragmatisme (fra gresk pragma, som betyr handling) er en retning av filosofien som hovedsakelig er utviklet av amerikanske tenkere som hevdet at filosofien var blitt virkelighetsfjern. Som alternativ skulle pragmatismen være en praktisk filosofi rettet mot å løse reelle problemer. En pragmatiker tror ikke det finnes verdinøytral forskning, men ser i stedet på forskning som et instrument for å løse problemer. En idé eller en teori er av pragmatikere definert som en plan for handling. Ikke alle handlinger fører til ønskede resultater, og dette gir pragmatikerne en mulighet til å definere sannhet: En idé som fører til de ønskede konsekvenser, er sann, men hvis ideen medfører uønskede konsekvenser, er den usann. Vi kan aldri på forhånd vite om en idé er sann eller ikke. Kunnskap får vi av erfaring – etter at vi har handlet, og når vi har sett konsekvensen av handlingen. Dette er et av kjennetegnene ved pragmatismen som skiller den fra positivismen. Ifølge Dewey, som var en av de fremste talsmenn for pragmatismen, er det galt å hevde at kunnskap består i å oppdage en virkelighet som eksisterer forut for og uavhengig av vår erkjennelse (Dewey, 1929). Et annet kjennetegn som skiller pragmatismen fra positivismen, er hvilke problemstillinger som undersøkes. Mens en positivist vil se etter lovmessige generelle mønstre, vil en pragmatiker forsøke å finne lokale, praktiske løsninger. Siden GIS så ofte benyttes innen planlegging generelt og lokaliseringsbeslutninger spesielt, er dette en av grunnene til at Schuurman vitenskapsteoretisk anser GIS som pragmatisk. Spørsmålet «Hvor skal vi legge den nye banen for forstadstoget?» er ikke positivistisk, men pragmatisk (Schuurman, 2004, s. 30).

1.3

Samfunnsrelevante verktøy

Denne boken tar utgangspunkt i at statistikk, kartografi og fjernanalyse er meget nyttige redskap å beherske for den som skal beskrive verden eller deler av verden, og for å finne løsninger på geografiske problemstillinger. Da må du ha en fremgangsmåte, og det finnes ulike fremgangsmåter som passer ulike problemstillinger. Om statistikk, kart eller bilder er verktøy du bør benytte, vil avhenge av problemstillingen eller hva du trenger å vite. Målet med boken er å gi en første innføring i GIS og kvantitative


Kapittel 1 Introduksjon

· 15

metoder, og at du ved hjelp av denne boken skal vite tilstrekkelig til å ha en kritisk holdning overfor både eget og andres arbeid, enten dette er basert på statistikk, kart eller bilder. I mange geografiske undersøkelser eller forskningsprosjekter, for eksempel en masteroppgave, er en del av arbeidet utført ved hjelp av kvantitative metoder for å beskrive studieområdet. Beskrivelse kan være i form av kart og tabeller, der for eksempel ulike egenskaper ved noen kommuner (som befolkningsstruktur og næringsstruktur) illustreres. Det er sannsynlig at du en gang vil ha behov for å anvende kvantitativ metode, selv om du i hovedsak benytter kvalitative metoder. Og selv om du kanskje aldri kommer til å benytte deg av kvantitative metoder, kan det godt hende at du må vurdere andres kvantitative arbeid. En viss innsikt i kvantitative metoder og et tillært begrepsapparat er nødvendig for å kunne ha en understøttet kritisk holdning til faglitteratur som er basert på kvantitative metoder. Skolering innen metode er dermed avgjørende for å kunne være kritisk til egne og andres forskningsresultater, men også for å kunne gjennomføre en masteroppgave, et forskningsoppdrag, en utredning, en kartlegging og liknende. Da jeg studerte kartografi og fjernanalyse tidlig på 1990-tallet, var geografiske informasjonssystemer (GIS) en nisjeteknologi først og fremst for «kartfolket», som nok ble betraktet som ganske nerdete av andre. I dag er dette endret: Geografisk informasjonsteknologi som geografiske informasjonssystemer (GIS) og globale posisjoneringssystemer (GPS) er blitt allemannseie og er allestedsnærværende. Et eksempel på dette er Pokémon Go, som ble veldig populært sommeren 2016. Pokémon Go er en såkalt augmented reality app, som bruker GPS for å angi din egen posisjon og GIS for å representere omgivelsene rundt deg. Den utvidede virkeligheten innebærer at du plutselig treffer på noen Pokémon-figurer som du skal fange. Ved NTNU bruker flere institutter tilsvarende teknologi for feltbasert undervisning. I stedet for å jakte på Pokémon-figurer jakter vi på interessante elementer i landskapet. Et annet eksempel på at GIS og verktøyene statistikk, kartografi og fjernanalyse har fått et bredt fotfeste i samfunnet, er den store variasjonen i stillingsannonser der GIS-kompetanse etterspørres. Siden mars 2016 har jeg hatt liggende et søk på Finn.no på alle stillingsannonser der det etterspørres GIS-kompetanse. I løpet av et år hadde jeg samlet 233 stillingsannonser – 67 innen privat virksomhet og 166 innen offentlig virksomhet. Jeg vil ikke hevde at dette er en fullstendig oversikt, men det er likevel oppsiktsvekkende stor variasjon i stillingstitlene for annonsene, noe ordskyen i figur 1.1 viser.


16 · Innføring i GIS og statistikk

Figur 1.1 Ordsky med stillingstitler i stillingsannonser på Finn.no der GISkompetanse etterspørres (i tidsrommet mars 2016–mars 2017)

Når vi skal beskrive verden, behøver vi data om verden, som i boken kalles for geografiske data, som vi vil gå nærmere inn på i kapittel 2. Geografiske data deler flere kjennetegn med andre, ikke-romlige data, men har også en del særegenheter, som behandles i senere kapitler i denne boken. I kapittel 3 og 4 presenteres tradisjonelle datainnsamlingsmetoder, basert på henholdsvis fly- og satellittbilder (kapittel 3) og spørreundersøkelser (kapittel 4). I kapittel 5 beskrives de vanligste teknikkene for å presentere tabelldata (særlig frekvensoversikter) i ulike typer diagrammer. For alle som skal jobbe med geografiske data i et geografisk informasjonssystem, er det essensielt å kjenne til kartprojeksjoner og koordinatsystemer, og dette presenteres i kapittel 6. Uansett om en kun skal lage kart for presentasjonsformål, eller om en skal måle og gjøre analyser basert på geografiske data, er det viktig å kjenne til hvordan kartprojeksjoner innfører feil. Kapitlene 7, 8, 9 og 10 handler om statistikk. Kapittel 7 gir en innføring i deskriptiv statistikk. Om du ikke allerede er vant med statistiske mål for sentralitet og spredning, håper jeg du er det etter å ha lest dette kapittelet. Kapittelet gir også en innføring i romlig sentraltendens. Begrepet sannsynlighet må inkluderes i en bok om statistikk, og dette behandles i kapittel 8. Noen vanlige sannsynlighetsmodeller presenteres med flere geografirelevante eksempler. Siden dette er en bok om verktøy for å beskrive verden, er emnet å forklare verden – generaliserende statistikk – begrenset til kapittel 9. Kapittel 10 omhandler mål for samvariasjon og når disse bør benyttes. Kapittel 11 tar opp tråden fra kapittel 5 om presentasjon av tabelldata, men med mer vekt på kartografisk kommunikasjon og geografisk visualisering. Kapittel 12 presenterer karttyper som er vanlig å benytte for å presentere geografiske data: korokromatiske kart, koropletkart, prikkekart, flateproporsjonale kart og isolinjekart. En fellesbenevnelse som ofte benyttes for disse karttypene er statistiske kart.


Kapittel 1 Introduksjon

· 17

Som sagt er utgangspunktet mitt å formidle kunnskap om noen nyttige verktøy for å beskrive verden. Dessverre er det alltid en fare for at statistikk, kart og bilder forsøkes brukt til propagandaformål for å fremme bestemte verdenssyn. Du kjenner kanskje uttrykket «å lyge med statistikk», som illustrerer et viktig poeng: Tall er ikke nødvendigvis objektive sannheter. Svakheter ved et tallmateriale kan lett skjules, slik at det er meget enkelt å lyge med kart. Særlig enkelt er det med statistiske kart. I boken vil du derfor også finne en del eksempler på hvordan disse verktøyene kan misbrukes, og det siste kapittelet, kapittel 13, er helt og holdent viet dette temaet.



Kapittel 2

Geografiske data Data er målbare eller kategoriserbare faktaopplysninger. Om disse opplysningene er stedfestet, kaller vi dem geografiske data. Data er ikke det vi vet, men de opplysninger vi har representert på en slik måte at det egner seg til analyse og presentasjon, slik at vi kan få vite mer og formidle dette videre til andre. Geografiske data har to komponenter: romlige data og beskrivende data (se figur 2.1). Romlige data har en posisjon – en stedfesting – og en geometrisk form: punkt, linje eller flate. Et punkt kan være GPS-posisjonen til et intervjuobjekt, en linje kan være en veistrekning, og en flate kan være en administrativ enhet. Romlige data er tilknyttet beskrivende data

Figur 2.1

Geografiske data (tilpasset fra Bjørke, 1987)


20 · Innføring i GIS og statistikk

– kvalitative og/eller kvantitative. Kvalitative data – eller nominaldata – sier noe om forskjellighet – som kjønn på intervjuobjektene eller navn på kommuner. Kvantitative data sier noe om størrelsesforhold, slik som alder på et intervjuobjekt eller folkemengde i en kommune. Kvantitative data kan være på ulike presisjonsnivå, som vanligvis angis som ordinal, intervall eller forhold. Disse presisjonsnivåene kalles også for målenivå, og det er vanlig å inkludere nominalnivået som det laveste målenivået (selv om det strengt tatt ikke er snakk om en måling). Vi skal behandle målenivå grundig senere, men la oss først se litt på hvordan det er vanlig å organisere geografiske data i henholdsvis romlige data og egenskapsdata (Bjørke, 1987). Vi skal da først kun se på organiseringen av egenskapsdata, det vil si høyre del av figur 2.1 som gjelder data generelt, ikke bare geografiske data.

2.1

Datatabell

Det er mange måter å organisere data på. I de fleste kvantitative undersøkelsesopplegg benyttes det datatabeller. Datatabellen sammenfatter tre grunnleggende begreper, nemlig enhet, variabel og variabelverdi. Enheter er undersøkelsesobjektene eller deltagerne og kan være enkeltindivider, kommuner eller land. Enheten har mange egenskaper – enkeltindivider kan karakteriseres med egenskapene kjønn, alder, utdanning etc. En kommune kan karakteriseres med egenskaper som folkemengde, areal, sysselsatte i ulike næringer, etc. En slik egenskap kaller vi for variabel. Hver variabel har to eller flere mulige verdier. Dersom egenskapen kun kan anta én verdi, omtaler vi dette som en konstant, ikke som en variabel. Med variabel forstår vi altså en egenskap som ikke inntar samme verdi for alle enheter som undersøkes. I datatabellen lagres vanligvis variabler som kolonner og enheter som rader. Figur 2.2 viser et tenkt eksempel på en datatabell med svarene til fire personer som deltok i en spørreundersøkelse. Av hensyn til personvern lagres aldri navnene til undersøkelsespersonene, kun en identifikator (ID) som gjør det mulig å skille personene fra hverandre. Figur 2.2 viser tre registrerte egenskaper: kjønn, alder og hvilket politisk parti vedkommende stemte på ved siste stortingsvalg (PolParti). Disse egenskapene kalles altså variabler, og hvert avgitt svar, for eksempel at personen med ID = 1 stemte SV ved siste stortingsvalg, kalles variabelverdier. En bestemt variabelverdi kan også være kode for at den egentlige verdien mangler («missing value»), for eksempel fordi et spørreskjema ikke var fullstendig utfylt. Et undersøkelsesopplegg tar ofte utgangspunkt


Kapittel 2 Geografiske data

Figur 2.2

· 21

Datatabell – individdata

i data som er samlet inn for et utvalg av enkeltindivider, som i eksempelet over. Utforming av spørreskjemaer vil behandles i kapittel 4. Datatabeller som representerer svarkategorier fra spørreundersøkelser, inkluderer ofte geografiske variabler som dermed stedfester dataene. For eksempel kan en ha med bostedskommune, men det er også eksempler på mer presis stedfesting ved hjelp av posisjoneringsutstyr ved intervjuundersøkelser (se boks 2.1).

Boks 2.1

Programmet for befolknings- og helseundersøkelse

Programmet for befolknings- og helseundersøkelse (Demographic and Health Surveys (DHS)) samler inn, analyserer og forvalter nøyaktige og representative data basert på mer enn 300 undersøkelser i mer enn 90 land. Et utvalg av husholdninger velges ut for å representere hele landet i en slik befolknings- og helseundersøkelse. Ved hjelp av spørreskjema samles det inn data om helse, ernæring og velferd. Siden begynnelsen av 1990-tallet har undersøkelsesenhetene blitt stedfestet, det vil si registrert med geografiske koordinater. Dette har skjedd enten ved at intervjuerne registrerte posisjon ved hjelp av håndholdte GPS-mottagere, eller ved at posisjonen er blitt bestemt i etterkant ved hjelp av stedsnavnsregister. Dermed kan DHS-data bli samregistrert med andre geografiske data, som lokal infrastruktur (gater og elver) samt andre miljømessige betingelser. Ved å studere stedfestede DHS-data i kombinasjon med andre geografiske data kan en for eksempel forbedre tiltak for familieplanlegging, vurdere sammenheng mellom forekomst av malaria og blodmangel hos barn i Vest-Afrika og analysere hvordan miljø innvirker på barnedødelighet. Stedfestede DHS-data benyttes i Verdensbankens studier om levestandard og Verdens Helseorganisasjons (WHO) helseundersøkelser (http://dhsprogram.com/).


22 · Innføring i GIS og statistikk

2.2

Målenivå

Variabelverdier kan bestemmes og angis på ulike presisjonsnivå eller målenivå (scales of measurement). Dataenes presisjonsnivå bestemmer hvilke statistiske analysemetoder vi kan benytte, hvilke konklusjoner det er mulig å trekke, og hvilke karttyper som er egnet for å presentere dataene. Fremdeles benyttes de fire hierarkiske nivåene som Stevens (1946) identifiserte: nominal, ordinal, intervall og forhold. Som jeg skal vise mot slutten av kapittelet, er bruk av disse målenivåene problematisk ved måling av flere geografiske fenomener.

2.2.1

Nominalnivå

Nominalnivået er det enkleste av de fire nivåene. På dette nivået klassifiseres enhetene i kategorier. Dette lave målenivået, som egentlig ikke representerer noen måling, har imidlertid bred anvendelse i mange sammenhenger, for eksempel inndeling etter kjønn (mann/kvinne), spørreskjema av typen ja/nei, for eller imot EU osv., for å ta noen eksempler der enkeltindivider utgjør enhetene. Kategoriene som skal brukes, bør ha følgende egenskaper: • Kategoriene må være mange nok, slik at hver observasjon kan klassifiseres. Ingen observasjon bør forbli uklassifisert. Om vi i en undersøkelse av folkeavstemning for eller imot medlemskap i EU kun opererer med to kategorier, ja eller nei, vil vi ikke være i stand til å klassifisere alle observasjonene, da det vil være flere som ikke avgir stemme, eller som stemmer blankt. I slike tilfeller er det behov for en tredje kategori for å klassifisere alle observasjoner. • Kategoriene må være gjensidig uavhengige. Dette betyr at ingen av observasjonene kan tilordnes mer enn én kategori (klasse). For kjønn er dette enkelt, da enhver person må være i en av kategoriene mann eller kvinne (eller et tredje kjønn). Kriteriet for kategorisering/klassifisering er den logiske egenskapen «likhet». To parseller med land kan sies å være like dersom deres hovedanvendelse er den samme, for eksempel dersom begge er skogbruksområder. Notasjonen «likhet» betyr imidlertid ikke «identisk». Skogbruksområder kan variere med hensyn til antall trær, prosent tredekning, osv. De konklusjoner en kan trekke på grunnlag av nominale variabler, er begrenset til utsagn om likhet/ulikhet med hensyn til en bestemt variabel. En kan ikke si noe om forhold mellom størrelser, og informasjonen


Kapittel 2 Geografiske data

· 23

i variabelen kan derfor ikke manipuleres matematisk. Selv om variabelen kan uttrykkes med tall (for eksempel 1 = ja til EU, 2 = nei til EU), kan den ikke brukes i en matematisk operasjon; 2 − 1 gir ingen mening. Tallene brukes utelukkende som forkortet navn på kategorier (nomen = navn), det vil si til identifikasjon.

2.2.2 Ordinalnivå

Ordinalnivået er et mer sofistikert mål enn nominalnivået. På ordinalnivået kan en i tillegg til utsagn om likhet/ulikhet også plassere klassene i en rangert orden. Måling på ordinalnivå gir en rangering av objekter i minst to klasser, men uten at klassegrensene er bestemt ved en kvantitativ størrelse. • Da jeg gikk på ungdomsskolen, ble det benyttet en karakterskala som er et eksempel på ordinal variabel: Lite godt – Nokså godt – Godt – Meget godt – Særdeles godt. Her kan vi slutte en rekkefølge av enhetene (Meget godt er for eksempel bedre enn Godt). Siden klassebredder og klassegrenser ikke er bestemt, kan en ikke si at avstanden mellom Særdeles godt og Meget godt er mindre enn avstanden mellom Godt og Lite godt. Dette kan vi ikke slutte, siden skalaen som enhetene er rangordnet etter, ikke har noen målestokk. • Klassifikasjon av topografi i klassene høyland og lavland er et annet eksempel på en ordinal variabel. Definisjonen av disse to klassene gir informasjon om klassens høyde over havnivå, slik at det er mulig å trekke slutningen at høyland er høyere enn lavland. Relatert til egenskapen «høyde over havet» skårer høyland mer enn lavland. Analyse av ordinaldata er særlig viktig i spørreundersøkelser (se kapittel 4) der for eksempel holdninger undersøkes. Ett eksempel er fra en markedsundersøkelse der intervjuobjektene skulle ta stilling til utsagn som • å handle gir meg anledning til å treffe venner • gitt et valg mellom gode butikker og gode parkeringsmuligheter, ville jeg valgt å handle der det er gode parkeringsmuligheter • jeg foretrekker å gjøre all min handling en gang i uken • jeg foretrekker å gjøre all min handling på ett sted fremfor å gå fra butikk til butikk • at handleturen kan skje effektivt og raskt, er meget viktig for meg


24 · Innføring i GIS og statistikk

Svarene kan kategoriseres i fem klasser: • • • • •

meget enig enig verken enig eller uenig uenig meget uenig

1 2 3 4 5

Disse fem klassene er kvalitativt relatert; hver klasse representerer et bestemt nivå av enighet. Om flere av dem som deltar i spørreundersøkelsen svarer likt på et av spørsmålene, betyr det ikke nødvendigvis at de har identiske holdninger. Forbrukere som har valgt samme svaralternativ, kan ha gjort det av forskjellige grunner, og de kan ha tolket spørsmålet fra ulike perspektiver. Vi får informasjon om hvordan besvarelsene fordeles innenfor de fem kategoriene, men vi vet ingenting om hvorfor en bestemt informant svarer som hun eller han gjør. Videre, selv om vi kan angi at det er en rekkefølge i kategoriene, kan vi ikke si at differansen mellom klassene av enighet er like, eller at skalaen er symmetrisk om den midterste klassen. Ut fra ordinale klasser får vi ingen informasjon om den relative avstanden mellom klasser. De kan for eksempel være likt fordelt langs et kontinuum av enighet, slik som i figur 2.3a, eller de kan være markant skjeve med de fleste klassene samlet i én ende, slik som i figur 2.3b.

2.2.3

Intervallnivå

For data på intervallnivå vet vi avstanden mellom enhetenes klasser fordi enhetene er rangordnet på en ekvidistant skala med kvantitativt bestemte målepunkter. En ekvidistant skala innebærer at målepunktene har en konstant avstand, slik som centimetermarkeringene på en linjal. Siden intervallnivået benytter en ekvidistant skala, skiller intervallnivået seg altså fra ordinalnivået ved at avstanden mellom klassene er kjent. Intervalldata er karakterisert ved at: • det er mulig å plassere observasjonene i klasser (likhetsegenskap) • det er mulig å rangere klassene (ordinal egenskap) • det er mulig å beskrive avstanden eller intervallet mellom klassene Et eksempel på en intervallvariabel er temperatur målt i celsius. Den ekvidistante skalaen variabelen måles mot, er Celsius’ temperaturskala.


Kapittel 2 Geografiske data

Figur 2.3

· 25

Ordinale svarkategorier

For enheter til en variabel på intervallnivå kan vi trekke slutninger som at den ene temperaturverdien er større eller mindre enn en annen. Dessuten kan en ved intervallvariabler sammenlikne differanser. Her kan man si at temperaturforskjellen fra 10 til 20 ºC er større enn forskjellen mellom 23 og 30 ºC. Derimot har det ingen mening å si at 40 ºC er dobbelt så varmt som 20 ºC. Måleskalaen for intervalldata mangler nemlig absolutt nullpunkt (nullpunktet 0 ºC, vannets frysepunkt ved ett atmosfæretrykk, er tilfeldig valgt) – se figur 2.4.

2.2.4 Forholdsnivå

Her blir enhetene rangordnet på en ekvidistant skala med absolutt nullpunkt. Dermed kan vi også beregne forholdet mellom variabelverdier. Kelvin-temperaturskalaen, som har utgangspunkt i det absolutte nullpunkt, –273,15 ºC, er et eksempel på en forholdsvariabel. Med temperaturer målt i kelvin vil utsagn som «40 ºK er dobbelt så varmt som 20 ºK» gi mening (se figur 2.4). Et annet eksempel er måling av personers vekt. Siden nullpunktet for forholdsvariabelen er absolutt, kan vi komme med utsagn som «Per er dobbelt så tung som Pål». Ofte skilles det ikke mellom nivåene intervall og forhold, og det er sjelden en ser andre eksempler enn temperatur målt i celsius for intervallnivået,


26 · Innføring i GIS og statistikk

Figur 2.4

Forskjell mellom intervall- og forholdsdata

slik som tidsangivelser og høydeangivelse – tidsangivelse fordi valget av Greenwich-meridianen (se kapittel 6) som utgangspunkt for måling av tid kan betraktes som tilfeldig, og høydeangivelse fordi den vil variere avhengig av hvilket datum en tar utgangspunkt i. Datum er en modell av jorda som en blant annet bruker for å definere middelvannstand, utgangspunktet for høyde 0.

2.2.5 Absolutte og relative forholdsdata

Forholdsdata kan både være absolutte tall og relative tall. Relative tall er absolutte tall som er relatert til andre datasett. Dette gjør vi for å gjøre data mer nyttige, for ved å relativere absolutte data setter vi dataene inn i en kontekst. Det er to hovedtyper av relative data (Kraak & Ormeling, 2003, s. 112): tetthet og andel uavhengig av areal. Det mest kjente tetthetsmålet er nok populasjonstetthet – et mål som oppstod etter teoriene til Thomas Robert Malthus (1766–1834). Populasjonstetthet er forholdet mellom totalbefolkning og areal: [2.1] Den andre hovedtypen av relative tall – andel uavhengig av areal – uttrykker forholdet mellom to datasett, slik som forholdet mellom et utvalg av befolkningen og den totale befolkningen. I tabell 2.1 er variabelen Pop_0_14 et eksempel på nettopp dette: forholdet mellom befolkning som er 14 år eller yngre, og total befolkning:


Kapittel 2 Geografiske data

· 27

[2.2] Relative data benyttes ofte i geografiske undersøkelser der en ønsker å sammenlikne regioner, som for eksempel: • Urbaniseringsgrad (andel av befolkningen i et land eller annet geografisk område som er bosatt i tettsteder eller byer) kan benyttes for å beskrive ulike typer samfunnsutvikling (for eksempel sentraliseringstendens). • Sysselsettingsandel (andel av befolkningen som er sysselsatt) kan benyttes for å gi et bilde av hvor stort trykket er i arbeidsmarkedet. • Legedekning (antall leger per 1000 innbyggere) kan benyttes som en indikator på velferdsnivå.

2.2.6 Andre nivåer

Flere har argumentert for at Stevens’ (1946) fire målenivåer er utilstrekkelig for mange geografiske anvendelser.2 Et foreslått tilleggsnivå for geografiske data er syklisk eller periodisk nivå. Et eksempel på dette er måling av vindretning eller hvor vinden kommer fra. Dette er vanlig å angi som himmelretning eller, mer presist, asimutgrader (se figur 2.5). Om du har vindretningsmålinger fra Meteorologisk institutt – for eksempel daglige målinger – som du ønsker å benytte for å finne gjennomsnittlig dominerende vindretning, vil du ha problemer med å anvende aritmetisk gjennomsnitt, siden verdien som etterfølger 359 er 0. Om du for eksempel beregner gjennomsnittet av to vindretninger med asimutgrad 359 og 1, vil du få asimutgrad 180. Gjennomsnittet av to vindretninger fra nord resulterer i en vindretning fra sør, som selvfølgelig blir meget feil. Helningsretning – om en helning er sørvendt eller nordvendt – måles også med asimutgrader.

2

Se for eksempel Chrisman (2002) eller Schuurman (2004).




2. UTGAVE Foto: Rita Hokseggen

INNFØRING I GIS OG STATISTIKK

Det finnes få norske statistikkbøker med et geografisk perspektiv. Denne boka forsøker å fylle dette tomrommet ved å inkludere statistikk og GIS i ei og samme bok, for ofte er det nødvendig å vite noe om begge deler. Skal man lage et tematisk kart, forutsetter det innsikt i grunnleggende statistikk, og har man gjort en statistisk analyse, ønsker man gjerne å presentere resultatene i et kart.

JAN KETIL RØD

Dette er ei innføringsbok i statistikk og geografiske informasjonssystemer (GIS). Dette er kunnskapsområder som er etterspurt i både privat og offentlig virksomhet, og som anvendes i de fleste akademiske disipliner. Boka passer for alle som ønsker å vite noe om hvordan en samler inn, beskriver og presenterer geografisk informasjon i form av tall, kart og bilder, og den er aktuell som pensumbok innen geografi, geologi, biologi, ingeniøremner, samfunnsfaglige emner, helsefag, arkitektur og planlegging.

JAN KETIL RØD

JAN KETIL RØD

INNFØRING I GIS OG STATISTIKK VERKTØY FOR Å BESKRIVE VERDEN

ISBN 978-82-450-2023-6

,!7II2E5-acacdg!

er professor innen geografisk informasjonsvitenskap ved Institutt for geografi, Norges teknisknaturvitenskapelige universitet (NTNU). Han er utdannet sivilingeniør fra NTNU med spesialisering innen geomatikk (GIS, kartografi og fjernanalyse), og har siden studert humanistiske fag, samfunnsfag og tatt doktorgrad i geografi. Ved Institutt for geografi underviser han i statistikk, kartografi, GIS, fjernanalyse og bruk av geografisk informasjonsteknologi i feltbasert undervisning. Hans forskning omhandler blant annet temaer som effekter av klimaendringer, byplanlegging og væpnede konflikter.


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.