STATISTATIKNJIGA BORIS KNJIGAKOŽUH O STATISTIKI Oddelek za pedagogiko in andragogiko Ljubljana 2022
Boris KNJIGALjubljanaKožuh2022OSTATISTIKI
Naslovnica: VBG d. o. o.
KNJIGA O STATISTIKI
Za izdajatelja: Mojca Schlamberger Brezar, dekanja Filozofske fakultete
Tehnično urejanje in prelom: Jure Preglau Slika na naslovnici: Stock photo LuckyBusiness
CIP - Kataložni zapis o publikaciji Narodna in univerzitetna knjižnica, Ljubljana KOŽUH,311.1(075.8)BorisKnjigaostatistiki
Tisk: Birografika Bori, d. o. o. Ljubljana, 2022
Avtor: Boris Recenzenta:KožuhJasna Mažgon, Mara Cotič
© Univerza v Ljubljani, Filozofska fakulteta, 2022. Vse pravice pridržane.
Izdala: Znanstvena založba Filozofske fakultete Univerze v Ljubljani
Lektor: Rok Janežič
Za založbo: Gregor Majdič, rektor Univerze v Ljubljani
Prva izdaja, tretji natis Naklada: 400 izvodov Cena: 23,90 EUR
/ Boris Kožuh. - 1. izd., 3. natis. - Ljubljana : Znanstvena založba Filozofske fakultete, 2022 ISBN COBISS.SI-ID978-961-7128-84-0119155971
Oblikovna zasnova: Jana Kuhar
Založila: Založba Univerze v Ljubljani
2.2.1 Ranžirna vrsta 26
2.3 Priprava podatkov za računalniško obdelavo 30
........................................................................................................
..............................................................................................
1.4 Statistični parametri 20
3.3.1 Delitev na pol 39 3.3.2 Delitev na četrtine 39
1.3.5 Neodvisne in odvisne spremenljivke 19
2 Urejevanje podatkov 21
3.3.3 Delitev na desetine 40
...............................................................................................................
1.3.4 Zvezne in nezvezne spremenljivke 18
..........................................................................................
.....................................................................................................
1.3.2 Merske lestvice 13
...............................................................
.......................................................................................................
.................................................................................................
3.1 Absolutni rangi......................................................................................................................... 37
1 Osnovni pojmi 9
.......................................................................
....................................................................................................................................................
1.3.1 Številske in opisne spremenljivke.......................................................................... 12
.....................................................................................
...........................................................................................................................
..........................................................................................................................
1.3 Spremenljivke 11
.....................................................................................
1.2 Statistična množica in enote 9
...................................................................
2.1 Urejevanje podatkov za opisne spremenljivke 21
2.3.3 Zapisovanje vrednosti 32
.......................................................................................................
.........................................................................................
.................................................................................................
3Kazalo
3.3 Značilni kvantilni rangi in kvantili 39
1.1 Proučevanje množičnih pojavov 9
.............................................................................................................
...........................................................
..................................................................................................................................
2.2 Urejevanje podatkov za številske spremenljivke 26
2.3.1 Zbiranje podatkov 30 2.3.2 Seznam spremenljivk 31
3 Rangi 37
2.2.2 Frekvenčna porazdelitev 28
3.2 Relativni rangi 38
1.3.3 Uporaba statističnih metod 17
................................................................................................................
3.3.4 Delitev na stotine 40
Kazalo
5.4 Mere razpršenosti 54
4.5 Tehtan strukturni odstotek 49
................................................................................
5.7 Relativni odklon 66 5.8 Analiza razpršenosti 68 5.8.1 Kako izračunamo pojasnjeno in nepojasnjeno varianco
...................................................................
...................................................................................................................
.................................................................................................................
........................................
4.3.2 Računanje iz frekvenčne porazdelitve 45
4 Srednje vrednosti 42
5 Razpršenost 50
5.4.5 Povprečni absolutni odklon..................................................................................... 58 5.4.6 Varianca in standardni odklon 60 5.5 Izračunavanje variance 61 5.5.1 Računanje iz individualnih podatkov 61 5.5.2 Računanje iz frekvenčne porazdelitve 63
................................................................................................
4.2 Srednje vrednosti 43
5.3.1 Razpršenost podatkov za nominalne spremenljivke 52
5.4.4 Kvartilni odklon 57
4.3 Izračunavanje aritmetične sredine.................................................................................... 45
.................................................................................................................
5.4.1 Variacijski razmik 55 5.4.2 Decilni razmik 56
5.3.3 Razpršenost podatkov za intervalne spremenljivke 54
5.3.2 Razpršenost podatkov za ordinalne spremenljivke 53
5.1 Pojem razpršenosti 50
............................................................................................................
....................................................................................................................
4.1 Primerjanje množic 42
..............................................................................................................
.............................. 74
5.3 Merjenje razpršenosti 52
.....................................
.........................................................................................................................
.............................................................................................................
...................................................................
5.4.3 Kvartilni razmik 56
.........................................................................................................
......................................................................................................................
............................................................................................................
5.2 Viri razpršenosti 51
.......................................................................................................................
.................................................................
4.3.1 Računanje iz individualnih podatkov 45
4 Knjiga o statistiki
.......................................
5.6 Relativna mera razpršenosti 64
..........................................................................................................
4.4 Tehtana aritmetična sredina 47
6.2.4 Vrednost, pod katero je določeni odstotek enot 82
...........................................................................
.............................................
...........................................................................
.................................................................
7.3.6 Korelacijsko razmerje 112
8 Raziskovanje na vzorcih 122
7 Povezanost med pojavi 86
7.2 Indeks korelacije 95
7.1 Pojem korelacije 86
7.1.1 Korelacijski grafikon 89
...................................................................................................
.............................................................................................................
6.2.1 Odstotek enot pod izbrano vrednostjo spremenljivke .................................. 79
..............................................................
................................................................
7.3.1 Pearsonov korelacijski koeficient 97
.........................................................................................................
7.3.3 Biserialni korelacijski koeficient........................................................................... 105
7.3.4 Točkovni biserialni korelacijski koeficient 109
..............................................................................................
5Kazalo
7.1.3 Linearna in nelinearna korelacija 92
6.2.5 Meji, med katerima je dani odstotek enot 84
7.4 Regresija 116
6.2.6 Upoštevanje narave zveznih spremenljivk......................................................... 85
..............................................................................................................
.......................................................................
...............................................................................................................
............................................................................................................
......................................................................................................................
7.3.5 Tetrakorični korelacijski koeficient 111
.....................................................................
7.5.1 Izločanje vpliva ene spremenljivke 119
7.3.2 Korelacija ranga 101
...........................................................................................................
...........................................................................
........................................................
......................................................................................................................
..................................
..................................................................................................................................
7.3 Korelacijski koeficienti 97
7.5 Parcialna korelacija 117
7.5.2 Izločanje vpliva več spremenljivk 120
8.1 Osnovne množice in vzorci 122
7.1.4 Korelacija in vzročno-posledične zveze 94
6.2.2 Odstotek enot nad izbrano vrednostjo spremenljivke 79
6.2 Uporaba zakonitosti normalne porazdelitve 78
........................................................................................................
..........................................................................................................
7.1.2 Pozitivna in negativna korelacija 90
6 Normalna porazdelitev 76
8.1.2 Posploševanje na osnovno množico 123
8.1.1 Zakaj vzorčimo 122
6.2.3 Odstotek vrednosti v izbranem razmiku 80
6.1 Pojem in značilnosti 76
8.3.2 Preizkušanje ničelne hipoteze o razliki med strukturnimi odstotki z enostavnimi slučajnostnimi vzorci 174
8.1.4 Izbiranje vzorcev 126
8.1.8 Mali in veliki vzorci 135
8.3.1 Preizkušanje ničelne hipoteze o razliki med aritmetičnimi sredinami z enostavnimi slučajnostnimi vzorci 162
...................................................................................
............................................................................................
..................................................................
...................................................................................................
8.2.5 Ocenjevanje standardnega odklona z enostavnimi slučajnostnimi vzorci 157
.................
..........................................................
..........................................................................
8.4.2 Preizkušanje hipoteze neodvisnosti 191 8.4.3 Pogoj za uporabo χ2-preizkusa.............................................................................. 198
......................................
8.1.12 Oznake za parametre 138
...................................................................
8.2.1 Množica vzorcev in množica vseh vzorcev 141
8.2.6 Ocenjevanje Pearsonovega korelacijskega koeficienta z enostavnimi slučajnostnimi vzorci 158
..............................................................................................
...................................................................
......................................................
.......................................................................................................
8.3 Preizkušanje hipotez z velikimi vzorci 161
8.1.9 Neodvisni in odvisni vzorci 136
..............................................
8.2 Ocenjevanje parametrov z velikimi vzorci 139
...................................................................
8.1.3 reprezentativnost 124
.......................................................................................
8.3.4 Preizkušanje ničelne hipoteze o razliki med Pearsonovimi korelacijskimi koeficienti z enostavnimi slučajnostnimi vzorci 180 8.4 χ2-preizkus............................................................................................................................... 183
.............................................................................
8.1.7 Stratificirano vzorčenje 134
8.1.10 Enostavni slučajnostni vzorci 137
8.3.3 Preizkušanje hipotez o razliki med standardnimi odkloni z enostavnimi slučajnostnimi vzorci 178
8.4.1 Preizkušanje hipoteze enake verjetnosti 184
8.2.3 Ocenjevanje aritmetične sredine z enostavnimi slučajnostnimi vzorci ... 144
...............................................................................................
.............................................................................
.....................................................................................................
8.2.2 Porazdelitev vzorčnih parametrov 143
6 Knjiga o statistiki
8.2.4 Ocenjevanje strukturnega odstotka z enostavnimi slučajnostnimi vzorci 155
8.1.5 Večstopenjsko vzorčenje 132
8.1.11 Posploševanje na hipotetično osnovno množico 137
8.1.6 Izbiranje enot s ponavljanjem 134
...........................................................................................
.......................................................
..................................................................................................................
8.7.5 Ocenjevanje aritmetične sredine z malimi vzorci 212
8.7.1 Studentova ali t-porazdelitev 207
8.6.1 Ocenjevanje parametrov......................................................................................... 205
8.6 Napake pri ocenjevanju parametrov in preizkušanju hipotez 205
8.7.3 Porazdelitev vzorčnih parametrov 209
.................................................................................................
8.7.6 Preizkušanje ničelnih hipotez 218
Literatura 227 Priloge 229
.............................
................................................................................
8.5.1 Pearsonov kontingenčni koeficient..................................................................... 201
....................................................................................................................................................
8.7.4 Reprezentativnost in velikost vzorca 211
.................................................................
................................................................................
7Kazalo
...............................................................................................................................................
...............................................................................................................................
8.5.3 Koeficient ф 204
8.5.2 Cramérjev koeficient 204
.......................................................................................
8.7 Mali vzorci 207
8.7.2 Množica vzorcev in množica vseh vzorcev 208
8.6.2 Preizkusi ničelnih hipotez 206
.......................................................................
.....................................................................................................
8.5 Koeficienti kontingence 200
1.1 Proučevanje množičnih pojavov
9Osnovni pojmi
1
Vzgojni pojavi, ki jih proučujemo, so lahko množični ali enkratni. Množični pojavi so tisti, ki se pojavljajo večkrat, enkratni pa tisti, ki nastopajo samo enkrat. Gimnazija Vič je enkratni pojav, gimnazija nasploh pa množični po jav (saj jih je v Sloveniji več kot 20). Dijak M. Z. iz kraja A je enkratni pojav, dijak gimnazije pa je množični pojav.
Statistične metode uporabljamo pri proučevanju množičnih pojavov, pri proučevanju enkratnih pa ne. S temi metodami proučujemo kvantitativne in kvalitativne značilnosti ter zakonitosti vzgojnih (pedagoških) pojavov. Definicija množičnih pojavov je sicer preprosta, a nam pri presoji, ali upo rabiti statistične metode ali ne, ne pomaga veliko. Kadar proučujemo npr. »množico« treh ali štirih ravnateljev, ne bomo uporabili statističnih metod (pa čeprav gre po definiciji za množični pojav). Velja pravilo, da bomo stati stične metode uporabili pri proučevanju nekoliko »bolj množičnih« pojavov ali, natančneje, za množice vsaj velikosti vzgojne skupine (šolskega oddelka, učne skupine, pevskega zbora in podobno). Šele takrat bo uporaba statističnih metod smiselna. Vendarle pa ostre meje ni (saj tudi velikost skupin v vzgojno-izobraževalnem delu nima enotne spodnje meje). To pravilo dodatno ilustrira odgovor na pogosto zastavljeno vprašanje: Pri kateri velikosti skupine lahko uporabimo statistične metode? Odgovor na takšno vprašanje bi seveda bil: Že pri dveh enotah. A kot smo že povedali, uporaba statističnih metod pri tako majhnih skupinah ni smiselna in smotrna.
Množice na pedagoškem področju lahko sestavljajo najrazličnejše eno te: dijaki, učitelji, gojenci, učenci in ravnatelji, a tudi vrtci, šole, dijaški domovi, knjige, delovni zvezki, učbeniki, učni načrti, šolsko pohištvo, učila, strokovne revije, šolske stavbe, učne ure, ekskurzije, ocene, izdelki učencev, vprašanja, računalniki itd. V empiričnih raziskavah vedno prou čujemo konkretno skupino. Da bi jo lahko preučili, jo moramo natanč no opredeliti. Tako opredeljeno skupino imenujemo statistična množica. Opredeliti množico pomeni postaviti pogoje, ki določajo, kdo vanjo sodi
Osnovni pojmi
1.2 Statistična množica in enote
Tabela 1. Statistične množice
Tehniške gimnazije v Sloveniji v šolskem letu 2021/2022
• s krajevnim opredeljujočim pogojem določimo geografske razsežnosti Tistemnožice.enote, ki ustrezajo opredeljujočim pogojem, sodijo v tako opre deljeno statistično množico. S tem so natančno določene enote statistične množice in tudi celotna statistična množica. Če kateri od teh pogojev manj ka, statistična množica ni dovolj natančno določena in ne vemo, katere eno te jo sestavljajo. V tabeli je nekaj primerov ustrezno opredeljenih statističnih množic:
Šole za voznike motornih vozil v Ljubljani na dan 1. junija 2018
Učitelji razrednega pouka na osnovnih šolah v Kopru v šolskem letu 2021/2022
in kdo ne. Te pogoje imenujemo opredeljujoči pogoji. Opredeljujoči pogo ji so na splošno trije:
• s stvarnim opredeljujočim pogojem določimo, kdo (ali kaj) so enote te množice,
Zaplete pri zbiranju podatkov o enotah množice prinaša časovni pogoj, kadar je določen v dolgem razmiku (semester, šolsko leto, polletje in po dobno). Če se časovni pogoj nanaša na celo šolsko leto, moramo zajeti vse enote, ki se pojavijo v tistem šolskem letu (torej moramo čakati do konca šolskega leta). V tretjem primeru iz tabele bi bili to vsi učitelji – torej tudi tisti, ki so se zaposlili med šolskim letom. Za praktično izvedbo raziskave je to velika ovira (še zlasti za zbiranje podatkov). Običajno opredeljujemo množice v celih šolskih letih le, kadar v raziskavi uporabljamo podatke iz že obstoječe dokumentacije: npr. iz dokumentacije zavoda za šolstvo, urada za statistiko, ministrstev in podobno. Takrat lahko kot časovni opre deljujoči pogoj določimo celo šolsko leto. Če pa podatke zbiramo sami, množice najpogosteje opredeljujemo trenutno – z določenim datumom. Res je, da tudi dan (datum) ni povsem dosledno trenutna opredelitev; tudi dan je interval 24 ur.
Učenci osnovnih šol v Mariboru na dan 4. marca 2022
Ravnatelji osnovnih šol v Celju na dan 5. septembra 2021
10 Knjiga o statistiki
• s časovnim opredeljujočim pogojem določimo čas, v katerem bomo za jeli množico,
Enote statistične množice imajo nešteto lastnosti. Vsaka lastnost enot množi ce je spremenljivka. Naštejmo nekaj enot in njihovih pomembnejših lastnosti.
11Osnovni pojmi
enota lastnosti ali spremenljivke
Tabela 2. Statistične enote in spremenljivke
šola leto ustanovitve, stopnja šole (osnovna, srednja itd.), skupno število učencev, število oddelkov, število zaposlenih, število učiteljev itd. učitelj stopnja izobrazbe, strokovni naziv, smer dokončanega študija, kateri predmet uči, šola, na kateri je zaposlen itd. dijak spol, starost, ocene, prizadevnost, interesi, ali je član športnega kluba, narodnost, najljubši šolski predmet, telesna teža itd. priročnik naslov priročnika, ime avtorja, leto izdaje, kraj izdaje, število strani, format, število ilustracij, cena, številka ISBN, ime založbe itd. šola za motornihvoznikevozil število vozil, katere programe izvaja, število zaposlenih, število inštruktorjev vožnje itd.
1.3 Spremenljivke
Nekatere pojave moramo opredeliti intervalno: število opravljenih uč nih ur (npr. v enem tednu, mesecu ali šolskem letu), število seminarjev, ki so se jih učitelji udeležili (npr. v zadnjih treh letih) itd. Takšnih množic nikakor ne moremo opredeliti trenutno; številne pa lahko opredelimo trenutno ali intervalno. Razprave o časovnem pogoju ne bomo širili na filozofska vpraša nja trenutnega opredeljevanja statističnih množic. Bistveno je, da je časovni opredeljujoči pogoj jasno in nedvoumno določen.
Enote množice proučujemo tako, da zbiramo podatke o njihovih lastnostih – spremenljivkah. Spremenljivke so osrednji pojem statistike. Uporabiti statistične metode pravzaprav pomeni obdelati podatke za spremenljivke. V vsaki raziskavi pedagoške pojave proučujemo z drugačnim namenom. Zato bomo vsakokrat proučevali druge spremenljivke, celo takrat, ko raziskujemo podobne ali iste množice.
Statistično množico v raziskovalnem poročilu običajno imenujemo raziskovalna množica ali na kratko množica. Bistveno drugače pa statistič ne množice imenujemo v vzorčnih raziskavah, kjer iz množice izberemo le manjši del. Takrat celotno statistično množico imenujemo osnovna množi ca, manjši izbrani del pa vzorec (ali redkeje vzorčna množica).
12 Knjiga o statistiki
Tabela 3. Številske spremenljivke spremenljivka vrednosti štipendija 104, 151, 90 itd. število študentov v letniku 45, 52, 39, 28, 90 itd. starost v letih 14, 15, 17, 22 itd. število oddelkov v vrtcu 4, 5, 8, 6 itd.
1.3.1 Številske in opisne spremenljivke
Spremenljivke, ki jim vrednosti izražamo z besedami (opisi), imenujemo opisne ali atributivne.
Tabela 4. Opisne spremenljivke spremenljivka vrednosti
opravljene vaje iz statistike vse, nekatere, nobena zadovoljnost s potekom izpita
zelo, srednje, malo
katere tuje jezike obvlada študentka
angleški, francoski, nemški itd. stopnja študija prva stopnja, druga stopnja, tretja stopnja narodnost Italijanka, Madžarka, Slovenka, Hrvatica, Kitajka, Nemka, Španka itd.
Da bi bolje razumeli pojem in vlogo spremenljivk v pedagoškem raziskova nju, bomo spremenljivke delili po nekaj kriterijih. Ena preprostejših je deli tev spremenljivk po tem, kako so izražene njihove vrednosti. Lahko jih izra žamo s številkami ali z besedami. Spremenljivke, ki jim vrednosti izražamo s številkami, imenujemo številske ali numerične.
Vendar ta delitev povzroča tudi majhno dilemo. Vrednosti nekaterih spremenljivk so namreč izražene hkrati številčno in besedno. Pomislimo na šolske ocene, ki so skoraj vedno zapisane s številko in besedo. Ali so šolske ocene številske ali opisne spremenljivke? Da bi na to vprašanje odgovorili, moramo razmisliti, kakšna je narava te spremenljivke. Bolj pomembna je narava kot pa oblika spremenljivke, torej na kakšen način so vrednosti izra žene. Takšen razmislek hitro pokaže, da je pri šolski oceni bistvena beseda
in ne številka. Zakaj? Odlična ocena je namreč povsod najboljša in je med ocenami na najvišjem mestu. Ta ocena je lahko zapisana z različnimi števil kami (v osnovnih in srednjih šolah pri nas s številko 5, na Češkem s številko 1, na Poljskem s številko 6, na univerzah pri nas s številko 10, na italijanskih univerzah s številko 30, na univerzah na Poljskem s številko 5 itd.). Besedni izrazi so enoznačni, številke pa lahko določamo poljubno. Po svojem bistvu je torej šolska ocena opisna in ne številska spremenljivka.
1.3.2 Merske lestvice
Veliko pomembnejša je delitev glede na vrsto in količino informacije, ki jo vse bujejo vrednosti spremenljivke (rezultati merjenja, podatki). Delitev po tem kriteriju ima štiri stopnje (štiri vrste spremenljivk ali štiri merske lestvice): A. nominalne spremenljivke, B. ordinalne spremenljivke, C. intervalne spremenljivke, D. razmernostne spremenljivke.
Tabela 5. Nominalne spremenljivke z dvema kategorijama spremenljivka kategorije spol moški, ženski ali učenec poje v šolskem zboru da, ne ali ima učenka svoj računalnik doma ima, nima ali se pri pisnem izpitu iz statistike lahko uporablja literatura uporaba je dovoljena, uporaba ni dovoljena
Nominalne spremenljivke ne vsebujejo veliko informacije. Lahko ugo tovimo le, ali se enote razlikujejo ali ne. Značilna nominalna spremenljivka je spol. Po tej spremenljivki lahko ugotovimo, ali sta dva učenca različnega ali enakega spola. Pri nominalnih spremenljivkah namesto izraza vrednosti raje uporabljamo izraz kategorije. Nekatere nominalne spremenljivke imajo le dve kategoriji, nekatere pa več:
13Osnovni pojmi
STATIKNJIGA 9 789617 128840 ISBN 978-961-7128-84-0 STATIUniverzitetniučbenik
statistiki je namenjen študentom pedagogike in študentom pedagoških smeri študija, s pridom pa jo bodo lahko uporabljali tudi študentje drugih sorodnih družbenih ved. Avtor v knjigi predstavlja in obravnava osnovne statistične metode, ki se uporabljajo pri raziskovanju vzgojnih pojavov. Pri vsaki najprej pojasni teoretične osnove, nato pa uporabo te metode v pedagoškem raziskovanju.
BORIS KOŽUH je rojen leta 1945 v Italiji. Leta 1973 je diplomiral na Oddelku za pedagogiko Filozofske fakultete v Ljubljani. Po študiju se je zaposlil kot asistent za pedagoško statistiko pri profesorju dr. Janezu Sagadinu. Doktoriral je leta 1986, ob koncu devetdesetih let pa je bil tudi gostujoči profesor na Univerzi v Opolu na Poljskem. Leta 2000 je bil izvoljen za rednega profesorja za pedagoško metodologijo, leta 2008 pa je dobil naziv zaslužni profesor Univerze v Ljubljani.Aktivno
obvlada ruščino, češčino, poljščino in hrvaščino ter pasivno vse ostale slovanske jezike. Deset let je bil glavni in odgovorni urednik osrednje slovenske pedagoške znanstvene revije Sodobna pedagogika. Predaval je na vseh treh slovenskih univerzah in na številnih
Učbenik je napisan v preprostem jeziku. Opremljen je s številnimi primeri uporabe in izvedbami opisanih statističnih metod. Predstavljeni so načini in pogoji praktične uporabe metod ter možni zapleti pri obdelavi podatkov. Zaradi izbora metod in načina njihovega obravnavanja je knjiga lahko elementarni učbenik za študente na prvi stopnji študija, nadaljevalni učbenik za študente na drugi stopnji, ali pa uvodni priročnik za študente na doktorskem študiju. Knjiga o statistiki je lahko uporabna tudi kot praktični priročnik za raziskovalno delo na pedagoškem področju.
tujih. Sodeluje s profesorji na številnih univerzah po svetu (UCLA v Los Angelesu, South Bank University v Londonu, Karlova univerza v Pragi, Antioch University v Los Angelesu, University of North Dakota, več univerz na Poljskem ter v nekdanjih jugoslovanskih republikah itd.). V domačih in mednarodnih revijah objavlja študije s področja pedagoške metodologije. Objavil je 12 knjig v Sloveniji in več kot 25 v tujini, kot urednik pa je sodeloval pri številnih zbornikih, izdanih na različnih univerzah po svetu. Deset let vodi mednarodno združenje ICIA, kjer v sodelovanju z univerzami iz ZDA, Kanade, Anglije, Argentine, Avstralije in številnimi univerzami iz Evrope organizira mednarodne znanstvene on-line konference.
Knjiga o