GQM105 - Elementêre Kwantitatiewe Metodes

Page 1

ElementĂŞre Kwantitatiewe Metodes

Johann Smith


ELEMENTÊRE KWANTITATIEWE METODES

© Kopiereg 2016 Onder redaksie van: Dr Paul JN Steyn, BA (PU vir CHO), THOD (POK), DEd (Unisa) Skrywer: Johann Smith Akademiese taalversorging, bladontwerp en uitleg: Dr Daleen van Niekerk

‘n Publikasie van Akademia. Alle regte voorbehou. Adres: Von Willichlaan 284, Centurion Posadres: Posbus 11760. Centurion, 0046 Tel: 0861 222 888 E-pos: diens@akademia.ac.za Webtuiste: www.akademia.ac.za

Geen gedeelte van hierdie boek mag sonder die skriftelike toestemming van die uitgewers gereproduseer of in enige vorm of deur enige middel weergegee word nie, hetsy elektronies of deur fotokopiëring, plaat- of bandopnames, vermikrofilming of enige ander stelsel van inligtingsbewaring nie. Enige ongemagtigde weergawe van hierdie werk sal as ‘n skending van kopiereg beskou word en die dader sal aanspreeklik gehou word onder siviele asook strafreg.



Elementêre Kwantitatiewe Metodes

INHOUDSOPGAWE

Hoofstuk 1: Inleiding tot Statistiek................................................................................................ 7 1.1.

Waarom leer sakestudente van statistiek? ............................................................................ 9

1.2.

Waar pas statistiek in die groter prentjie? ........................................................................... 11

1.3.

Wat is statistiek? ................................................................................................................... 13

1.4.

Vlakke van data ..................................................................................................................... 15

Hoofstuk 2: Grafiese beskrywende statistiek .............................................................................. 19 2.1

Wat is beskrywende statistiek? ............................................................................................ 22

Item 1: Die frekwensietabel .................................................................................................. 23

Item 2: Die kolomgrafiek....................................................................................................... 27

Item 3: Die sirkelgrafiek ........................................................................................................ 29

Item 4: Die histogram ........................................................................................................... 31

Item 5: Kumulatiewe frekwensieverspreidings .................................................................... 33

Item 6: Die kumulatiewe frekwensieveelhoek ..................................................................... 35

Hoofstuk 3: Numeriese beskrywende statistiek .......................................................................... 39 3.1

Wat is numeriese beskrywende statistiek? .......................................................................... 41

3.2

Wat is ’n gemiddeld? ............................................................................................................ 42

3.3

Wat is ’n mediaan? ............................................................................................................... 48

Wat van groepe? ................................................................................................................... 49

Moet ek altyd hierdie lang proses volg? ............................................................................... 52

Waarom is ’n mediaan nuttig? .............................................................................................. 54

3.4

Wat is ’n modus?................................................................................................................... 57

3.5

Wat is ’n geweegde gemiddeld? ........................................................................................... 61

3.6

Wat is kwantiele? .................................................................................................................. 64

Hoe word Q1 bereken?.......................................................................................................... 65

Hoe word Q2 bereken? ......................................................................................................... 66

Hoe word Q3 bereken? ......................................................................................................... 67

Wat as die posisie nie ’n heelgetal is nie? ............................................................................ 67

Hoe interpreteer ons kwantiele? .......................................................................................... 68

Kwantiele vir kategorieë ....................................................................................................... 68 ©akademia (MSW)| Inhoudsopgawe

3


Elementêre Kwantitatiewe Metodes 3.7

Wat is maatstawwe van spreiding? ...................................................................................... 72

3.8

Wat is ’n standaardafwyking? ............................................................................................... 72

Waarom is ’n standaardafwyking belangrik?........................................................................ 73

Hoe word ’n standaardafwyking bereken? ........................................................................... 73

3.9

Wat is die variansiekoëffisiënt? ............................................................................................ 75

3.10

Wat is ’n skeefheidskoëffisiënt? ........................................................................................... 76

Hoe interpreteer ons ’n koëffisiënt van skeefheid? ............................................................. 78

Hoofstuk 4: Waarskynlikhede ..................................................................................................... 81 4.1 4.2

Wat is ’n waarskynlikheid?.................................................................................................... 83 Berekening van ’n waarskynlikheid....................................................................................... 85 Belangrike begrippe .............................................................................................................. 87

Begrip 1: Snyding .................................................................................................................. 88

Begrip 2: Samevoeging.......................................................................................................... 97

Begrip 3: Onderling-uitsluitlike gebeurtenisse ................................................................... 106

Begrip 4: Gesamentlik uitputbaar ....................................................................................... 108

Begrip 5: Voorwaardelike waarskynlikhede........................................................................ 111

Begrip 6: Statistiese afhanklikheid ...................................................................................... 116

4.3

Telreëls ................................................................................................................................ 119

Wat is kombinasies? ........................................................................................................... 121

Permutasies......................................................................................................................... 125

Hoofstuk 5: Waarskynlikheidverspreidings ............................................................................... 131 5.1

Inleiding............................................................................................................................... 132

5.2

Die binominale verspreiding ............................................................................................... 132

5.3

Die Poisson-verspreiding..................................................................................................... 141

5.4

4

Wat is ’n Poisson-verspreiding? .......................................................................................... 142 Die normaalverdeling.......................................................................................................... 149

Wat is ’n normaalverdeling? ............................................................................................... 149

Wat is kontinue data? ......................................................................................................... 152

Twee tipes normaalverdelings ............................................................................................ 154

Inhoudsopgawe | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes Hoofstuk 6: Steekproewe ......................................................................................................... 167 6.1

Steekproefneming............................................................................................................... 169

6.2

Ewekansige steekproefmetodes ......................................................................................... 171

6.3

Opsomming van ewekansige steekproefneming ................................................................ 177 Nie-ewekansige steekproefneming .................................................................................... 178

Geriefsteekproefneming ..................................................................................................... 178

Oordeelsteekproefneming .................................................................................................. 179

Kwota-steekproefneming ................................................................................................... 179

Sneeubalsteekproefneming ................................................................................................ 179

6.4

Waarom is steekproefneming belangrik? ........................................................................... 179

Hoofstuk 7: Vertrouensintervalle.............................................................................................. 181 7.1

Om ’n gevolgtrekking oor die populasie te maak ............................................................... 186

7.2

Wat is ’n vertrouensinterval? ............................................................................................. 188

Bereken ’n vertrouensinterval ............................................................................................ 189

Bereken ’n vertrouensinterval as σ onbekend is ................................................................ 196

7.3

Ten slotte ............................................................................................................................ 202

Hoofstuk 8: Hipotesetoetsing van een veranderlike .................................................................. 203 8.1

Wat is ’n hipotesetoets? ..................................................................................................... 206

8.2

’n Hipotesetoets vir een veranderlike................................................................................. 207

Linkskantige, regskantige en tweekantige hipoteses ......................................................... 209

8.3

Oefening: Hipotesetoets vir een veranderlike; populasie-standaardafwyking bekend ..... 216

8.4

Oefening: Hipotesetoets vir een veranderlike; populasie-standaardafwyking onbekend . 224

8.5

Terug by Sonja se hipotese ................................................................................................. 231

8.6

Ten slotte ............................................................................................................................ 234

Hoofstuk 9: Hipotesetoets vir twee steekproewe ...................................................................... 235 9.1 Hipotesetoets vir een veranderlike, twee populasies; populasie-standaardafwyking is bekend ............................................................................................................................................ 239 9.2

Hipotesetoets vir twee steekproewe indien σ nie bekend is nie........................................ 246

9.3

Die gepaarde t-toets (matched pair t-test) ......................................................................... 258

9.4

Ten slotte ............................................................................................................................ 268

©akademia (MSW)| Inhoudsopgawe

5


Elementêre Kwantitatiewe Metodes Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid ........................................................... 269 10.1

Statistiese afhanklikheid ..................................................................................................... 272

10.2

Die χ2-stat ........................................................................................................................... 273

10.3

Ten slotte ............................................................................................................................ 287

Hoofstuk 11: ANOVA ................................................................................................................ 289 11.1

Wat is ANOVA? ................................................................................................................... 292

Die hipotese ........................................................................................................................ 293

Die F-tabel ........................................................................................................................... 293

Die F-stat ............................................................................................................................. 294

SST ....................................................................................................................................... 294

SSE ....................................................................................................................................... 295

MST ..................................................................................................................................... 297

MSE ..................................................................................................................................... 297

F-stat ................................................................................................................................... 297

11.2

Ten slotte ............................................................................................................................ 300

Aanhangsels ............................................................................................................................. 303

6

Inhoudsopgawe | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

HOOFSTUK 1: INLEIDING TOT STATISTIEK

Onderwerp 1.1

Waarom leer sakestudente statistiek?

1.2

Waar pas statistiek in die groter prentjie?

1.3

Wat is statistiek?

1.4

Vlakke van data

©akademia (MSW)| Hoofstuk 1: Inleiding tot Statistiek

7


Elementêre Kwantitatiewe Metodes

Gevallestudie: Michael Vanessa kyk op as sy ’n klop by die deur hoor. “Binne.” Sy kyk vir ’n oomblik vraend na Michael wat effe onseker in die deur staan. “Kan ek help?” “Ek is Michael. David het gesê dat ek jou moet sien.” Dan besef Vanessa wie die jong man is: Michael Bronkhorst, die student wat vandag sy internskap by StatInc begin. David Brummer, een van die maatskappy se projekleiers, het haar gevra om haar oor die junior te ontferm. Sy staan op. “Natuurlik,” sê sy vriendeliker, dog professioneel. “Jammer, my kop was besig met ’n groot projek wat ons vir ’n mediese fonds doen.” Sy hou haar hand uit. “Bly om jou te ontmoet.” Michael skud haar hand. Vanessa wys na ’n stoel by haar lessenaar. “Sit gerus.” Vanessa self neem plaas aan die agterkant van haar lessenaar. Sy kyk geïnteresseerd na Michael. Vir sy ouderdom het die jong man ’n indrukwekkende CV. Hy is ’n eerstejaarstudent by ’n plaaslike universiteit. Behalwe vir uitstekende matriekuitslae, was hy by elke moontlike buitemuurse aktiwiteit by sy skool betrokke. Hy het selfs sy eie sakeonderneming begin totdat dit met sy skoolwerk begin inmeng het en sy ouers ’n stokkie daarvoor gesteek het. “Ek het jou universiteit gekontak. Daar is geen verpligte internskappe wat vereis word in jou studierigting nie,” pak Vanessa dadelik die bul by die horings. “Waarom het jy besluit om by ons betrokke te raak?” “Ek het met ’n paar mense gesels; mense wat ’n werk doen wat ek eendag sal wil doen. Almal het gekla dat studente wat die universiteit verlaat nie genoeg ondervinding het nie en ek wou nie een van daardie studente wees nie.” “En dit is hoe jy by David uitgekom het?” Michael knik. “Ek het hom uit die bloute gebel en gehoor of daar iets is wat ek by StatInc kon doen. Ek het nie gedink hy sal sommer ja sê nie, maar dalk kon hy vir my raad vir die toekoms gee. Elke bietjie help.” Vanessa word toenemend deur die effe buitengewone student beïndruk. Sy kan verstaan waarom David hom ’n kans wou gee.

8

Hoofstuk 1: Inleiding tot Statistiek | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

“StatInc is ’n baie dinamiese organisasie. Ons sal nooit die kans laat verbygaan om ’n moontlike goeie werknemer – vir nou of vir die toekoms – te ontmoet nie. Verstaan ek reg as ek sê dat jy bereid was om verniet te werk?” Michael knik weereens. “Ek betaal vir my studies by die universiteit. Die feit dat julle my nie geld vra om my te leer nie, is ’n bonus.” Vanessa glimlag. “Wel, ek glo darem nie David sal jou vir ’n maand verniet laat werk nie. Maar jou kontrak is ’n saak tussen julle twee. My taak sal wees om jou soveel as moontlik te leer voordat jou maand verby is. Maar ek moet jou waarsku – jy gaan nie baie slaap inkry nie!” Michael se oë glinster. “Slaap is vir die voëls,” is al wat hy sê.

1.1. Waarom leer sakestudente van statistiek? Statistiek, of soos dit in hierdie geval bekend staan, “Elementêre kwantitatiewe metodes”, is ’n vak wat mag voorkom of dit nie in ’n B.Com.-kwalifikasie hoort nie. Berekeninge hoort mos by B.Sc- of Ingenieurskwalifikasies. Of dit mag moontlik deel wees van ’n B.Com.kwalifikasie, maar slegs by Rekeningkunde of Finansiële vakke. Waarom moet ’n student wat met ’n graad in Ondernemingsbestuur of Bemarking besig is, Statistiek verstaan? Die kort antwoord op hierdie vrae is eintlik eenvoudig. Statistiek is oral. Dit is deel van elke bestuurder se lewe. Selfs klein sakeondernemings moet op ’n gereelde basis die een of ander vorm van dataversameling doen en dan gevolgtrekkings op die statistiese ontleding daarvan maak. ’n Groot uitdaging waarvoor studente te staan kom, is om die praktyk en teorie van Statistiek met mekaar te versoen. Waarom moet ek ’n standaardafwyking kan bereken? Wat beteken ’n standaardafwyking van 10 – is dit groot of klein? Kan ek nie eerder eendag slegs ’n statistikus betaal om die navorsing te doen nie? Wat beteken dit regtig as ’n hipotese aanvaar is? Die doel van hierdie gids is om daardie oorbrugging te verskaf. Deur intensief van ’n deurlopende gevallestudie gebruik te maak, sal feitlik elke aspek van die Statistieksillabus deur middel van ’n voorbeeld verduidelik word. Volg Michael, ’n eerstejaar B.Com.-student, se ontdekkingstog tydens sy internskap by StatInc, ’n baie suksesvolle marknavorsingsonderneming.

©akademia (MSW)| Hoofstuk 1: Inleiding tot Statistiek

9


Elementêre Kwantitatiewe Metodes

Gevallestudie: Die toer Michael volg Vanessa deur die gange van die hipermoderne kantoorgebou. StatInc is duidelik ’n suksesvolle onderneming en elke kantoor is smaakvol toegerus met moderne kantoormeubels. Oral is personeel besig om te werk. Vanessa stop by ’n kantoor met ’n bordjie. Datavaslegging, lees Michael voordat hulle die kantoor binnestap. Die kantoor is ’n bynes van aktiwiteit. Michael het in sy lewe nog nooit die geluid van soveel rekenaarsleutelborde gehoor nie. ’n Groep van dertig of veertig datavasleggers sit by rekenaars, besig om verskillende dokumente se waardes in die rekenaars in te lees. Michael staan en staar oopmond na ’n dame wat teen ’n verbysterende spoed tik. As ek so vinnig kon tik sou my take binne ’n halfuur afgehandel wees, en nie vier dae neem om te voltooi nie, dink hy. Vanessa praat saggies met Michael. “Hierdie is ons datavasleggers. Alle vraelyste wat voltooi word, word deur hierdie personeel na ’n elektroniese formaat omgeskakel. Dit is natuurlik baie belangrik dat hulle eenhonderdpersent akkuraat moet wees. As ’n datavaslegger ’n fout maak, is die data wat ons vir statistiese ontleding kry, ook nie akkuraat nie. Dit maak nie saak hóé goed en akkuraat ons statistiese ontleding dan is nie, die resultate is niks werd as die data nie korrek is nie.” Michael knik om aan te dui dat hy begryp. “Ons het ook ’n aantal personeel wat spesialiseer in die ontwerp van vraelyste. Hulle eerste verantwoordelikheid is om te sorg dat die inligting wat ons kliënt wil hê, wel deur die vraelys versamel kan word. Hulle moet byvoorbeeld die regte vrae vra, seker maak dat daar nie misverstande is nie, onnodige vrae uitlaat en seker maak dat daar nie enige vrae kort nie. “Maar ’n tweede belangrike bydrae wat hierdie personeel maak, is om die vraelyste só op te stel dat dit so vinnig as moontlik deur ons datavasleggers geprosesseer kan word. ’n Klein verstelling op ’n vraelys kan die verskil tussen ’n uur en ’n week se werk veroorsaak.” Michael staar verwonderd na die aktiwiteite in die vertrek. “Sleutel hulle slegs die data vir StatInc se projekte in?” “Nee, ons het kliënte wat hul eie navorsing gedoen het en dan slegs hul datavaslegging vir ons stuur. Ons probeer natuurlik altyd verseker dat hul vraelyste ook deur StatInc opgestel word omdat dit ons tyd en vir die kliënt geld spaar.” Michael se kop werk oortyd as hy en Vanessa die vertrek verlaat. Hy het nooit besef dat hy soveel in sy eerste dag sou leer nie. Die omvang van ’n navorsingsprojek is baie groter as wat hy gedink het. Daar is die projekleiers en konsultante wat seker maak dat die regte vrae

10

Hoofstuk 1: Inleiding tot Statistiek | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes deur die navorsing gevra en beantwoord moet word. Soms weet die kliënte self nie presies wat hulle met die navorsing wil bereik nie. Dan word die navorsingsprojek beplan en die vraelyste word opgestel indien nodig. Daarna moet die vraelyste deur veldwerkers aan die regte persone gegee word om in te vul (en die manier waarop hierdie groep mense gekies word, is blykbaar ’n wetenskap in eie reg). As die vraelyste voltooi is, word dit deur die datavasleggers in elektroniese formaat omgeskakel en dan eers na die statistiese departement gestuur. Miskien moet ek probeer om my internskap te verleng en ’n draai in elk van daardie departemente maak, dink hy as hulle weer by Vanessa se kantoor instap. Vanessa oorhandig ’n lêer aan Michael. Op die lêer is ’n plakker met die woorde “Vasvat Versekeraars” geskryf. Michael kyk vraend na Vanessa. “Dit is data wat ons vir een van ons kliënte versamel het. Hulle is Vasvat Versekeraars. Hulle wil ’n behoefte-ontleding by hul bestaande kliënte doen. Ek glo julle het reeds beskrywende statistiek op universiteit behandel?” Michael knik. “Die data is in die lêer. Een van ons junior statistikusse het reeds die beskrywende statistiek met ’n rekenaarprogram afgehandel, maar ek sal graag wil hê dat jy die resultate moet verifieer.” Michael is vlug van begrip. “Met 'n potlood en ’n sakrekenaar?” sê hy met ’n glimlag. “Presies. Jy sal sien dat daar ’n groot hoeveelheid data versamel is. Ons is egter geïnteresseerd in die kliënte se ouderdomme en risikoprofiel. Ons kan mekaar môreoggend agtuur weer ontmoet. Dan verwag ek van jou om die mees toepaslike beskrywende statistiek voor te stel.” Michael glimlag. “Wonderlik. My tweede dag by die werk en ek mag al aanbevelings maak!” Vanessa is beïndruk deur sy optimisme. “Dinge gebeur baie vinnig by StatInc.”

1.2. Waar pas statistiek in die groter prentjie? Soos wat die gevallestudie beskryf het, is Statistiek gewoonlik deel van ’n groter proses. ’n Onderneming of navorser sal ’n sekere probleem in sy of haar omgewing identifiseer. Hierdie probleem sal dan ondersoek word. Statistiek is ’n baie nuttige hulpmiddel om met hierdie ondersoek te help.

©akademia (MSW)| Hoofstuk 1: Inleiding tot Statistiek

11


Elementêre Kwantitatiewe Metodes Die belangrikheid van goeie kwaliteit data kan egter nooit oorbeklemtoon word nie. Soos wat Vanessa tereg gesê het, is die waarde van enige statistiese ontleding nul as die dataversamelingsproses verdag is. ’n Navorsingsprojek, hetsy vir sakeondernemings, regeringsorganisasies of vir akademiese doeleindes, volg dikwels ’n spesifieke proses. Hierdie proses word in Tabel 1.1 uiteengesit. Die eerste kolom verskaf die stappe, die regterkantse kolom dui aan watter rol die statistikus (of Vanessa en Michael in die gevallestudie) tydens hierdie stap sal speel. Stap

Rol van statistikus

Identifiseer die probleem

Gewoonlik geen rol

Sekondêre navorsing (lees van bestaande

Gewoonlik geen rol

artikels en vorige navorsingsprojekte) Beplan die navorsingsproses

Beskryf watter data-analise-tegnieke beskikbaar is. Adviseer ten opsigte van die aard van data wat versamel moet word.

Kies die steekproef. Steekproewe en populasies word later in meer besonderhede bespreek. Stel die vraelyste op

Bereken die benodigde steekproefgrootte. Help met statistiese tegnieke om die regte steekproef te identifiseer. Maak seker dat die data wat deur die vraelys versamel word, wel die navorsingsvrae kan beantwoord.

Versamel die data

Verskaf ondersteuning en opleiding aan veldwerkers om goeie kwaliteit data te versamel.

Analiseer data

Hierdie is die taak van die statistikus. Data word gebruik om ’n verskeidenheid statistieke te bereken.

Vertoon resultate en maak gevolgtrekkings

Hoewel die hele span gevolgtrekkings op die data kan maak, is dit belangrik dat die statistikus verseker dat die verkeerde gevolgtrekkings nie gemaak word nie. Dit

12

Hoofstuk 1: Inleiding tot Statistiek | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes gebeur dikwels dat gevolgtrekkings gemaak word sonder dat dit behoorlik deur die data ondersteun word. Stel ’n verslag saam

Die statistikus gaan sommige dele van die verslag moet skryf.

Hoewel groot projekte dikwels deur meer as een personeellid of selfs departemente afgehandel word, is dit ’n luuksheid wat studente selde het. As ’n student sal jy heel moontlik jou eie navorsing moet beplan, implementeer en data-analises doen. As ’n bestuurder sal dit ook nodig wees om seker te maak dat alle departemente en spanlede hul werk doen – iets wat moeilik sal wees sonder ’n deeglike kennis van al die verskillende aspekte (veral statistiek) wat met navorsing verband hou.

1.3. Wat is statistiek? Kortliks kan statistiek gedefinieer word as die ontleding van data om besluitneming te ondersteun. As Vasvat Versekeraars byvoorbeeld hul premies wil verhoog, maar nie seker is of hul kliënte die nuwe premies sal kan bekostig nie, sal hulle moontlik navorsing wil doen om hul kliënte se inkomste te bepaal. Die statistikus sal die persoon wees wat die data wat versamel is, ontleed. Hoewel elke aspek van die navorsingsproses belangrik is, is die versameling van data moontlik die een stap wat die grootste invloed op akkurate data-analise en statistiek mag hê. Daarom is dit belangrik om ’n bietjie aandag hieraan te gee. Gestel Vasvat Versekeraars het 100 000 kliënte. Hierdie groep kliënte stel die populasie voor: dit is al die kliënte waarop navorsing gedoen kan word. Gestel Vasvat wil weet wat die gemiddelde inkomste van daardie kliënte is, maar het nie hierdie data beskikbaar nie. Dit sal dan nodig wees om hierdie data te versamel. Om vir 100 000 kliënte hul salarisse te vra, is egter onmoontlik, gegewe die bepaalde begroting en tyd tot Vasvat se beskikking. Vasvat sal dus ’n kleiner groepie kliënte moet identifiseer.

©akademia (MSW)| Hoofstuk 1: Inleiding tot Statistiek

13


Elementêre Kwantitatiewe Metodes

Populasie: Al 100 000 van Vasvat se kliënte Steekproef: Kleiner groep vanuit populasie Verteenwoordigend van populasie

Figuur 1.1: Die verskil tussen ’n steekproef en populasie Hierdie kliënte (steekproef) moet egter: •

uit die populasie gekies word; en

verteenwoordigend wees van die populasie.

Hierdie kleiner groep kliënte word dan die steekproef genoem. ’n Verskeidenheid tegnieke bestaan om te verseker dat die steekproef verteenwoordigend van die populasie is. Hierdie tegnieke word later bespreek. As ’n steekproef verteenwoordigend is, kan statistiese berekeninge met die steekproef gedoen word en die resultate kan dan op die populasie van toepassing gemaak word.

Steekproef 500 kliënte

Sekere statistieke word bereken

Verteenwoordigend van

Gebruik vir:

Populasie 100 000 kliënte

Statistieke word geskat

Figuur 1.2: Die gebruik van ’n steekproef om beramings ten opsigte van ’n populasie te maak

14

Hoofstuk 1: Inleiding tot Statistiek | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

1.4. Vlakke van data Alle data wat vir statistiese doeleindes versamel word, kan op die een of ander wyse beskryf word. Data kan kategorieë aandui (byvoorbeeld name van universiteite of gunsteling restaurante), dit kan heelgetalle (byvoorbeeld die hoeveelheid mense in ’n gebou) of reële getalle (byvoorbeeld salarisse) wees. Die aard van data bepaal in ’n groot mate die tipe statistiese berekeninge wat daarmee gedoen kan word. Dit is daarom belangrik om data te kan beskryf. Een wyse waarop data beskryf kan word, is die vlakke van data. Daar word hoofsaaklik onderskei tussen vier vlakke van data, naamlik nominale, ordinale, interval- en ratio-data. Die mees beperkte data is nominale data. Hierdie tipe data besit geen numeriese waarde nie en word soms ook kwalitatiewe data genoem. Nominale data word gebruik om kategorieë voor te stel. Dit is egter moontlik om numeriese waardes te verkry deur die hoeveelheid keer wat ’n kategorie voorkom (die frekwensie genoem) te tel. As jy dus vir 1 000 persone vra wie hul gunsteling versekeringsmaatskappy is en 250 persone noem Vasvat Versekeraars, dan is die frekwensie van Vasvat Versekeraars 250. So kan jy die gewildheid van versekeraars numeries bepaal. Jy kan egter nie ’n gemiddeld met hierdie frekwensies bereken nie. Ordinale data is een vlak hoër as nominale data. Alle berekeninge wat met nominale data gedoen kan word (byvoorbeeld frekwensies), kan ook met ordinale data gedoen word. Daar is egter meer statistiese berekeninge wat met ordinale data gedoen kan word. Die groot verskil tussen ordinale en nominale data is dat daar ’n mate van volgorde of grootte by ordinale data kan voorkom. Nominale data kan verkry word met ’n vraag soos “Hoe gereeld verander jy van versekeraar?” Die opsies vir antwoorde kan die volgende insluit: •

Nooit

Jaarliks

Twee keer per jaar

Elke kwartaal

Maandeliks

Hoewel die antwoord “nooit” nie enige numeriese waarde besit nie, is “jaarliks” meer gereeld as nooit en “twee ker per jaar” meer gereeld as “jaarliks”. Die volgorde van antwoorde is dus van “ongereeld” na “gereeld” gerangskik. Ordinale data is egter steeds beperk. Intervaldata word gewoonlik verkry deur Likert-tipe skale. ’n Likertskaal, of ’n Likert-tipe skaal, verskaf ’n aantal opsies aan die respondent (die persoon wat ’n vraelys invul)

©akademia (MSW)| Hoofstuk 1: Inleiding tot Statistiek

15


Elementêre Kwantitatiewe Metodes waarvan een gekies moet word. Die respondent moet op ’n skaal van, byvoorbeeld, een tot vyf aandui hoeveel hy of sy met ’n stelling saamstem. Byvoorbeeld: Vraag: Dui aan hoeveel jy met die volgende stelling saamstem: Statistiek is ’n moeilike vak. Stem glad nie saam nie

Stem nie saam nie

Neutraal

Stem redelik saam

Stem heeltemal saam

X

Spesifieke waardes kan dan aan elke moontlike antwoord toegeken word, byvoorbeeld: Stem glad nie saam nie

Stem nie saam nie

Neutraal

Stem redelik saam

Stem heeltemal saam

3

4

5

X 1

2

’n Waarde van 2 is dus aan die bogenoemde antwoord toegeken. As 100 respondente se antwoorde bymekaargetel word, kan ’n gemiddelde waarde bereken word. Anders as met nominale en ordinale data, sal hierdie gemiddeld wel betekenisvol wees. ’n Gemiddeld van, byvoorbeeld, 4.77 sal aandui dat die respondente oor die algemeen baie sterk met hierdie stelling saamstem. Die belangrikste eienskap van intervaldata is dat die afstande tussen die verskillende opsies ewe groot moet wees. Die verskil tussen “stem glad nie saam nie” en “stem nie saam nie” moet byvoorbeeld net so groot wees soos die verskil tussen “neutraal” en “stem redelik saam”. Alle berekenings wat met ordinale en nominale data gedoen kan word, kan egter ook met intervaldata gedoen word. Die laaste (en hoogste) vlak van data is ratio. Hierdie tipe data bevat soortgelyke eienskappe as intervaldata, maar ’n 0 dui gewoonlik ook op die afwesigheid van die genoemde element. Byvoorbeeld, as iemand se salaris gevra word en die antwoord is 0, beteken dit dat die respondent geen salaris verdien nie. (In teenstelling, as iemand 0 op die interval-skaal geantwoord het, beteken dit nie dat die persoon geen opinie het nie.) Die volgende figuur som die vlakke van data op:

16

Hoofstuk 1: Inleiding tot Statistiek | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

Nominale data •Gewoonlike slegs kategorieë. •Bv. manlike en vroulik. Ordinale data •Die spesifeke getalle stel nie slegs kategorieë voor nie, maar het 'n waarde, bv. 1 is groter as 2. •Bv. maatskappygrootte (mikro, klein, medium, groot). Intervaldata •Word gewoonlik gebruik met vrae wat skale (rating scales) bevat. •Die afstand tussen verskillende opsies is ewe groot. Ratio-data •Die data is kontinu. Daar is dus enige hoeveelheid data wat tussen twee waardes voorkom. •Bv: salaris (tussen R1 000 en R2 000 in onbeperkte hoeveelheid antwoorde).

Figuur 1.3: Vlakke van data Volgende aan die beurt In Hoofstuk 2 sal Vanessa en Michael verskillende grafiese beskrywende statistieke bespreek. Michael sal sommige statistieke voorstel. As Vanessa tevrede is, sal Michael gevra word om elke statistiek te bereken en die resultate te interpreteer.

©akademia (MSW)| Hoofstuk 1: Inleiding tot Statistiek

17


ElementĂŞre Kwantitatiewe Metodes Notas

18

Hoofstuk 1: Inleiding tot Statistiek | Šakademia (MSW)


Elementêre Kwantitatiewe Metodes

HOOFSTUK 2: GRAFIESE BESKRYWENDE STATISTIEK

Onderwerpe 2.1

Wat is beskrywende statistiek? Item 1: Die frekwensietabel Item 2: Die kolomgrafiek Item 3: Die sirkelgrafiek Item 4: Die histogram Item 5: Kumulatiewe frekwensieverspreiding Item 6: Die kumulatiewe frekwensieveelhoek

©akademia (MSW)| Hoofstuk 2: Grafiese beskrywende statistiek

19


Elementêre Kwantitatiewe Metodes

Gevallestudie: Grafieke en tabelle Michael het pas by Vanessa se tafel gaan sit. Vanessa is besig om vlugtig na ’n hele rits tabelle en grafieke te kyk. “Waarom het jy ’n sirkelgrafiek vir die verskillende inkomstestrome gebruik?” vra sy. Michael kyk vinnig na die grafiek waarna Vanessa verwys:

“Die sirkelgrafiek gee vir ons ’n duideliker prentjie van die bydrae wat elke inkomstestroom tot die totale inkomste maak. Ek kan ’n kolomgrafiek bysit as jy wil.” “Dit sal goed wees. Maar hou die sirkelgrafiek in.” Vanessa kyk na ’n grafiek wat die totale eise oor die laaste twaalf maande voorstel en frons. “Dis interessant,” sê sy. Sy wys die grafiek vir Michael.

20

Hoofstuk 2: Grafiese beskrywende statistiek | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

“Is daar iets wat jou pla omtrent hierdie tendensgrafiek?” vra sy. “Ja. Ek wou jou nog daaroor vra. Ek is nie ’n kenner in die versekeringsbedryf nie, maar my logika sê dat daar meer eise oor die somervakansie sal wees as ander tye, met ’n effense verhoging tydens April.” “Hoekom April?” Michael is so verdiep in die grafiek dat hy nie die effense glimlag op Vanessa se gesig sien nie – ’n aanduiding dat sy reeds die antwoord op daardie vraag ken. Hy antwoord. “Die Paasvakansie. Daar is gewoonlik meer ongelukke.” “Korrek. En die tendensgrafiek dui dit aan. Wat ek nie verstaan nie, is hoekom daar so ’n buitengewone verhoging in Oktober was.” Michael het nie ’n idee nie. Vanessa verduidelik. “Statistiek is ’n baie waardevolle hulpmiddel. Maar daar is beperkings rakende wat ons uit statistieke kan leer. Dit is altyd belangrik dat ons die konteks rondom die statistieke verstaan. Ons statistieke sê vir ons dat daar ’n skielike verhoging in eise in Oktober was. Maar ons moet self die navorsing doen om te bepaal waar dit vandaan gekom het." Skielik helder Michael se gesig op. “Wag ’n bietjie! Oktober verlede jaar. My pa het ook ’n versekeringseis ingedien.”

©akademia (MSW)| Hoofstuk 2: Grafiese beskrywende statistiek

21


Elementêre Kwantitatiewe Metodes

“Wat was fout met sy motor?” “Haelstorms. Daar was amper elke dag ’n verskriklike storm. Die haelkorrels was so groot soos gholfballe.” “Dit is ’n moontlikheid. Ons weet nou waarvoor om te soek. Ons numeriese beskrywende statistiek sal daarmee kan help.” Michael is dadelik reg met ’n antwoord. “Ek het 'n paar gemiddelde en...” Vanessa val hom laggend in die rede. “Wag eers. Een ding op ’n slag. Kom ons werk eers deur jou grafiese beskrywende statistiek. Ons kan later aandag aan die numeriese statistieke gee.”

2.1

Wat is beskrywende statistiek?

Soos reeds in die eerste hoofstuk verduidelik is, behels statistiek die versameling en verwerking van data. Statistiek word meestal gebruik om gevolgtrekkings ten opsigte van ’n sekere populasie te maak. Data word versamel deur, byvoorbeeld, vraelyste wat ingevul word. Hierdie data word dan verwerk. Ons onderskei tussen twee kategorieë van verwerking wat op hierdie data uitgevoer word: •

Beskrywende statistiek

Afleidende (inferensiële) statistiek

Laasgenoemde behels die statistieke wat ons gebruik om gevolgtrekkings oor die populasie te maak. Voorbeelde van gevolgtrekkings wat deur afleidende statistiek gemaak kan word, is: •

Hoe ouer personeel by Maatskappy X is, hoe groter is hul salarisse.

B.Com.-studente hou gemiddeld meer van sjokolade as B.A.-studente.

Daar is ’n korrelasie tussen die tyd wat ’n leerder aan ’n vak spandeer en die punt wat hy/sy vir daardie vak behaal.

Afleidende statistiek verskaf dus dikwels die antwoorde op vrae wat in die eerste plek aanleiding tot die navorsing gegee het. In enige navorsingsprojek sal afleidende statistiek egter deur beskrywende statistiek voorafgegaan word. Beskrywende statistiek verskaf ’n “prentjie” van hoe die data lyk. Daar word nie gepoog om enige gevolgtrekkings te maak nie, maar bloot om vir die leser van so ’n verslag ’n oorsig van die data te gee. Beskrywende statistiek bestaan gewoonlik uit grafieke, tabelle en sekere numeriese waardes soos gemiddelde, maksimum- en minimumwaardes. Hierdie

22

Hoofstuk 2: Grafiese beskrywende statistiek | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes hoofstuk is gemoeid met grafiese beskrywende statistiek wat hoofsaaklik tabelle en grafieke insluit. Hoofstuk 3 sal weer op numeriese beskrywende statistiek fokus.

Item 1: Die frekwensietabel Beskou die volgende skets:

Figuur 2.1: Elemente van ’n versameling Deur na die gegewe skets te kyk, kan ons twee belangrike dinge sien: •

Daar is ’n groot hoeveelheid elemente in die versameling.

Ons kan onderskei tussen drie groepe (of kategorieë) in hierdie versameling: wit sirkels, donkergrys sirkels en sirkels met strepies.

Sorteer nou die verskillende sirkels in hierdie drie kategorieë (wit, grys en strepies). Jy behoort die volgende te kry:

©akademia (MSW)| Hoofstuk 2: Grafiese beskrywende statistiek

23


Elementêre Kwantitatiewe Metodes

K1

K2 K3

Figuur 2.2: Elemente van ’n versameling gekategoriseer Die sirkels is nou gekategoriseer: •

K1, K2 en K3 stel drie kategorieë voor.

Die hoeveelheid sirkels in elke kategorie word frekwensies genoem. o

K1 se frekwensie is 12

o

K2 se frekwensie is 9

o

K3 se frekwensie is 15

’n Frekwensietabel word gebruik om hierdie frekwensies voor te stel. ’n Frekwensietabel vir die bogenoemde sirkels sal soos volg lyk: Kategorie

Frekwensie

K1: Wit

12

K2: Grys

9

K3: Strepies

15

TOTAAL

36

Soms wil ons ook elke kategorie se proporsie van die totale frekwensies bepaal. Om hierdie rede sal ons soms ’n ekstra kolom byvoeg waarin die persentasies vir elke kategorie aangedui word. In bogenoemde frekwensietabel sal elke persentasie verkry word deur die

24

Hoofstuk 2: Grafiese beskrywende statistiek | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes frekwensie deur 36 (die totale frekwensies vir alle kategorieë) te deel. Die frekwensietabel sal dan soos volg daar uitsien: Kategorie

Frekwensie

Persentasie

K1: Wit

12

33.33%

K2: Grys

9

25%

K3: Strepies

15

41.67%

TOTAAL

36

100%

In die sakeomgewing werk ons egter nie met sirkels van verskillende kleure nie. Ons werk wel met kategorieë. ’n Student se studierigting, haarkleur en gunsteling restaurant is alles voorbeelde van kategoriese data. Beskou die volgende vraag wat in ’n vraelys voorkom: Vraag 1: Wat is die kleur van u oë? Blou Grys Bruin Swart Groen Ander

’n Respondent (die persoon wat die vraelys invul) sal dan ’n kruisie langs die korrekte antwoord maak. Gestel daar is 200 vraelyste. Die navorser sal dan na elke vraelys kyk en ’n strepie by ’n kategorie maak indien die respondent daardie kategorie gekies het, byvoorbeeld: Kleur

Frekwensie

Blou

||||| ||||| ||

Grys

||||| |

Bruin

||||| ||||| |||||

Swart

||||| ||||| ||

©akademia (MSW)| Hoofstuk 2: Grafiese beskrywende statistiek

25


Elementêre Kwantitatiewe Metodes

Groen

|||

Ander

||

Wanneer al die vraelyste deurgewerk is, sal die navorser dan tel hoeveel strepies by elke kategorie voorkom. Die hoeveelheid strepies (en dus die hoeveelheid respondente met daardie kleur oë) word die frekwensie genoem. Die frekwensietabel sal dan soos volg lyk: Kleur

Frekwensie

Blou

12

Grys

6

Bruin

15

Swart

12

Groen

3

Ander

2

Vinnige vrae Wat is ’n frekwensietabel? ’n Frekwensietabel is 'n tabel wat frekwensies in kategoriese data voorstel. Wanneer gebruik ons dit? ’n Frekwensietabel is ideaal vir kwalitatiewe data wat in kategorieë ingedeel kan word. Deur die frekwensies te bepaal kan kwalitatiewe data in kwantitatiewe data omgeskakel word. Met kwantitatiewe data kan berekeninge gedoen word. Is dit al waar ons frekwensietabelle kan gebruik? Nee, frekwensietabelle kan ook vir numeriese data gebruik word, soos wat later in hierdie hoofstuk gesien sal word. In so ’n geval moet die numeriese data egter steeds in kategorieë gegroepeer word. Voorbeeld van ’n vraag op ’n vraelys wat hierdie data sal versamel Vraag: Dui asseblief met ’n kruisie aan watter een van die onderstaande tydskrifte u gunsteling is:

26

Hoofstuk 2: Grafiese beskrywende statistiek | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

Die Huisgenoot Die Time Magazine Sarie Rooi Rose

Frekwensietabelle is ’n nuttige wyse om kategoriese data voor te stel. Ons kan egter selfs een stap verder gaan en die data in hierdie tabel op ’n meer visuele wyse voorstel. Hiervoor gebruik ons ’n kolomgrafiek en ’n sirkelgrafiek.

Item 2: Die kolomgrafiek Die voordeel daarvan om data met behulp van tabelle voor te stel is dat die leser heelwat besonderhede op een slag kan sien. Die gewilde spreekwoord sê egter dat ’n enkele prentjie beter is as ’n duisend woorde of, in hierdie geval, ’n duisend getalle. Om hierdie rede is grafieke baie nuttig wanneer data beskryf moet word. ’n Nuttige grafiek in hierdie verband is die kolomgrafiek. Hierdie grafiek kan vir enige tipe data gebruik word. Michael het die verskillende bronne van inkomste vir Vasvat Versekeraars ontvang. Hy het hierdie bronne in ’n tabel geplaas: Premies

R48 000 000

Huurinkomste

R9 000 000

Rente

R4 000 000

Ander

R2 000 000

TOTAAL

R63 000 000

Op Vanessa se versoek het Michael hierdie data grafies voorgestel. Een van die grafieke wat Vanessa aangevra het, was ’n kolomgrafiek. Die grafiek wat Michael dus opgestel het, lyk soos volg:

©akademia (MSW)| Hoofstuk 2: Grafiese beskrywende statistiek

27


Elementêre Kwantitatiewe Metodes

Figuur 2.3: Voorbeeld van ’n kolomgrafiek Dit is dus baie maklik om aan die een kant te sien watter bronne vir die grootste inkomste verantwoordelik was. Aan die ander kant is dit ook maklik om van die grafiek te lees wat die presiese bedrag was. (Die y-as aan die linkerkant dui byvoorbeeld aan dat premies vir R48 miljoen se inkomste verantwoordelik was). Vinnige vrae Wat is ’n kolomgrafiek? ’n Kolomgrafiek is ’n grafiese voorstelling van data. Deur na ’n kolomgrafiek te kyk kan verskillende data met mekaar vergelyk word en die presiese waarde van elke veranderlike (in bogenoemde geval die verskillende bronne van inkomste) kan van die grafiek afgelees word. Wanneer gebruik ons dit? ’n Kolomgrafiek kan gebruik word om beide kategoriese en numeriese data voor te stel. Dit is een van die eenvoudigste grafieke en behoort deur enige leser verstaan te word. Dit is ideaal vir numeriese data waar ’n enkele waarde vir verskillende veranderlikes verskaf word.

28

Hoofstuk 2: Grafiese beskrywende statistiek | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

Wanneer sal ’n kolomgrafiek nie gebruik word nie? ’n Kolomgrafiek sal tipies nie gebruik word om persentasies of verhoudings voor te stel nie (’n sirkelgrafiek werk beter hiervoor).

Item 3: Die sirkelgrafiek Nog ’n nuttige grafiek wat vir die voorstelling van data gebruik kan word, is ’n sirkelgrafiek. Soos aan die begin van hierdie hoofstuk genoem is, het Michael se beskrywende statistiek reeds ’n sirkelgrafiek bevat. Die data in hierdie grafiek is dieselfde data wat vir die bogenoemde kolomgrafiek gebruik is, naamlik die bronne waarvandaan Vasvat Versekeraars hul inkomste verkry het. Die grafiek lyk soos volg:

Figuur 2.4: Voorbeeld van ’n sirkelgrafiek Wat is die verskil tussen hierdie twee grafieke? Waarom het Vanessa daarop aangedring dat Michael beide grafieke moet skep? Die antwoord is eenvoudig: Waar die kolomgrafiek bloot die verskillende Rand-bedrae aangedui het, kan die sirkelgrafiek die verhouding tussen die verskillende bronne aandui. Uit hierdie grafiek is dit makliker om te sien dat premies vir meer as 75% van alle inkomste verantwoordelik was. Dit is nie eens nodig om die presiese bedrae of persentasies te sien nie. ’n Tipiese sirkelgrafiek sal gebruik word om die proporsionele bydrae van elke veranderlike tot ’n totaal aan te dui. In programmatuur soos Excel kan ’n sirkelgrafiek op ’n verskeidenheid wyses voorgestel word. Kyk na die volgende voorbeelde:

©akademia (MSW)| Hoofstuk 2: Grafiese beskrywende statistiek

29


Elementêre Kwantitatiewe Metodes

Figuur 2.5: Verskillende voorstellings van ’n sirkelgrafiek

Vinnige vrae Wanneer sal ons ’n sirkelgrafiek gebruik? ’n Sirkelgrafiek is ideaal om persentasies voor te stel. Dit word gebruik om elke veranderlike se bydrae tot ’n geheel te vertoon. Die volledige sirkel stel 100% voor, terwyl elke skyfie ’n proporsie van die geheel voorstel. ’n Sirkelgrafiek kan vir kategoriese data gebruik word (bv. Hoeveel van die respondente het Opsie A, Opsie B, Opsie C of Opsie D gekies?) asook vir numeriese data, soos die voorbeeld hierbo aandui. Kan ’n sirkelgrafiek slegs persentasies aandui? Nee. Hoewel die totaal van die sirkelgrafiek 100% van die totaal moet aandui, kan die verskillende waardes (byvoorbeeld in Rand) steeds gebruik word om die grafiek te teken. Byvoorbeeld:

30

Hoofstuk 2: Grafiese beskrywende statistiek | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

Item 4: Die histogram Die histogram is ’n spesiale vorm van ’n kolomgrafiek. Hierdie grafiek stel nie-kategoriese data voor. Hoewel die x-as kategorieë kan bevat, sal hierdie ordinale, interval- of ratio-data wees. Dit beteken dat, soos wat data na regs op die x-as beweeg, ’n toename in die veranderlike se waarde sal plaasvind. Michael en Vanessa het ’n histogram bespreek: Gevallestudie: Histogramme “Sou dit nie wonderlik gewees het as ons kon sien hoeveel kliënte Vasvat in elke ouderdomskategorie gehad het nie?” Michael glimlag. Hy het gehoop Vanessa sou hierdie vraag vra. “Bladsy 15,” sê hy. Vanessa kyk verras na hom en blaai dan vinnig na die korrekte bladsy. Sy glimlag beïndruk. “Kan jy nou meer!” roep sy uit. “Hoe het jy dit gedoen?” “Al die data was op die DVD wat jy vir my gegee het. Ek het net ’n eenvoudige frekwensietabel geskep en die data oorgedra.” Vanessa kyk na die histogram op bladsy 15. Dit lyk so:

©akademia (MSW)| Hoofstuk 2: Grafiese beskrywende statistiek

31


Elementêre Kwantitatiewe Metodes

“As ek so vinnig na die data kyk, lyk dit of ons grootste groep kliënte tussen 35 en 41 is,” sê sy. “Behalwe natuurlik vir die 56-jariges. Om die een of ander rede is daar nogal ’n groot groep kliënte wat 56 jaar oud is.” “Ek het nie enige kategorieë hier gebruik nie,” verduidelik Michael. “Dit is net sodat ons ’n idee kan kry van hoe die ouderdomme versprei is. Daar is nog ’n histogram waar ek kategorieë van tien jaar geskep het.” “Kan dit nog steeds ’n histogram genoem word?” vra Vanessa die vraag waarop sy reeds die antwoord ken. “Ja, solank as wat die kategorieë aangrensend is. Die ouderdomsgroep van 18 tot 27 dui op ’n jonger ouderdom as die groep van 28 tot 37. Dit is dus nie kategorieë soos die kliënte se gunsteling restaurant of die handelsnaam van die motor wat hulle bestuur nie.” “Goeie antwoord!” Vanessa kyk na die tweede histogram – die een waar ouderdomme in kategorieë verdeel is.

32

Hoofstuk 2: Grafiese beskrywende statistiek | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

“Die meeste van Vasvat Versekeraars se kliënte is in die 38 tot 47 ouderdomskategorie,” merk Vanessa op. “Hoewel dit nog te vroeg is om enige aannames te maak, sou ek raai dat hul bemarkingsveldtog daardie ouderdomsgroep in ag moet neem,” waag Michael. “Sonder om die ander twee groepe, 28 tot 37 en 48 tot 57 te ignoreer. Dié twee groepe het saam meer kliënte as die mediaangroep.” “Wat in hierdie geval ook die modus1 is.” Vanessa is tevrede.

Item 5: Kumulatiewe frekwensieverspreidings ’n Kumulatiewe frekwensieverspreiding is in effek slegs ’n ekstra kolom wat by ’n frekwensietabel bygevoeg word. In hierdie kolom word elke kategorie se frekwensie by die somtotaal van die vorige kategorieë se frekwensies gevoeg. Kyk na die volgende voorbeeld:

1

Die mediaan en die modus word in die volgende hoofstuk bespreek. Maak gerus ’n nota om weer hierdie deel deur te lees as jy gemaklik is met die definisies van hierdie terme.

©akademia (MSW)| Hoofstuk 2: Grafiese beskrywende statistiek

33


Elementêre Kwantitatiewe Metodes

Interval (10 jaar)

Frekwensies (Hoeveel respondente val in die kategorie?)

Kumulatiewe frekwensie

18-27

400

400

28-37

290

690

400 + 290

38-47

190

880

400 + 290 + 190

48-57

90

970

400 + 290 + 190 + 90

58-69

30

1000

400 + 290 + 190 + 90 + 30

Totaal

1000

(Notas ter verduideliking)

Die “notas te verduideliking” is slegs vir hierdie voorbeeld bygevoeg. Dit vorm nie gewoonlik deel van die kumulatiewe frekwensieverspreiding nie. Vinnige vrae Wat is die verskil tussen ’n frekwensietabel en ’n frekwensieverspreiding? Hierdie twee terme kan meestal as sinonieme van mekaar gebruik word. Daar is egter ’n tegniese verskil. Die frekwensietabel behels die rye en kolomme wat gebruik word om die data voor te stel, terwyl die frekwensieverspreiding na die fisiese data verwys. Wanneer word ’n kumulatiewe frekwensietabel gebruik? ’n Kumulatiewe frekwensietabel is veral nuttig wanneer die leser deurentyd die totale frekwensies in ag wil neem. Deur na die kumulatiewe frekwensietabel hierbo te verwys, is dit dus maklik om te sien dat die eerste twee kategorieë die meerderheid van die frekwensies bevat. Daar kan dus reeds uit hierdie tabel ’n idee van die verspreiding van die data verkry word. Kan ’n mens die kumulatiewe frekwensie met ’n grafiek voorstel? Wat sou dit beteken? Die kumulatiewe frekwensies kan met ’n kumulatiewe frekwensieveelhoek (ogive) voorgestel word. Hierdie grafiek word volgende bespreek.

34

Hoofstuk 2: Grafiese beskrywende statistiek | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

Item 6: Die kumulatiewe frekwensieveelhoek Die kumulatiewe frekwensieveelhoek word gebruik om kumulatiewe frekwensies grafies voor te stel. Die kumulatiewe frekwensieverspreiding van Vasvat Versekeraars kan soos volg voorgestel word:

Kategorie

Frekwensie (hoeveel kliënte in die kategorie)

Kumulatiewe frekwensie

18 tot 27

66 675

66 675

28 tot 37

240 990

307 665

38 tot 47

298 747

606 412

48 tot 57

247 062

853 474

58 tot 67

161 883

1 015 357

68 tot 77

19 185

1 034 542

’n Gewone lyngrafiek sal die frekwensies soos volg voorstel:

Figuur 2.6: Frekwensie voorgestel op ’n lyngrafiek

©akademia (MSW)| Hoofstuk 2: Grafiese beskrywende statistiek

35


Elementêre Kwantitatiewe Metodes Uit hierdie grafiek kan ons sien dat die frekwensies aanvanklik styg vir die eerste drie kategorieë, en dan begin dit daal. Die kumulatiewe frekwensieveelhoek sal egter soos volg lyk:

Figuur 2.7: Kumulatiewe frekwensieveelhoek Hierdie twee grafieke verskil drasties. Die eerste grafiek (van die frekwensies) verskil nie veel van die histogram nie. Die tweede grafiek poog om die verhouding van elke kategorie se frekwensies met die totale hoeveelheid kliënte uit te beeld. By die kategorie waar die helling die steilste is, is die grootste hoeveelheid kliënte by ’n kategorie gevoeg. Ons kan dus hier sien dat ’n klein persentasie van die totale hoeveelheid kliënte in die laaste kategorie bygevoeg is, omdat die helling amper horisontaal is. ’n Kumulatiewe frekwensieveelhoek maak dit ook makliker om te bepaal hoeveel kliënte bo of onder ’n spesifieke ouderdom lê. ’n Vraag soos “Hoeveel kliënte is jonger as 47?” kan vinnig met die volgende grafiek bepaal word:

36

Hoofstuk 2: Grafiese beskrywende statistiek | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

Figuur 2.8: Bepaling van ’n waarde op ’n kumulatiewe frekwensieveelhoek Die 38 tot 47 kategorie se kumulatiewe frekwensie (606 412) kan van die grafiek gelees word. Gevallestudie: Volgende aan die beurt Vanessa maak die lêer toe. “Ek dink ons is op die regte spoor. Tabelle en grafieke is baie nuttig om vir ons ’n oorsig van die data te gee. Wat weet ons dus nou van Vasvat Versekeraars?” Michael dink vir ’n oomblik. “Die meeste van hul inkomste word deur premies verkry. Hulle maak egter ook ’n groot hoeveelheid geld deur hul geboue uit te huur. Die April- en Desembervakansies is die besigste tye wat versekeringseise betref. ’n Natuurfrats, soos Oktober se haelstorms, kan egter ’n groot hoeveelheid eise tot gevolg hê.” “Wat weet ons van hul kliënte?” “Die jongste kliënt is agtien jaar oud en die oudste 75. Die meeste van hul kliënte val in die ouderdomsgroep van 38 tot 47, maar die twee aangrensende groepe, 28 tot 37 en 48 tot 57, het ook heelwat kliënte.” Vanessa dink ’n oomblik. “Dit is interessant. Maar dit is nie voldoende om ’n goeie beeld van hul kliënte te kry nie.” ©akademia (MSW)| Hoofstuk 2: Grafiese beskrywende statistiek

37


Elementêre Kwantitatiewe Metodes

“En dit is waarom ek die numeriese beskrywende statistiek moes voorberei,” glimlag Michael. “Presies. En ons sal oor ’n rukkie daarna kyk. Maar nou eers ... middagete.” Toe Vanessa en Michael die kantoor verlaat kan hy nie help om trots te voel nie. Vanessa hoef nie te weet dat hy die vorige nag nie ’n oog toegemaak het nie.

38

Hoofstuk 2: Grafiese beskrywende statistiek | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

HOOFSTUK 3: NUMERIESE BESKRYWENDE STATISTIEK

Onderwerpe 3.1

Wat is numeriese beskrywende statistiek?

3.2

Wat is ‘n gemiddeld?

3.3

Wat is ‘n mediaan?

3.4

Wat is ‘n modus?

3.5

Wat is geweegde gemiddeld?

3.6

Wat is kwantiele?

3.7

Wat is maatstawwe van spreiding?

3.4

Wat is ‘n standaardafwyking?

3.5

Wat is die variansiekoëffisiënt?

3.10

Wat is skeefheidskoëffisienënt?

©akademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek

39


Elementêre Kwantitatiewe Metodes

Gevallestudie: Numeriese beskrywende statistiek Michael drink ’n koppie koffie terwyl hy vir Vanessa wag. StatInc het ’n oulike koffiewinkel op die grondvloer. Ek sal nie omgee om vir hierdie maatskappy te werk nie, dink hy. Op die tafel lê twee lêers. Die een voor Michael is oop – hy het vir oulaas deur sy verslae gelees om seker te maak dat hy nie dalk ’n fout gemaak het nie. Die verslag het hom tot laat besig gehou... Vanessa kom haastig in en val met die deur in die huis. “Ek het jou grafiese beskrywende statistiek solank vir Vasvat Versekeraars gestuur.” Michael se maag trek op ’n knop. “En?” “Hulle is baie beïndruk met hoe deeglik die verslae is,” merk Vanessa droog op. “Hulle besef natuurlik dat dit slegs voorlopige statistiek is en nie sonder die numeriese beskrywende statistiek geïnterpreteer moet word nie. Ek het dit eintlik net gestuur sodat hulle kan sien dat ons nie niks doen nie.” “Solank hulle tevrede is, is ek gelukkig.” “Wat drink jy?” Michael glimlag. Hy het lankal uitgevind dat Vanessa ook nie sonder haar koffie kan klaarkom nie. “Cappuccino,” sê hy. “En jy was reg – dit is verslawend.” Nadat Vanessa ’n groot cappuccino bestel het, kyk sy na die lêer wat Michael voor haar neergesit het. Hulle het afgespreek om Michael se numeriese beskrywende statistiek in die koffiewinkel te bespreek. Dit gee Vanessa ’n geleentheid om uit die kantoor, waar daar te veel onderbrekings is, te ontsnap. En die koffie is inderdaad baie lekker. “Wat het jy vir my?” Vanessa begin deur die lêer blaai. “Gemiddelde, standaardafwykings, kwantiele, skeefheidskoëffisiënte, mediane en modusse. En enigiets anders waaraan jy dalk mag dink.” “Herinner my om jou in die toekoms vooraf te sê wat ek nodig het. Dan sal dit nie nodig wees om ’n ensiklopedie te skryf nie. Jy het seker niks geslaap nie.” “Slaap is vir die voëls,” sê Michael en onderdruk ’n gaap.

40

Hoofstuk 3: Numeriese beskrywende statistiek | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

3.1

Wat is numeriese beskrywende statistiek?

Soos reeds genoem, onderskei ons tussen numeriese en grafiese beskrywende statistiek. Grafiese beskrywende statistiek is veral nuttig as ons vir die leser ’n groter prentjie oor die data wil verskaf. Dit is egter nie baie spesifiek nie. ’n Leser wat na ’n grafiek kyk, kan ’n idee kry van hoe die data versprei is en dalk ’n gemiddeld skat. Om egter ’n meer akkurate oorsig oor die data te verkry, sal die leser hom of haar na numeriese beskrywende statistiek moet wend. Soos wat die naam voorstel, behels numeriese beskrywende statistiek getalle wat die aard van data beskryf. Daar word nie enige gevolgtrekkings oor die populasie op die steekproef gebaseer (soos wat die geval met afleidende of inferensiële statistiek is) nie. Die bekendste numeriese beskrywende statistiek is die gemiddeld, mediaan, modus (maatstawwe van sentrale lokaliteit), kwantiele (maatstawwe van nie-sentrale lokaliteit), en die standaardafwyking en skeefheidskoëffisiënt (maatstawwe van spreiding). Gevallestudie: Die gemiddelde premie van ’n gemiddelde kliënt “Vierhonderd-drie-en-sestig rand,” Vanessa frons. “En sewe-en-negentig sent,” voeg Michael by. “Dit is baie minder as wat ek per maand aan versekering betaal.” “Miskien moet jy ’n nuwe versekeraar kry. Iemand soos Vasvat Versekeraars," sê Michael met ’n glimlag. “Of miskien moet ek net ’n goedkoper motor kry. Onthou, hierdie is slegs ’n gemiddeld. Die kanse is goed dat daar heelwat kliënte is wat meer as dit betaal.” Michael knik instemmend. “En daar is heelwat kliënte wat minder betaal.” “Hoe groot was die steekproef?” Michael kyk vlugtig na sy kopie van die verslag. “Hierdie kan nie regtig ’n steekproef genoem word nie. Vasvat het vir ons ál hul kliënte se premies verskaf.” “Ons kyk dus na hoeveel... ’n Miljoen kliënte?” “Eenmiljoen vier-en-dertig-duisend vyfhonderd-twee-en-veertig.” Vanessa kan nie help om te glimlag as Michael aandring om presies te wees nie. Dit is seker ’n sterkpunt. “Was daar enige uitskieters?” “Daar was ’n paar kliënte wat baie hoë premies betaal het. En ’n handjievol het nie hierdie ©akademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek

41


Elementêre Kwantitatiewe Metodes maand enigiets betaal nie.” “Hoe beïnvloed die uitskieters die gemiddeld?” “Nie noemenswaardig nie.” Soos die meeste van die vrae wat Vanessa vra, was hierdie iets waaroor Michael ook gewonder het. “Ek het ook ’n gemiddeld bereken nadat ek alle waardes onder R100 en alles waardes bo R2 000 uitgehaal het.” “Hoekom het jy daardie spesifieke bedrae gekies?” “Wel, Vasvat het geen normale premies onder R100 nie. R100-premies is dus spesiale gevalle. En enigiets bo R2 000 is ook gevalle waar Vasvat sou verkies het om nie die versekeraar te wees nie. Die risiko is te groot. Maar om die een of ander rede is die kliënte steeds bereid om te betaal.” Vanessa knik. “Maak sin. En het die uitskieters ’n verskil aan die gemiddeld gemaak?” “Nie meer as ’n paar sent nie.” “Waarom, dink jy, is dit die geval?” “Die groot hoeveelheid waardes. Hoe groter die steekproef is, hoe kleiner is die effek van ’n enkele waarde.” “Hoeveel uitskieters was daar?” “Eenhonderd-drie-en-twintig... wat nog steeds baie min is as ’n mens in ag neem dat daar meer as ’n miljoen waardes was.” Vanessa oorweeg die inligting vir ’n oomblik. “Wat jy dus kan sê is: die bedrag wat ’n gemiddelde Vasvat-kliënt met ’n gemiddelde motor kan verwag om per maand aan versekering te betaal, is vierhonderd-drie-en-sestig rand.” Michael maak sy mond oop om iets te sê, maar Vanessa spring hom voor: “En sewe-ennegentig sent.” Michael lag. “Presies.”

3.2

Wat is ’n gemiddeld?

Ons leer van kleins af om gemiddelde te bereken. Op skool wou jy dalk bepaal het wat die gemiddeld van al jou vakke se punte was. Dan sou jy die ses of sewe vakke se punte bymekaar getel het en deur ses (of sewe) gedeel het. Die onderwyser wou dalk ’n idee gekry het van hoe goed haar klas presteer het. Sy sou dan al die punte van al die leerders bymekaar getel het en gedeel het deur die aantal leerders in haar klas.

42

Hoofstuk 3: Numeriese beskrywende statistiek | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes ’n Gemiddeld is in hierdie geval baie nuttig vir vergelyking. Die onderwyser kan nou na ’n spesifieke leerder se punt kyk en bepaal of hierdie leerder beter of swakker as die klasgemiddeld presteer het. Die onderwyser kan ekstra aandag gee aan leerders wat swakker as die klasgemiddeld presteer het. Die onderwyser kan ook die klasgemiddeld van verskillende klasse met mekaar vergelyk. Daardie klasse wat die swakste presteer het, kan dan ook ekstra aandag kry. Gestel Michael het besluit om sy eie navorsing ten opsigte van Vasvat se kliënte te doen. Gestel hy stel belang in die gemiddelde ouderdom van Vasvat se kliënte. In hierdie geval sal Michael ’n steekproef saamstel. (Vir illustrasiedoeleindes sal ’n steekproef van tien kliënte gebruik word. In praktyk sal hierdie steekproef baie groter moet wees om verteenwoordigend van die populasie te wees.) Michael vra dan aan elkeen van hierdie respondente die volgende vraag: “Wat is jou ouderdom?” Die respondente kan hierdie vraag op ’n verskeidenheid wyses antwoord, byvoorbeeld deur middel van ’n onderhoud of anoniem deur middel van ’n geskrewe of elektroniese vraelys. Gestel die tien respondente het die volgende geantwoord:

38

50

41

30 53

68 29

44

25 22

Figuur 3.1: Grafiese voorstelling van respondente se antwoorde op ’n vraelys

©akademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek

43


Elementêre Kwantitatiewe Metodes Toe Michael se dataversameling afgehandel is, het hy dus die volgende waardes gehad: 25

29

30

68

22

53

44

41

38

50

Michael besluit nou om die gemiddelde ouderdom te bereken. Hy doen dit deur al die bogenoemde ouderdomme bymekaar te tel en dan die antwoord deur tien te deel (omdat daar tien waardes is): Gemiddeld

= (25 + 29 + 30 + 68 + 22 + 53 + 44 + 41 + 38 +50) ÷ 10 = 400 ÷ 10 = 40 jaar

Omdat Michael ouderdomme bymekaargetel het, sal die antwoord ook in jare gemeet word. Die gemiddelde kliënte in Michael se steekproef is dus 40 jaar oud. Die formule vir ’n gemiddeld lyk soos volg:

x̄ =

Wat beteken hierdie formule? •

Die Σ teken dui op die som (bymekaartel) van ’n aantal waardes.

dui op elke waarde wat vir die gemiddeld gebruik moet word. dui op die eerste waarde (25), dui op die tweede waarde (29) en dui op die tiende en laaste

waarde (50). beteken dat daar by begin moet word en by geëindig moet

word. Σx beteken dat alle waardes vanaf tot by bymekaargetel moet word. •

n dui op die grootte van die steekproef. In hierdie geval het Michael tien persone vir hul ouderdomme gevra, dus is n in hierdie geval 10: n = 10

Dit is belangrik om te onthou dat x̄ en n die simbole is wat ons vir die steekproef (gemiddeld en steekproefgrootte onderskeidelik) gebruik. Ons gebruik hierdie simbole omdat Michael die gemiddeld van ’n steekproef van tien persone bereken het en nie dié van die populasie nie. Indien Michael dieselfde gemiddeld vir die hele populasie (ál Vasvat se kliënte) wou bereken, sou die simbool μ vir die populasiegemiddeld en N vir die populasiegrootte gebruik word.

44

Hoofstuk 3: Numeriese beskrywende statistiek | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

Probeer self Bereken nou die gemiddelde van elk van die volgende datastelle. Die antwoord word verskaf sodat jy jouself kan toets: Vraag 1: ’n Navorser wil bepaal hoeveel ure respondente per week aan ontspanning spandeer. Die volgende datastel is verkry. Bereken die gemiddeld. 10

10

20

18

15

19

10

14

18

21

19

11

10

15

16

21

18

19

14

12

Antwoord: 15.5 uur per week Vraag 2: ’n Navorser wil bepaal hoe vêr werknemers van die huis af woon. ’n Groep van sestien werknemers is gevra hoe vêr hulle van die werk af woon. Die onderstaande data (in kilometers) is verkry. Bereken die gemiddeld afstand wat ’n werknemer van die werk af woon. 9

100

150

175

19

28

200

12

60

65

37

111

132

79

44

11

Antwoord: 77 kilometer Vraag 3: ’n Marknavorser vra 25 respondente se ouderdom. Bereken die gemiddelde ouderdom deur van die onderstaande data gebruik te maak. 72

83

87

94

35

68

84

56

56

63

44

80

20

77

40

16

69

71

61

90

25

56

61

51

53 Antwoord: 60.48 jaar

©akademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek

45


Elementêre Kwantitatiewe Metodes

Vraag 4: ’n Groep van vyftien konsultante word gevra hoeveel geld hulle in die laaste week verdien het. Die waardes hieronder is vanaf die vyftien respondente verkry. Bereken die gemiddelde salaris wat ’n konsultant in die laaste week verdien het. R8 300

R4 700

R9 490

R1 594

R9 100

R2 750

R9 240

R3 820

R8 760

R2 470

R5 700

R1 680

R10 001

R6 800

R4 980

Antwoord: R5 959

Gevallestudie: Oudtshoorn Vanessa kyk na ’n verslag getiteld: BESKRYWENDE STATISTIEK: OUDTSHOORN. Sy glimlag. “Is daar iets fout?” vra Michael. “Nee. Ek is op Oudtshoorn gebore. Ek is bly om te sien daar is nog heelwat ekonomiese aktiwiteite op die dorp.” Michael sug saggies van verligting. “Oudtshoorn het meestal individuele kliënte,” verduidelik hy. “Maar ’n kwart van hulle premies is afkomstig van twee groot sakeondernemings.” “A, nou maak dit sin.” Michael gee haar ’n vraende kyk. “Kyk na die numeriese beskrywende statistiek vir Oudtshoorn. Sien jy enigiets wat vreemd is?” Michael kyk na die verslag:

46

Hoofstuk 3: Numeriese beskrywende statistiek | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

“Die verdeling van die bronne van inkomste lyk omtrent dieselfde as die nasionale verdeling,” probeer hy. “En?” “Die gemiddeld is hoër as die land se gemiddeld. Aansienlik hoër.” Michael kyk fronsend na die verslag. Dan helder sy gesig op. “Die mediaan!” roep hy uit. “Daar is ’n verskil tussen die mediaan en die gemiddeld. ’n Massiewe verskil!” “Presies. En wat dink jy veroorsaak hierdie verskil in Oudtshoorn?” Michael glimlag selfvoldaan. “Uitskieters.” Vanessa knik. “Die maatskappye met hul groot premies.”

©akademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek

47


Elementêre Kwantitatiewe Metodes

3.3

Wat is ’n mediaan?

Ons onderskei tussen ’n verskeidenheid van maatstawwe van lokaliteit (measures of central tendency). Die bekendste hiervan is die rekenkundige gemiddeld wat in die vorige paragraaf bespreek is. Nog twee bekende maatstawwe van lokaliteit is die mediaan en die modus. Die modus word in die volgende paragraaf bespreek. Die mediaan (median) word verkry deur die alle waardes in die datastel van klein na groot te sorteer. Die mediaan is dan daardie waarde wat presies in die middel voorkom. Bereken ’n mediaan Kyk na die volgende waardes: 20

80

10

17

40

15

90

Om die mediaan te bereken moet die waardes eers gesorteer word – van klein na groot: 10

15

17

20

40

80

90

Die waarde presies in die middel kan maklik direk van die datastel afgelees word: 10

15

17

20

40

80

90

Maar wat as daar nie een waarde in die middel is nie? Dit is maklik om ’n mediaan te bereken as die hoeveelheid waardes ’n onewe getal is. (In die voorbeeld hierbo is daar sewe waardes, wat ’n onewe getal is.) Maar wat doen ons as daar byvoorbeeld agt waardes is? Kyk na die volgende datastel: 40

20

19

10

70

50

60

30

60

70

60

70

Om die mediaan te bereken moet die data nou gesorteer word: 10

19

20

30

40

50

Daar is nou twee waardes in die middel: 30 en 40. Wat nou gemaak? 10

19

20

30

40

50

Die antwoord is heel eenvoudig: Tel die twee waardes in die middel bymekaar en deel dit deur twee:

48

Hoofstuk 3: Numeriese beskrywende statistiek | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes Mediaan

= (30 + 40) ÷ 2 = 70 ÷ 2 = 35

Dus word die rekenkundige gemiddeld van hierdie twee waardes bereken om die mediaan te verkry. Die mediaan is dus nou presies in die middel van 30 en 40, by die waarde 35.

Wat van groepe? Dit is maklik om die mediaan te bereken vir sewe of agt heelgetalle. Maar wat maak ’n mens as jy die mediaan moet bereken vir die premies van ’n miljoen kliënte? Dit gaan feitlik onmoontlik wees (en baie tyd neem) om al die premies met die hand van klein na groot te sorteer! Kyk weer na die uiteensetting van Vasvat se kliënte en hul ouderdomme. (Die tabel is effens aangepas om die verduideliking te vergemaklik.) Kategorie

Frekwensie (hoeveel kliënte in die kategorie)

Kumulatiewe frekwensie

18 tot 27

66 675

66 675

28 tot 37

240 990

307 665

38 tot 47

298 747

606 412

48 tot 57

247 062

853 474

58 tot 67

161 883

1 015 357

68 tot 77

19 186

1 034 543

Hoe sal ’n mens die mediaan hiervan bereken (sonder om die meer as eenmiljoen ouderdomme van klein na groot te rangskik)? Om die mediaan vir ’n groot hoeveelheid waardes (soos die meer as eenmiljoen ouderdomme) te bereken, is daar drie stappe wat gevolg moet word: Stap 1: Maak die inligting hanteerbaar deur dit te kategoriseer. Dit is in die tabel hierbo gedoen. In plaas daarvan om al die ouderdomme neer te skryf, is die ouderdomme nou in ses kategorieë ingedeel. Die voordeel hieraan verbonde is dat die data meer hanteerbaar is. Die nadeel is dat die vlak van data nie meer ratio is nie, maar ordinaal of interval (afhangende van hoe die kategorieë geskep is).

©akademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek

49


Elementêre Kwantitatiewe Metodes Stap 2: Bepaal die kategorie waarin die mediaan voorkom. Die posisie van die mediaan van die 1 034 543 ouderdomme sal presies in die middel voorkom. Die mediaan is dus die 517 272ste waarde (1 034 543 ÷ 2). As gevolg van die kategorieë kan ons nou nie presies sê wat die 517 272ste waarde is nie, maar die kumulatiewe frekwensiekolom kan vir ons aandui in watter kategorie hierdie waarde voorkom: Kategorie

Frekwensie (hoeveel kliënte in die kategorie)

Kumulatiewe frekwensie

18 tot 27

66 675

66 675

28 tot 37

240 990

307 665

38 tot 47

298 747

606 412

48 tot 57

247 062

853 474

58 tot 67

161 883

1 015 357

68 tot 77

19 186

1 034 543

Mediaan lê hier êrens

Stap 3: Benader nou die 517 272ste ouderdom se waarde. Onthou, die mediaan is nie 517 272 nie. 517 272 is slegs die posisie van die mediaan. Maar hoe benader ons die waarde? Kom ons fokus op die kategorie waarin die mediaan voorkom: Kategorie

Frekwensie (hoeveel kliënte in die kategorie)

50

Kumulatiewe frekwensie

18 tot 27

66 675

66 675

28 tot 37

240 990

307 665

38 tot 47

298 747

606 412

48 tot 57

247 062

853 474

58 tot 67

161 883

1 015 357

68 tot 77

19 186

1 034 543

Hoofstuk 3: Numeriese beskrywende statistiek | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes Daar is tien verskillende ouderdomme in hierdie kategorie. Omdat ons nie presies weet hoeveel van die respondente elke ouderdom gekies het nie, verdeel ons nou die 298 747 gelykop tussen die tien ouderdomme: Frekwensies per ouderdom = 298 747 ÷ 10 = 29 874.7 Ouderdom

Frekwensie

38

29 874.7

39

29 874.7

40

29 874.7

41

29 874.7

42

29 874.7

43

29 874.7

44

29 874.7

45

29 874.7

46

29 874.7

47

29 874.7

Die mediaan kan nou benader word deur die kumulatiewe frekwensie vir elke ouderdom in hierdie kategorie te bereken. Kyk hoe die kumulatiewe frekwensietabel hieronder aangepas is: Kategorie

Frekwensie (hoeveel kliënte in die kategorie)

Kumulatiewe frekwensie

18 tot 27

66 675

66 675

28 tot 37

240 990

307 665

38 tot 47

Ouderdom

Frekwensie

Kum.

38

29 874.7

337 539.7

39

29 874.7

367 414.7

©akademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek

51


Elementêre Kwantitatiewe Metodes

40

29 874.7

397 289.1

41

29 874.7

427 163.8

42

29 874.7

457 038.5

43

29 874.7

486 913.2

44

29 874.7

516 787.9

45

29 874.7

546 662.6

46

29 874.7

576 537.3

47

29 874.7

606 412

298 747

606 412

48 tot 57

247 062

853 474

58 tot 67

161 883

1 015 357

68 tot 77

19 186

1 034 543

Mediaan lê hier êrens

Al wat ons nou moet doen, is om die mediaan te vind. Dit kan vanaf die tabel gelees word. Waar in die kategorie “38 tot 47 jaar” sal die mediaan se posisie 517 272 voorkom? Die 517 272ste waarde sal in die 44 jaar-kategorie voorkom. Die mediaan is dus 44. Dit is belangrik om daarop te let dat hierdie 44 slegs ’n benaderde mediaan is. Om dit te bereken het ons aangeneem dat die verskillende frekwensies vir elke ouderdom in die “38 tot 47”-kategorie presies dieselfde is. Dit is egter ’n goeie aanduiding van wat die mediaan kan wees.

Moet ek altyd hierdie lang proses volg? Gelukkig nie. Dit is belangrik dat jy hierdie proses verstaan. Die proses hierbo kan egter deur ’n formule voorgestel word. Die formule sal selfs ’n meer akkurate mediaan verskaf omdat dit die mediaan-kategorie (44 in hierdie geval) ook opdeel in kleiner dele en presies bepaal waar die 517 272ste waarde voorkom. Om die verduideliking te vergemaklik word die oorspronklike kumulatiewe frekwensietabel hieronder verskaf:

52

Hoofstuk 3: Numeriese beskrywende statistiek | ©akademia (MSW)


ElementĂŞre Kwantitatiewe Metodes

Kategorie

Frekwensie (hoeveel kliĂŤnte in die kategorie)

Kumulatiewe frekwensie

18 tot 27

66 675

66 675

28 tot 37

240 990

307 665

38 tot 47

298 747

606 412

48 tot 57

247 062

853 474

58 tot 67

161 883

1 015 357

68 tot 77

19 186

1 034 543

Mediaan in hierdie kategorie

Die formule om ’n mediaan vir gekategoriseerde waardes te vind, is:

Me = Ome +

[ ]

Elk van die elemente van hierdie vergelyking kan soos volg verduidelik word: •

Me is die simbool vir die mediaan.

•

Ome is die laagste waarde in die kategorie waar die mediaan voorkom. In hierdie geval is dit 38.

•

c is die grootte van die kategorie, met ander woorde die hoeveelheid waardes wat in die kategorie voorkom. In hierdie geval kom die waardes 38, 39, 40, 41, 42, 43, 44, 45, 46 en 47 in die kategorie “38 tot 47� voor. Dus is die kategoriegrootte, en c, 10.

•

n is die totale hoeveelheid waardes. In hierdie geval is dit 1 034 543.

•

fme is die totale hoeveelheid frekwensies in die kategorie waarin die mediaan voorkom (in hierdie geval die kategorie “38 tot 47�). In hierdie geval is fme dus 298 747.

•

f(<) is die kumulatiewe frekwensie van al die kategorieĂŤ tot voor die kategorie waarin die mediaan voorkom, in hierdie geval is dit 307 665

As ons die formule toepas op die ouderdomme van Vasvat se kliĂŤnte, kan ons die mediaan soos volg bereken:

Šakademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek

53


ElementĂŞre Kwantitatiewe Metodes

Me

= Ome +

= 38 +

[ ]

]

[

= 45.016 jaar Die meer akkurate mediaan is dus 45.016 jaar. Hierdie mediaan stem redelik ooreen met die benaderde mediaan (van 44).

Waarom is ’n mediaan nuttig? ’n Mediaan is nuttig om ’n verskeidenheid redes. Rede 1: ’n Rekenkundige gemiddeld kan nie altyd bereken word nie. Kyk na die volgende frekwensietabel wat aandui hoe gereeld 80 respondente oefen: Hoe gereeld?

Frekwensie (Hoeveel respondente het hierdie kategorie gekies)

Kumulatiewe frekwensie

Daagliks

20

20

Weekliks

15

35

Maandeliks

30

65

Jaarliks

15

80

TOTAAL

80

Mediaan kom hier voor

Die mediaan kom voor tussen posisie 40 en 41, wat dui op die “maandeliks�-kategorie. Hieruit kan ’n mens aflei dat die gemiddelde respondent nie baie gereeld oefen nie. Dit is egter nie moontlik om ’n rekenkundige gemiddeld te bereken nie. Rede 2: ’n Mediaan is nie sensitief vir uitskieters nie. Kyk na die volgende voorbeeld: ’n Groep vriende sit op ’n (baie lang) bank in die park. Hulle besluit dat die volgorde waarin hulle sit deur die totale waardes van hulle bates (met ander woorde, hoe ryk hulle is) bepaal moet word. Die volgende skets stel die vriende voor:

54

Hoofstuk 3: Numeriese beskrywende statistiek | Šakademia (MSW)


Elementêre Kwantitatiewe Metodes

R20 000

R10 000

R15 000

R70 000

R50 000

R200 000

R100 000

R80 000

R150 000

Figuur 3.2: Grafiese voorstelling van data sonder uitskieters Die gemiddeld is: (10 000 + 15 000 + 20 000 + 50 000 + 70 000 + 80 000 + 100 000 + 150 000 + 200 000) ÷ 9 = R77 222 Die mediaan is by Posisie 5 en is dus R70 000. Gestel nou een van die vriende se ryk kollegas sluit by hulle aan. Hierdie kollega het totale bates van tweebiljoen rand (R2 000 miljoen). Die prentjie lyk dus nou soos volg:

R20 000

R10 000

R15 000

R70 000

R50 000

R200 000

R100 000

R80 000

R150 000

R2 000 000 000

Figuur 3.3: Grafiese voorstelling van data met ‘n uitskieter ©akademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek

55


Elementêre Kwantitatiewe Metodes Die gemiddeld is nou: (10 000 + 15 000 + 20 000 + 50 000 + 70 000 + 80 000 + 100 000 + 150 000 + 200 000 + 2 000 000 000) ÷ 10 = R222 299 444 Hierdie gemiddeld is drasties hoër as die gemiddeld sonder die ryk vriend (R77 222)! Die mediaan skuif egter slegs ’n halwe posisie na regs, tussen posisies 5 en 6. Die mediaan is dus: Me

= (70 000 + 80 000) ÷ 2 = R75 000

Waar die gemiddeld drasties deur die uitskieter (die ryk vriend) beïnvloed is, is die mediaan amper onveranderd. Dit is ook wat Vanessa in die data van Vasvat se Oudtshoorn-tak raakgesien het. Die twee groot kliënte het ’n groot invloed op die gemiddelde premie gehad (en was dus uitskieters) terwyl die mediaan die nasionale gemiddeld verteenwoordig het. Gevallestudie: Vasvat se unieke diens “Vasvat is nogal suksesvol.” Michael het pas deur die versekeraar se finansiële state gelees. Vanessa knik. “Dit is omdat hulle ’n unieke diens bied.” Michael kyk vraend na haar. Volgens hom is versekeraars maar dieselfde. ’n Mens kan hom nie kwalik neem nie. Hy het wel sy eie bakkie met sy spaargeld gekoop, maar sy pa het aangebied om die versekering te reël en te betaal. “Vasvat het intensiewe navorsing gedoen. Deur ’n kombinasie van kliëntebehoeftes en hul risikoprofiele, kon Vasvat gestandaardiseerde pakkette saamstel. Amper soos ’n mediese fonds. Die kliënte was mal daaroor.” “Hoekom? Ek sou dink dat kliënte juis sou hou van pakkette wat volgens hulle eie unieke behoeftes saamgestel word.” “Sulke pakkette neem tyd om te aktiveer. Kliënte moes vir twintig minute oor die telefoon ’n magdom vrae beantwoord. Die meerderheid kliënte het dit gehaat.” “Ek sou een van hulle gewees het.” Michael hou nie van lang telefoongesprekke nie. “Die opsie om pasgemaakte pakkette aan te vra, is steeds beskikbaar, maar hierdie pakket

56

Hoofstuk 3: Numeriese beskrywende statistiek | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes is slegs aanlyn beskikbaar. Voornemende kliënte vul ’n aanlynvorm in en ontvang dadelik terugvoer.” “En vir die res is daar drie pakkette?” “Korrek. Wild-en-wakker is die mees omvattende pakket. Die kliënt word teen ’n verskeidenheid risiko's beskerm, maar die premies is ook die hoogste. En kliënte onder die ouderdom van vyf-en-twintig word verplig om hierdie pakket te neem.” Michael kyk na ’n frekwensietabel in die verslag. “Wat gedeeltelik verduidelik waarom wilden-wakker die modus is,” sê hy.

3.4

Pakket

Hoeveelheid kliënte

Wild-en-wakker

787 211

Vat-dit-kalm

50 223

Kleindorpie-kind

101 992

Pasgemaak

95 117

Wat is ’n modus?

Die derde maatstaf van lokaliteit is die modus. Die modus (mode) is daardie waarde wat die meeste in ’n datastel voorkom. ’n Modus is redelik maklik om te bepaal. Kyk na die volgende datastel van ouderdomme: 18

18

20

25

17

19

18

19

27

Watter ouderdom kom die meeste voor? ’n Frekwensietabel sal die antwoord verskaf: Ouderdom

Frekwensie

17

1

18

3

19

2

20

1

25

1

27

1

©akademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek

57


Elementêre Kwantitatiewe Metodes Die modus in hierdie geval is dus 18 met ’n frekwensie van 3. Die modus is ’n nuttige maatstaf, veral met data waar daar nie ’n mediaan of rekenkundige gemiddeld bereken kan word nie. Nominale data is ’n voorbeeld hiervan. Kyk na die volgende frekwensietabel wat aandui in watter provinsies ’n sekere onderneming se kliënte woon: Provinsie

Frekwensie

Wes-Kaap

240

Vrystaat

150

KwaZulu-Natal

160

Gauteng

440

Noord-Kaap

10

Die modus is Gauteng, die provinsie waarin die meeste kliënte bly, met ’n frekwensie van 440. ’n Gemiddeld en mediaan sou in hierdie geval niksseggend gewees het. Modus vir intervalle Kan ’n mens ’n modus bepaal vir kategorieë van numeriese data? Die antwoord is “ja”. Kyk weer na Vasvat se kliënte-ouderdomme: Kategorie

Frekwensie

18 tot 27

66 675

28 tot 37

240 990

38 tot 47

298 747

48 tot 57

247 062

58 tot 67

161 883

68 tot 77

19 186

Dit is duidelik dat die kategorie "38 tot 47" die modus-kategorie is – die frekwensie van 298 747 is die hoogste. Maar watter ouderdom in hierdie kategorie is die modus? Is dit 38, 39, 40, 41, 42, 43, 44, 45, 46 of 47?

58

Hoofstuk 3: Numeriese beskrywende statistiek | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes Soos wat die geval met die mediaan was, kan hierdie antwoord ook bereken word. Die formule om ’n modus vir numeriese, gekategoriseerde data te bepaal is: Mo = Omo +

!

! "

Die verskillende simbole stel die volgende voor: •

Mo stel die modus voor.

•

Omo stel die onderste limiet van die modus-interval (38 tot 47) voor. In hierdie geval is dit 38.

•

c stel die grootte van die modus-interval voor. Die ouderdomme in die modus-interval (of -kategorie) is 38, 39, 40, 41, 42, 43,44, 45, 46 en 47. Daar is dus tien ouderdomme in hierdie interval. c is 10.

•

fm dui op die frekwensies in die modus-interval. In hierdie geval is die frekwensie van die “38 tot 47�-interval 298 747.

•

fm-1 dui op die frekwensie van die interval voor die modus-interval (dus 28 tot 37). In hierdie geval is dit 240 990.

•

fm+1 dui op die frekwensie van die interval na die modus-interval (dus 48 tot 57). In hierdie geval is dit 247 062.

Met hierdie waardes kan die modus nou bereken word: Mo

!

! "

= Omo

+

= 38 +

= 38 +

= 43.27 Die ouderdom wat dus die meeste voorkom onder Vasvat se kliĂŤnte (en dus die modus) is 43.27 jaar. Gevallestudie: Die agente Vanessa lees deur een van Michael se verslae. Sy is beĂŻndruk met die deeglikheid waarmee die student sy werk doen. Dan sien sy iets raak. â€?Blaai gou na bladsy vier-en-twintig,â€? sĂŞ sy. Šakademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek

59


Elementêre Kwantitatiewe Metodes

Michael gehoorsaam. “Die verkoopsagente?” Vanessa knik. “Hoe het jy by die gemiddelde ervaring uitgekom? Het hulle vir jou die rou data gegee?” Michael kyk na die frekwensietabel in die verslag: Jare ervaring

Hoeveel agente

1

140

2

180

3

110

4

120

6

50

7

50

8

20

9

25

10

5

TOTAAL

700

Gemiddeld agent het 3.421 jaar ondervinding. “Nee,” sê Michael. “Die frekwensietabel was al wat ek ontvang het.” “Hoe het jy by dan by die gemiddeld uitgekom?” “Ek het ’n geweegde gemiddeld gebruik.” Vanessa glimlag. “Waar daar ’n wil is, is daar ’n weg.” Michael probeer om sy trots weg te steek. “Moet net nie vir my vra om ’n standaardafwyking te bereken nie.” “Dit is nie te moeilik nie,” sê Vanessa en Michael besef weereens waarom haar bynaam in die kantore “Juffrou Einstein” is.

60

Hoofstuk 3: Numeriese beskrywende statistiek | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

3.5

Wat is ’n geweegde gemiddeld?

’n Geweegde gemiddeld word gebruik wanneer verskillende waardes (waarvan die gemiddeld bereken moet word) nie dieselfde gewig dra nie. In Vasvat se geval was hierdie waardes 1, 2, 3, 4, 6, 7, 8, 9 en 10 jaar ondervinding. Die gemiddeld van hierdie nege waardes is: Gemiddeld

= (1 + 2 + 3 + 4 + 6 + 7 + 8 + 9 + 10) ÷ 9

VERKEERD!

= 50 ÷ 9 = 5.556 jaar Hierdie gemiddeld sou verkeerd wees, omdat dit sou beweer dat die gemiddelde agent 5.556 jaar ondervinding het. Dit neem egter nêrens die hoeveelheid agente by elke jaargroep in ag nie. Hoe kan ’n meer akkurate gemiddeld bereken word? Die frekwensietabel dui aan dat daar 140 agente met een jaar ondervinding is. So ook is daar 180 agente met twee jaar ondervinding, 110 agente met drie jaar ondervinding, ensovoorts. Die oorspronklike datastel sou dus die volgende data bevat het: 140 1’e 180 2’s 110 3’e 120 4’s 50 6’e 50 7’s 20 8’s 25 9’s 5 10’e

Om die gemiddeld te bereken sou ons dan al die 1’e bymekaargetel het (wat vir ons 140 sou gee), al die 180 2’s sou bymekaargetel word (wat vir ons 360 sou gee), al 110 van die 3’e sou bymekaargetel word (wat vir ons 330 sou gee). Ons sou ook al die 4’s, 6’e, 7’s, 8’s, 9’s en 10’e bymekaargetel het totdat ons al 700 waardes bymekaargetel het. Dan sou ons dit deur 700 gedeel het en ’n gemiddeld gekry het. ©akademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek

61


Elementêre Kwantitatiewe Metodes Die geweegde gemiddeld vereenvoudig die proses. Elke frekwensie word vermenigvuldig met die jare ondervinding. 140 x 1 gee presies dieselfde antwoord wat ons sou kry deur al die 1’e bymekaar te tel. So ook sal 180 x 2 en 110 x 3 vir ons dieselfde antwoorde gee as ons die 2’s en 3’e respektiewelik opgetel het. Ons kan dus nou ’n ekstra kolom in die frekwensietabel byvoeg: Jare ervaring

Hoeveel agente

Ervaring x agente

1

140

140

2

180

360

3

110

330

4

120

480

6

50

300

7

50

350

8

20

160

9

25

225

10

5

50

TOTAAL

700

2 395

Die totale jare ondervinding van die 700 agente is 2 395. Die gemiddeld kan nou maklik en akkuraat bereken word: x̄ = totale jare ondervinding ÷ hoeveelheid agente = 2 395 ÷ 700 = 3.421 jaar Die 3.421 jaar ondervinding is baie meer akkuraat as die 5.56 jaar wat ons vroeër (verkeerdelik) bereken het. Die formule vir ’n geweegde gemiddeld is: Geweegde x̄

=

∑ ∑

Die simbole kan soos volg verduidelik word: •

62

fi stel elke kategorie se frekwensie voor. Hoofstuk 3: Numeriese beskrywende statistiek | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes •

xi stel elke waarde (jaar) voor.

Σfixi beteken dus dat elke waarde (jaar) met die frekwensie (hoeveelheid agente met soveel jaar ondervinding) vermenigvuldig moet word. Die antwoord moet dan bymekaargetel word.

Σfi beteken dus dat al die frekwensies bymekaargetel moet word (die totale hoeveelheid agente in hierdie geval).

Gevallestudie: Om vrae te beantwoord “Beskrywende statistiek is baie interessant, maar is daar enige van Vasvat se vrae wat ons al beantwoord het?” Hoewel Michael besef dat Vanessa beïndruk is deur sy werk, sou hy tog wou sien dat sy werk waarde vir die kliënte inhou. Vanessa dink nie lank nie. “Absoluut!” sê sy. “Kyk na die kwantiele wat jy bereken het. Vir die inkomstegroepe.” Michael blaai na ’n verslag en sien die volgende: Kwantiele: Inkomste van kliënte Q1: 8 220 Q2: R15 180 Q3: R40 444 Vanessa verduidelik: “Vasvat wil ’n nuwe produk ontwikkel vir hul kliënte in die laagste inkomstegroep. Deur die kwantiele te bereken kan hulle nou sien dat vyf-en-twintig persent van hulle kliënte minder as agtduisend tweehonderd-en-twintig rand per maand verdien. Dit is aansienlik hoër as wat hulle verwag het.” Michael knik tevrede. “Nou kan hulle meer voordele by die produk voeg en die premies ’n bietjie hoër maak.” “Presies. As hulle nie geweet het wat die eerste kwantiel was nie, sou hulle dalk ’n produk ontwerp het wat bekostigbaar sou wees vir kliënte met ’n inkomste van onder drieduisend rand, maar...” “...hulle sou alle bestaande kliënte in die eerste kwantiel verloor het,” voltooi Michael haar sin. “Presies.” ©akademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek

63


Elementêre Kwantitatiewe Metodes

3.6

Wat is kwantiele?

Kwantiele is ’n voorbeeld van nie-sentrale maatstawwe van lokaliteit. Waar ’n gemiddeld, modus en mediaan een of ander “middelpunt” van data probeer aandui, word nie-sentrale maatstawwe gebruik om data op ander wyses te verdeel. Die beginsel van kwantiele is eintlik heel eenvoudig. Alle data word van klein na groot gesorteer en dan in vier ewe groot dele gedeel. Die proses is dieselfde as die proses wat vir ’n mediaan gevolg word. Waar ’n mediaan egter gebruik word om data in twee dele te deel, word kwantiele gebruik om die data in vier te deel. Beskou die volgende datastel: 40

45

42

44

18

20

21

25

31

35

38

39

55

50

49

40

42

44

45

49

50

55

Die data word nou van klein na groot gesorteer: 18

20

21

25

31

35

38

39

Om die kwantiele te bepaal word die data in vier dele gedeel. Die waarde presies tussen twee dele of groepe data, word die kwantiel genoem. ’n Kwantiel word met ’n Q voorgestel, gevolg deur die nommer (1, 2 of 3). 18

20

21

25 Q1

31

35

38

39

40

Q2

42

44

45

49

50

55

Q3

(ook mediaan) Om ’n kwantiel te bepaal is dit eerste nodig om die posisie van die kwantiel te vind. Daarna kan die waarde van die kwantiel bepaal word. Soos by die bostaande datastel gesien kan word, is die posisie van Q1 vier (dit is die vierde waarde), maar Q1 self is 25.

Pasop! ’n Fout wat studente dikwels maak, is om slegs die posisie van die kwantiel te bepaal. Hierdie is slegs die helfte van die berekening. Wanneer die posisie bepaal is, moet die fisiese waarde van die kwantiel ook bereken word.

64

Hoofstuk 3: Numeriese beskrywende statistiek | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

Hoe word Q1 bereken? Q1 is die simbool wat gebruik word om die eerste kwantiel aan te dui. Die eerste kwantiel vorm die boonste grens van die eerste 25% van alle waardes. Die posisie van Q1 word met die volgende formule bereken: Posisie van Q1 = (n + 1) ÷ 4 •

n stel die totale hoeveelheid waardes voor, in hierdie geval 15.

In die bogenoemde geval kan die posisie van Q1 dus soos volg bereken word: Posisie van Q1 = (n + 1) ÷ 4 = (15 + 1) ÷ 4 =4 Die eerste kwantiel kom dus voor by posisie vier in die datastel. Dit is dus die vierde waarde in ons datastel. Hierdie waarde kon ons van die datastel afgelees het: Q1 = 25 Wat gemaak as Q1 se posisie nie ’n heelgetal is nie? In die vorige voorbeeld (hierbo) was Q1 se posisie 4 gewees. Maar wat doen ons as Q1 se posisie iets soos 7.25 of 2.25 is? Beskou die volgende datastel (reeds gesorteer): 20

24

33

38

42

45

49

51

55

60

Bereken nou Q1 se posisie: Posisie van Q1 = (n + 1) ÷ 4 = (10 + 1) ÷ 4 = 2.75 Q1 is dus êrens tussen die tweede en derde waarde. 20

24

33

38

42

45

49

51

55

60

Q1 hier êrens

©akademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek

65


Elementêre Kwantitatiewe Metodes Ons kan egter nie dieselfde benadering as met ’n mediaan volg nie, omdat Q1 nie presies in die middel van 24 en 33 lê nie. Die 0.75 in Q1 se posisie (2.75) beteken dat Q1 nader aan 33 as 24 is. Q1 moet dus met die volgende stappe bereken word. Stap 1: Bepaal die afstand tussen die twee waardes. In hierdie geval dui dit op die afstand tussen die 24 en 33: Afstand = 33 – 24 =9 Stap 2: Neem nou die breukdeel van die posisie van Q1 (in hierdie geval 0.75) en vermenigvuldig dit met die afstand tussen die twee waardes (in hierdie geval 9). Hoekom doen ons dit? Want 75% (0.75) van hierdie “afstand” vorm deel van die eerste kwantiel. Die oorblywende 25% (0.25) vorm reeds deel van die volgende kwantiel: 9 x 0.75 = 6.75 Stap 3: Voeg nou hierdie deel van die “afstand” by die onderste waarde (24 in hierdie geval) om Q1 te verkry. Q1 = 24 + 6.75 = 30.75 Die eerste kwantiel is dus 30.75. Nota: Dieselfde stappe word gevolg om die derde kwantiel te bereken indien Q3 se posisie nie ’n heelgetal is nie.

Hoe word Q2 bereken? Q2 word bereken deur die waarde reg in die middel van die datastel te identifiseer. Klink dit bekend? Dit is presies dieselfde metode wat ons gebruik het om die mediaan te identifiseer. Dus kan ons sê dat: Q2 = mediaan Dit sal altyd die geval wees.

66

Hoofstuk 3: Numeriese beskrywende statistiek | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

Hoe word Q3 bereken? Die derde kwantiel (Q3) word min of meer op dieselfde wyse as die eerste kwantiel (Q1) bereken. Die enigste daadwerklike verskil is die formule van Q3 se posisie: Posisie van Q3 = 3(n + 1) ÷ 4 Beskou weer die datastel wat ons vir die berekening van Q1 gebruik het (gesorteer): 18

20

21

25

31

35

38

39

40

42

44

45

49

50

55

Bereken nou Q3 se posisie: Posisie van Q3 = 3(n + 1) ÷ 4 = 3(15 + 1) ÷ 4 = 12 Die twaalfde waarde in ons gesorteerde datastel is 45. Waarde

18

20

21

25

31

35

38

39

40

42

44

45

49

50

55

Posisie

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

Q3

Wat as die posisie nie ’n heelgetal is nie? As Q3 se posisie nie ’n heelgetal is nie, word dieselfde stappe wat in die geval van Q1 gebruik is, gevolg. Beskou die volgende datastel: 20

24

33

38

42

45

49

51

55

60

51

55

60

Posisie van Q3 = 3(n + 1) ÷ 4 = 3(10 + 1) ÷ 4 = 8.25 Q3 lê dus tussen die 8ste en 9de waarde, dus tussen 51 en 55: 20

24

33

38

42

45

49

Q3 is hier êrens

©akademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek

67


Elementêre Kwantitatiewe Metodes Stap 1: Bepaal die afstand tussen 51 en 55. Afstand = 55 – 51 =4 Stap 2: Vermenigvuldig die posisie (8.25) se breukdeel (dus 0.25) met die afstand tussen die twee waardes (in hierdie geval 4): 0.25 x 4 =1 Stap 3: Tel die waarde wat in Stap 2 bereken is by die 51 en vind sodoende Q3: Q3 = 51 + 1 = 52

Hoe interpreteer ons kwantiele? Beskou die volgende kwantiele: Q1 = 25 Q2 = mediaan = 39 Q3 = 45 Ons kan, onder andere, die volgende stellings maak: •

25% van alle waardes is kleiner as 25

50% van alle waardes is kleiner as 39

50% van alle waardes is groter as 39

75% van alle waardes is kleiner as 45

25% van alle waardes is groter as 45

Kwantiele vir kategorieë Soos met ’n mediaan is kwantiele maklik om te bereken as die data heelgetalle is. Heelgetalle en reële getalle (soos salarisse) wat in kategorieë gedeel is, vereis egter ’n addisionele formule. Die stappe om te volg om ’n mediaan (en dus Q2) vir kategorieë van data te bereken, is reeds breedvoerig bespreek. Dieselfde stappe word vir die berekening van Q1 en Q3 gevolg.

68

Hoofstuk 3: Numeriese beskrywende statistiek | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes Beskou weer Vasvat se kliënte se ouderdomme: Kategorie

Frekwensie (hoeveel kliënte in die kategorie)

Kumulatiewe frekwensie

18 tot 27

66 675

66 675

28 tot 37

240 990

307 665

38 tot 47

298 747

606 412

48 tot 57

247 062

853 474

58 tot 67

161 883

1 015 357

68 tot 77

19 186

1 034 543

Die posisie van Q1 word met dieselfde formule as voorheen bereken: Posisie van Q1 = (n + 1) ÷ 4 = (1 034 543 + 1) ÷ 4 = 258 636 Die 258 636ste waarde sal êrens in die kategorie “28 tot 37” voorkom. Hierdie kategorie begin by die 66 675ste respondent se antwoord en eindig by die 307 665ste respondent se antwoord. Die 258 636ste respondent sal dus êrens in hierdie kategorie voorkom. Kategorie

Frekwensie (hoeveel kliënte in die kategorie)

Kumulatiewe frekwensie

18 tot 27

66 675

66 675

28 tot 37

240 990

307 665

38 tot 47

298 747

606 412

48 tot 57

247 062

853 474

58 tot 67

161 883

1 015 357

68 tot 77

19 186

1 034 543

Q1 in hierdie kategorie

Die formule vir Q1 en Q3 in hierdie geval verskil egter (minimaal) van die formule van die mediaan (Q2). Q1 se formule word soos volg voorgestel: ©akademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek

69


ElementĂŞre Kwantitatiewe Metodes

Q1 = Oq1 +

[ #

Die simbole in die formule beteken die volgende: •

Oq1 stel die onderste grens van Q1 se interval voor, in hierdie geval 28.

•

n stel die totale hoeveelheid waardes voor, in hierdie geval 1 034 543.

•

f(<) stel die kumulatiewe frekwensie voor van die interval voor Q1 se interval. In hierdie geval is dit 66 675.

•

fq1 stel die frekwensie van Q1 se interval voor, in hierdie geval 240 990.

•

c stel die grootte van Q1 se interval voor, in hierdie geval 10. (Die hoeveelheid moontlik ouderdomme van 28 tot 37.)

Q1 kan dus nou soos volg bereken word:

Q1 = Oq1 +

= 28 +

[ #

[

= 28 + 7.966 = 35.966 Q3 kan op ’n soortgelyke wyse bereken word: Posisie van Q3 = 3(n + 1) á 4

= 3(1 034 543 + 1) á 4 = 775 907.25 Die 775 907.25ste waarde sal ĂŞrens in die kategorie “48 tot 57â€? voorkom. Kategorie

Frekwensie (hoeveel kliĂŤnte in die kategorie)

70

Kumulatiewe frekwensie

18 tot 27

66 675

66 675

28 tot 37

240 990

307 665

38 tot 47

298 747

606 412

48 tot 57

247 062

853 474

Hoofstuk 3: Numeriese beskrywende statistiek | Šakademia (MSW)

Q3 in hierdie kategorie


ElementĂŞre Kwantitatiewe Metodes

58 tot 67

161 883

1 015 357

68 tot 77

19 186

1 034 543

Die formule vir Q3 in hierdie geval is:

Q3 = Oq3 +

= 48 +

[

[

#

$ %

= 48 + 6.860 = 54.86

Gevallestudie: Oudtshoorn en die onbetroubare gemiddeld Vanessa glimlag. Michael merk op: “Miskien moet jy ’n naweek afvat en op Oudtshoorn gaan kuier. Jy kyk nou al vir twintig minute na daardie statistieke.â€? “Dit is baie interessant.â€? “Die uitskieters?â€? “Ja, en hoe hulle die gemiddeld beĂŻnvloed. Omdat daar so min kliĂŤnte in Oudtshoorn is, het die groot maatskappye se premies juis ’n invloed op die gemiddeld.â€? “Dit is dus nie ’n verrassing dat die standaardafwyking so groot is nie.â€? “Ja, ek het gesien. Wat is die variansiekoĂŤffisiĂŤnt? Seker maklik vyftig persent?â€? “Vier-en-sestig persent,â€? antwoord Michael. “Wat amper die helfte van die gemiddeld is.â€? “Dit is baie hoog. Ek sou nie daardie gemiddeld vertrou nie. Die mediaan behoort ’n beter aanduiding te gee van ’n tipiese premie as die gemiddeld. Het jy enige ander aanduiding van die spreiding van Oudtshoorn se data?â€? “Nee, maar ek het Pearson se skeefheidskoĂŤffisiĂŤnt vir die totale data bereken.â€? “Met die hand!?â€? Vanessa sien in haar geestesoog hoe Michael velle en velle papier gebruik om meer as ’n miljoen waardes in berekening te bring. Michael lag. “Darem nie. Maar ek sou dit kon doen as ek moes.â€? “Liewer nie. Jou internskap is nie vierhonderd jaar lank nie!â€? Šakademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek

71


Elementêre Kwantitatiewe Metodes

3.7

Wat is maatstawwe van spreiding?

Maatstawwe van spreiding verwys na beskrywende statistiek wat aandui hoe data verspreid is. Kyk na die volgende histogramme:

Figuur 3.4: Wyses waarop data versprei kan wees Elk van hierdie histogramme stel ’n ander stel data voor. Hoewel dit moontlik is dat al hierdie datastelle dieselfde gemiddeld kan hê, is die verspreiding van data drasties verskillend. Hierdie verskille sal deur maatstawwe van spreiding aangedui word. In hierdie gids word daar na drie maatstawwe van spreiding gekyk: die standaardafwyking, variansiekoëffisiënt (wat gebruik word om die standaardafwyking te interpreteer) en ’n skeefheidskoëffisiënt.

3.8

Wat is ’n standaardafwyking?

’n Standaardafwyking bepaal hoe vêr die verskillende waardes in ’n datastel van die gemiddeld af lê. Die standaardafwyking poog om ’n “gemiddelde afstand van die gemiddeld af” te bereken.

72

Hoofstuk 3: Numeriese beskrywende statistiek | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

Waarom is ’n standaardafwyking belangrik? Gestel ’n maatskappy wil ’n advertensieveldtog loods. Hulle weet egter nie hoe oud hulle kliënte is nie en besluit om ’n vinnige steekproef te doen. Die maatskappy vra vir ses kliënte wat hul ouderdomme is. Die ouderdomme wat hulle ontvang het, is: 60

20

25

65

70

12

Hulle bereken die gemiddeld van die steekproef: x̄ = (60 + 20 + 25 + 65 + 70 + 12) ÷ 6 = 252 ÷ 6 = 42 jaar Gebaseer op die gemiddeld van 42 jaar, besluit die maatskappy om ’n advertensieveldtog te loods vir persone tussen die ouderdomme van 40 en 50 jaar. Maar hulle maak ’n reusefout! Daar is nie een persoon in die steekproef in hierdie ouderdomsgroep nie. As die maatskappy ’n standaardafwyking bereken het, sou hulle gesien het dat die waardes baie vêr van die gemiddeld van 42 af lê.

Hoe word ’n standaardafwyking bereken? ’n Standaardafwyking word deur die volgende stappe bereken (’n formule word ’n bietjie later verskaf): •

Stap 1: Die afstand tussen elke waarde in die datastel, en die gemiddeld van dieselfde datastel, word bereken. Dit word gedoen deur die gemiddeld af te trek van elke waarde in die datastel.

Stap 2: Omdat Stap 1 moontlike negatiewe waardes tot gevolg kan hê (en afstande nie negatief kan wees nie), word elke verskil wat in Stap 1 bereken is, gekwadreer.

Stap 3: Om ’n gemiddelde “afstand” te kry, word al die gekwadreerde “afstande” deur die totale hoeveelheid waardes (minus 1) gedeel. Die antwoord wat tydens hierdie stap verkry word, word die variansie genoem.

Stap 4: Die variansie is ’n nuttige hulpmiddel om spreiding te bepaal, maar word nie in dieselfde eenheid (byvoorbeeld jare of rand) as die oorspronklike waardes gemeet nie. As ons egter die variansie se vierkantswortel verkry, sal die antwoord in dieselfde eenheid as die individuele waardes wees. ©akademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek

73


Elementêre Kwantitatiewe Metodes Die formule vir ’n standaardafwyking (wat met die letter s voorgestel word) is dus:

s =&

∑ Ě„

Beskou weer die datastel wat hierbo bespreek is: 60

20

25

65

70

12

Die simbole in die formule beteken die volgende: •

s word gebruik om die standaardafwyking vir ’n steekproef voor te stel. (As ons na ’n hele populasie se standaardafwyking verwys, word die simbool Ďƒ gebruik.)

•

xi dui op elke waarde in die steekproef (60, 20, 25, 65, 70 en 12 in bogenoemde geval).

•

x̄ dui op die steekproef se gemiddeld (42 in bogenoemde geval).

•

Σ (xi- x̄ )2 beteken dus dat die gemiddeld van elke waarde in die steekproef afgetrek moet word en die gekwadreerde waardes van al hierdie antwoorde bymekaargetel moet word.

•

n dui op die steekproefgrootte (6 in die geval hierbo).

Om die berekening te vergemaklik sal die variansie eers bereken word: variansie =

∑ Ě„

= [(60 – 42)2 + (20 – 42)2 + (25 – 42)2 + (65 – 42)2 + (70 – 42)2 + (12 – 42)2] á 5 = (324 + 484 + 289 + 529 + 784 + 900) á 5 = 3 310 á 5 = 662 Die standaardafwyking is dan die vierkantswortel van die variansie:

s =&

∑ Ě„

= √

= 25.729 Dit beteken dat die waardes ongeveer 25.729 jaar rondom die gemiddeld versprei is. Dit is nogal groot: dit beteken dat die gemiddelde waarde 25.729 jaar kleiner of groter is as 42. Die

74

Hoofstuk 3: Numeriese beskrywende statistiek | Šakademia (MSW)


Elementêre Kwantitatiewe Metodes standaardafwyking kan dus hier vir ons ’n aanduiding gee dat die gemiddeld nie so akkuraat is as wat ons graag sou wou gehad het nie.

3.9

Wat is die variansiekoëffisiënt?

Die variansiekoëffisiënt is ’n statistiek wat dit vir ons maklik maak om die standaardafwyking ten opsigte van die gemiddeld te interpreteer. Die formule vir die variansiekoëffisiënt is: CV = s ÷ x̄ In bogenoemde geval is die variansiekoëffisiënt dus: 25.729 ÷ 42 = 0.613 Die variansiekoëffisiënt word in persentasie aangedui. 0.613 sal dus voorgestel word as 61.30%. Die standaardafwyking is dus 61.30% van die gemiddeld. ’n “Akkurate” gemiddeld sal ’n klein standaardafwyking hê en dus ook ’n klein variansiekoëffisiënt. Hoe nader die variansiekoëffisiënt aan 0 is, hoe meer akkuraat is die gemiddeld. Die verskil tussen die variansiekoëffisiënt en die standaardafwyking is dat eersgenoemde die standaardafwyking ten opsigte van die gemiddeld vertoon. Kyk na die volgende twee gemiddelde met hul standaardafwykings: Datastel 1 Standaardafwyking

Datastel 2 150

Standaardafwyking

25

Watter standaardafwyking is die grootste? Die 150 natuurlik. Maar beteken dit dat Datastel 1 se gemiddeld meer akkuraat is as Datastel 2? Hierdie vraag kan nie beantwoord word sonder om na die gemiddeld te kyk nie. Beskou nou dieselfde datastelle met meer inligting: Datastel 1: Salarisse van kliënte Standaardafwyking Gemiddeld Variansiekoëffisiënt

R150 R15 000 1%

Datastel 2: Jare ondervinding Standaardafwyking

25 jare

Gemiddeld

16 jare

Variansiekoëffisiënt

156.25%

Deur na die gemiddeld en die variansiekoëffisiënt te kyk, kan ons nou sien dat die gemiddeld van Datastel 1 baie meer akkuraat is. Datastel 2 se gemiddeld is glad nie akkuraat nie, met ’n baie groot standaardafwyking (wanneer dit met die gemiddeld vergelyk word). ©akademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek

75


Elementêre Kwantitatiewe Metodes

3.10 Wat is ’n skeefheidskoëffisiënt? ’n Standaardafwyking sal kan onderskei tussen die volgende twee verspreidings:

Figuur 3.5: Data met verskillende standaardafwykings Die linkerkantste grafiek sal ’n kleiner standaardafwyking bevat, terwyl die tweede grafiek ’n groter standaardafwyking sal hê. Maar watter statistiek sal tussen die volgende verspreidings kan onderskei?

Figuur 3.6: Data met verskillende vlakke van skeefheid

76

Hoofstuk 3: Numeriese beskrywende statistiek | ©akademia (MSW)


ElementĂŞre Kwantitatiewe Metodes Die “skeefheidâ€? van ’n verspreiding van data kan deur ’n skeefheidskoĂŤffisiĂŤnt voorgestel word. Een van die bekendste hiervan is Pearson se koĂŤffisiĂŤnt van skeefheid. Hierdie koĂŤffisiĂŤnt het die volgende formule: ∑ Ě„

Skp=

*

Jy behoort op hierdie stadium bekend te wees met die simbole. Kom ons bereken nou die Pearson skeefheidskoĂŤffisiĂŤnt vir die bogenoemde datastel:

60

20

25

65

70

12

Ons weet: •

Die gemiddeld is 42

•

Die standaardafwyking is 25.729

Ons bereken eerste die boonste deel van die formule:

nΣ Σ(xi-x̄ )3 = 6 x [(60 – 42)3 + (20 – 42)3 + (25 – 42)3 + (65 – 42)3 + (70 – 42)3 + (12 – 42)3] = 6 x (5832 – 10 648 – 4 913 + 12 169 + 21 952 – 27 000) = -147 360 Nou bereken ons die gedeelte aan die onderkant van die breuk: (n – 1)(n – 2)s3 = (6 – 1)(6 – 2)(25.729)3 = 5 x 5 x 17 032.120 = 425 803 Nou kan die Skp bereken word:

Skp = =

∑ Ě„

*

= -0.345 Hierdie data is dus negatief skeef verspreid (sien die volgende paragraaf). Šakademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek

77


Elementêre Kwantitatiewe Metodes

Hoe interpreteer ons ’n koëffisiënt van skeefheid? Positief skeef: Skp > 0 Die waardes met die grootste frekwensies sal na die linkerkant van die gemiddeld neig. Die “stert”-gedeelte van die verspreiding is dus aan die regterkant. Hoe groter die skeefheidskoëffisiënt, hoe verder sal die data van die gemiddeld verspreid wees. Die volgende figuur stel ’n positief skewe verspreiding voor.

Figuur 3.7: Data wat positief-skeef verspreid is

Negatief skeef: Skp < 0 In hierdie geval sal die grootste frekwensies aan die regterkant van die gemiddeld voorkom. Die waardes wat dus die meeste voorkom, sal almal groter as die gemiddeld wees. Hoe verder die koëffisiënt van die 0 af is, hoe “skewer” is die data verspreid. Die volgende figuur stel data wat negatief skeef is, voor:

78

Hoofstuk 3: Numeriese beskrywende statistiek | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

Figuur 3.8: Data wat negatief-skeef verspreid is Simmetries: Skp = 0 Die waardes word simmetries rondom die gemiddeld versprei. Dit beteken dat die frekwensies van waardes aan die linkerkant en die frekwensies van waardes aan die regterkant ooreenstem. Hierdie verskynsel word ook ’n normaalverdeling genoem. Hoe nader Skp aan 0 is, hoe meer verteenwoordig die verspreiding simmetrie. Wat is volgende? In die volgende hoofstuk sal Michael met ’n uitdaging gekonfronteer word. Vasvat Versekeraars gaan van hom verwag om te voorspel wat in die toekoms gaan gebeur.

©akademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek

79


ElementĂŞre Kwantitatiewe Metodes Notas

80

Hoofstuk 3: Numeriese beskrywende statistiek | Šakademia (MSW)


Elementêre Kwantitatiewe Metodes

HOOFSTUK 4: WAARSKYNLIKHEDE

Onderwerpe 4.1

Wat is ‘n waarskynlikheid?

4.2

Berekening van ‘n waarskynlikheid

4.3

Telreëls Wat is kombinasies? Wat is permutasies?

©akademia (MSW)| Hoofstuk 4: Waarskynlikhede

81


Elementêre Kwantitatiewe Metodes

Gevallestudie: Michael se laaste dag Michael sit en staar na die leë koffiebeker. In sy gedagtes gaan hy vir die soveelste keer deur die woorde wat hy vir Vanessa wil sê. Hy is skoon geïrriteerd met homself: Hy was nog nooit iemand wat senuagtig was om te sê wat hy dink nie. Maar vandag is daar soveel op die spel. Die koffiewinkel is al vir ’n halfuur oop. Michael het reeds vir ’n halfuur buite gewag vir die winkel om oop te maak. Die bestuurder was effens verras om hom daar te vind, maar hy was vriendelik en het hom dadelik binnegenooi. Intussen was daar nog net twee ander kliënte. Beide het wegneemkoffie bestel en Michael weer alleen met sy gedagtes gelaat. Vanessa het ’n afspraak vir agtuur gemaak. Michael wou nie kanse vat nie. Vandag is sy laaste dag by StatInc. Dit is waaroor Michael met Vanessa wil praat. In die laaste maand het hy soveel geleer. Hy het feitlik die hele Vasvat Versekeraars-projek by Vanessa oorgeneem. Hy het ’n paar dae in die ander departemente spandeer, vraelyste ontwerp, data ingelees, selfs vir twee dae Vasvat se kliënte geskakel om data te versamel. En elke dag leer hy soveel van wat in die wêreld van Statistiek gebeur. Die geld is ook nie sleg nie. Hy het sy eerste betaling drie dae gelede ontvang. In sy haas om by die onderneming betrokke te raak het hy nooit sy kontrak behoorlik gelees nie. Sy verrassing was dus groot toe hy ’n SMS van sy bank ontvang. Hy het nie net ’n salaris ontvang nie, maar dit was meer as wat enige van sy vriende vir hul deeltydse werk ontvang. En hy was nie ’n kelner by ’n restaurant of ’n administratiewe klerk nie. Hy het iets gedoen wat hy geniet het. Michael wil sy kontrak by StatInc verleng. Hy weet egter dat Vanessa ’n opoffering gemaak het om hom onder haar vlerk te neem. Hy wil nie van haar goedheid misbruik maak nie, maar hy moet haar net vra. As hy vandag klaarmaak sonder om te probeer om aan te bly, sal hy homself vir baie lank verwyt. Hy kon natuurlik direk met David gesels het. David was die bestuurder wat hom aanvanklik aangestel het. Maar hy moet eers Vanessa se goedkeuring kry. Sy is die een wat hom sal moet mentor terwyl hy by StatInc werk. Hy word na die werklikheid teruggeruk deur Vanessa wat skielik voor hom staan. “Ek sou enigiets gee om te weet waaraan jy so hard dink,” sê sy met ’n glimlag. Enigiets? Selfs 'n maand ekstra by StatInc? Michael sê egter nie wat hy dink nie en gee ’n skaapagtige glimlag. Hy wil dadelik met die deur in die huis val, maar sy moed begewe hom. “Môre,” sê hy vriendelik, dog ’n bietjie ongemaklik.

82

Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

“Ek het koffie nodig,” sê Vanessa. Sy wink die kelnerin nader en bestel ’n cappuccino. Dan sit sy ’n groot lêer op die tafel neer. Michael skraap sy moed bymekaar en maak sy mond oop, maar hy word deur Vanessa voorgespring. “Wat is die kans dat ons jou kontrak met drie maande kan verleng?” val sy met die deur in die huis. Michael se mond val oop. Vanessa lag. “Ons sal jou salaris verdubbel,” verduidelik sy. “Vasvat is baie gelukkig met jou werk en het vir ons ’n paar nuwe projekte gegee. Ek het reeds met David gesels en hulle is bereid om jou as my tydelike assistent aan te stel. Ons sal rondom jou klasse werk, solank jy net ’n totaal van sestien ure per week aan Vasvat spandeer.” Michael kan nie glo wat hy hoor nie. “Dit sal fantasties wees!” kry hy dit uiteindelik uit. Vanessa mors nie tyd nie. “Mooi,” sê sy. “Kom ons begin met waarskynlikhede.” Terwyl Michael nog sukkel om die nuus te verwerk, maak Vanessa die groot lêer oop. “Vasvat het aktuarisse wat hul risiko’s bereken en die pakkette dienooreenkomstig opstel. Daar is egter ander waarskynlikhede wat hulle ook wil bereken en daarvoor het hulle ons hulp ingeroep.” Michael is dadelik nuuskierig. “Soos wat?” “Wat is die waarskynlikheid dat ’n middeljarige vrou met ’n inkomste van bo twintigduisend rand per maand versekering op ’n motor van tweehonderdduisend rand sal uitneem?” “Het ons data?” Vanessa knik. “Die laaste tien jaar s’n vir die meeste en vir sommige waarskynlikhede het ons tot twintig jaar se data tot ons beskikking.” “Enige statistikus se droom,” lag Michael.

4.1

Wat is ’n waarskynlikheid?

Wat is die kans dat dit môre gaan reën? Wat is die moontlikheid dat die Springbokke hul rugbywedstryd teen Engeland gaan wen? Wat is die kans dat ’n kliënt meer as een motor by dieselfde handelaar sal koop?

©akademia (MSW)| Hoofstuk 4: Waarskynlikhede

83


Elementêre Kwantitatiewe Metodes Al die bogenoemde vrae verwys na een of ander onsekerheid. Die persoon wat hierdie vrae vra (of beantwoord) het nie sekerheid ten opsigte van ’n spesifieke gebeurtenis nie. Om hierdie vrae te beantwoord is dus baie moeilik. ’n Vraag soos “Gaan dit môre reën?” het nie ’n definitiewe “ja” of “nee” antwoord nie omdat môre in die toekoms lê en dus van nature onseker is. Waarskynlikhede poog om hierdie moeilike vrae te beantwoord. In plaas daarvan om ’n eenvoudige “ja” of “nee” as antwoord te verskaf, kan ’n waarskynlikheid ’n spesifieke getal gebruik om aan te dui wat die moontlikheid is dat dit gaan reën en wat die moontlikheid is dat dit nie gaan reën nie. Hierdie waarskynlikheid beantwoord nie die vraag in absolute terme (definitiewe “ja” of “nee”) nie, maar verskaf ’n “tweede-beste” opsie. Die vraag “Gaan dit môre reën?” is dus onmoontlik om te beantwoord, maar die vraag “Wat is die kanse dat dit môre gaan reën?” kan wel ’n moontlike antwoord hê. ’n Waarskynlikheid word altyd voorgestel deur ’n getal tussen 0 en 1. Hierdie getal kan ook as persentasie (tussen 0% en 100%) voorgestel word. Voordat ons ’n waarskynlikheid kan bereken, word een of meer gebeurtenisse benodig. Die waarskynlikheid bepaal dan wat die kanse is dat hierdie gebeurtenis sal plaasvind (of nie sal plaasvind nie). As ons weer die weervoorspelling as voorbeeld gebruik, sal die gebeurtenis soos volg gedefinieer word: “Dit gaan môre reën”. Deur diepgaande statistiese berekeninge, wat ’n magdom veranderlikes in ag neem, bepaal die weerburo dat daar ’n 0.7 waarskynlikheid is dat dit wel die volgende dag gaan reën. Tydens die weervoorspelling op die televisie, radio of in koerante word hierdie 0.7 as ’n persentasie voorgestel (dus 70%). Die publiek weet dan dat die waarskynlikheid van ’n reënbui groot is. ’n Waarskynlikheid van 0 en 1 het ’n spesiale betekenis. As ’n gebeurtenis ’n waarskynlikheid van 0 het, beteken dit dat daardie waarskynlikheid beslis nie gaan plaasvind nie. Ons verwys ook hierna as ’n onmoontlike gebeurtenis. Die volgende waarskynlikhede het ’n 0 (of 0%) waarskynlikheid: •

Gebeurtenis A: Ek gaan môre op die son loop.

Gebeurtenis B: Die kliënt is 700 jaar oud.

Aan die ander kant sal ’n gebeurtenis met ’n waarskynlikheid van 1 beslis plaasvind. Daar is dus ’n 100% kans dat so ’n gebeurtenis gaan plaasvind. Voorbeelde van gebeurtenisse wat ’n waarskynlikheid van 1 het, sluit in: •

84

Gebeurtenis C: Ek gaan binne die volgende 200 jaar doodgaan.

Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes •

Gebeurtenis D: Die spesifieke kliënt is jonger as 700 jaar.

Nota oor persentasies: Studente wonder soms of hulle waarskynlikhede as ’n getal tussen 0 en 1, of as ’n persentasie moet uitdruk. ’n Goeie riglyn is die volgende: Wanneer ons statistiese berekeninge doen, verwys ons na die waarskynlikhede as getalle tussen 0 en 1 (byvoorbeeld 0.45 of 0.91). Wanneer ons terugvoer verskaf aan ’n kliënt of as deel van ’n verslag waar ons nie op die statistiese berekeninge fokus nie, kan die terugvoer as persentasie verskaf word (byvoorbeeld 45% of 91%).

Berekening van ’n waarskynlikheid Daar bestaan ’n verskeidenheid wyses om waarskynlikhede te bereken. Om die waarskynlikheid van ’n reënbui te bepaal is ’n groot hoeveelheid komplekse berekeninge nodig. Daar moet ’n verskeidenheid faktore in ag geneem word. Hierdie tipe berekeninge val egter buite die grense van hierdie gids. Vir gewone sakedoeleindes sal ons gewoonlik geskiedkundige data vir waarskynlikhede gebruik. Ons sal kyk na bestaande waardes en dan hieruit waarskynlikhede bereken. Byvoorbeeld, as ons vind dat, in die laaste jaar, een uit elke tien kliënte oor ’n sekere diens gekla het, kan ons aanneem dat daar in die volgende jaar ’n soortgelyke verspreiding sal wees. (Dit sal natuurlik slegs die geval wees indien alle veranderlikes dieselfde bly. As daar dus maatstawwe in plek gestel word om die kliëntediens te verbeter, of die onderneming se kliënte vermeerder of verminder drasties, mag die waardes anders lyk.) As een uit elke tien kliënte verlede jaar gekla het (dus 10% van al die kliënte), dan is daar ’n 0.1 waarskynlikheid dat ’n spesifieke kliënt hierdie jaar ook gaan kla. Die formule om ’n waarskynlikheid te bereken is dus: +

P(A) = Die veranderlikes in die formule kan soos volg beskryf word: •

A is ’n gebeurtenis (byvoorbeeld ’n Kliënt kla)

P(A) is die waarskynlikheid dat A sal plaasvind (dus, die waarskynlikheid dat ’n spesifieke kliënt sal kla)

r is die hoeveelheid keer wat A wel plaasgevind het (uit historiese data vind ons dat r een keer plaasgevind het vir elke tien kliënte)

n is die steekproef ©akademia (MSW)| Hoofstuk 4: Waarskynlikhede

85


Elementêre Kwantitatiewe Metodes In kort sal ons sê: Verlede jaar het r uit n kliënte gekla. Die waarskynlikheid dat ’n enkele +

kliënt sal kla, is dus . ’n Waarskynlikheid het die volgende eienskappe (Wegner, 2013:102): •

’n Waarskynlikheid lê altyd tussen 0 en 1. 0 en 1 is ingesluit.

Indien ’n gebeurtenis onmoontlik is (en dus nie kan plaasvind nie), is die waarskynlikheid dat daardie gebeurtenis gaan plaasvind 0.

Indien ’n gebeurtenis wel gaan plaasvind (en dit dus onmoontlik is vir die gebeurtenis om nie plaas te vind nie), is die waarskynlikheid dat daardie gebeurtenis gaan plaasvind 1.

Die som van die waarskynlikhede van alle moontlike uitkomste van ’n gebeurtenis is 1.

Die waarskynlikheid dat ’n gebeurtenis nie gaan plaasvind nie, is gelyk aan die waarskynlikheid dat dit wel gaan plaasvind, afgetrek van 1. Dus: P'(A) = 1 – P(A). In hierdie geval stel P'(A) die waarskynlikheid dat A nie gaan plaasvind nie, voor.

Voorbeeld Vasvat Motors wil weet of persone jonger as 25 jaar hul produkte sal koop. Hulle trek ’n steekproef van motoreienaars onder 25 jaar. Die steekproef bestaan uit 200 persone onder 25 jaar (dus, n = 200). Hulle vra vir elk van die persone in die steekproef die volgende vraag: “Wie is die versekeraar van jou motor?” Uit die 200 persone het 15 gesê dat hulle wel by Vasvat verseker is. Wat is die waarskynlikheid dat ’n ewekansige kliënt wat uit dieselfde populasie gekies word, by Vasvat verseker is? Antwoord: Om te begin moet ons die formule gebruik: +

P(A) = Die formule benodig ’n aantal waardes: •

Stel A = ’n Spesifieke kliënt onder die ouderdom van 25 jaar is wel ’n Vasvat-kliënt.

P(A) is dan die waarskynlikheid dat ’n spesifieke kliënt wat ons gekies het, wel ’n Vasvat-kliënt is.

86

r is die hoeveelheid keer wat iemand in ons steekproef genoem het dat hulle wel ’n Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes Vasvat-kliënt is, dus 15. •

n is die hoeveelheid mense wat ons gevra het wie hul motors verseker, dus 200.

Die waarskynlikheid kan dus soos volg bereken word: P(A) =

+

= 15 / 200 = 0.075 Die waarskynlikheid dat ’n ewekansig-gekose kliënt onder 25 wel ’n Vasvat-kliënt sal wees, is dus 0.075 (wat 7.5% is).

4.2

Belangrike begrippe

Soos reeds genoem, is daar ’n verskeidenheid waarskynlikhede, en tipes waarskynlikhede, wat bereken kan word. Daar is dus ook ’n groot hoeveelheid waarskynlikheidsbegrippe waarvan ’n statistikus bewus moet wees. Vir die doel van hierdie gids sal daar na vyf belangrike begrippe gekyk word (Wegner, 2013: 103): •

Snyding (intersection) van gebeurtenisse

Samevoeging (union) van gebeurtenisse

Onderling-uitsluitlike (mutually exclusive) gebeurtenisse

Gesamentlik-uitputbare (collectively exhaustive) gebeurtenisse

Statisties-onafhanklike gebeurtenisse.

Vervolg… Vanessa en Michael sit by Vanessa se tafel met ’n groot hoeveelheid dokumente voor hulle uitgepak. “Die belangrikste is om eers te kyk na die data wat beskikbaar is,” sê Vanessa en gee vir Michael ’n vel papier aan. “Hierdie is ’n kruistabulering van pakkette teenoor provinsies.” Michael kyk na die dokument en sien die volgende:

©akademia (MSW)| Hoofstuk 4: Waarskynlikhede

87


Elementêre Kwantitatiewe Metodes

Wild en

Vat dit

Kleindorpie-

wakker

kalm

kind

Pasgemaak

TOTAAL

Gauteng

289 371

9 144

54 187

4 039

356 741

Wes-Kaap

189 571

7 384

32 685

61 227

290 867

Noord-Kaap

14 586

6 291

590

431

21 898

Oos-Kaap

42 374

5 382

1 573

2 448

51 777

Vrystaat

27 463

3 458

1 875

1 960

34 756

KwaZulu-

94 875

13 284

7 504

5 802

121 465

Noordwes

72 839

2 800

3 100

9 838

88 577

Limpopo

56 132

2 480

478

9 372

68 462

TOTAAL

787 211

50 223

101 992

95 117

1 034 543

Natal

“Hierdie tabel bevat ’n opsomming van al Vasvat Versekeraars se kliënte,” verduidelik Vanessa. “Dit is ingedeel volgens provinsie, maar ook volgens die pakket wat die kliënt gekies het.” “Dit is ’n goeie opsomming,” sê Michael. “Ons kan reeds ’n hele paar waarskynlikhede van hierdie tabel aflees.” Michael is reg. Hoewel daar ’n verskeidenheid wyses is om waarskynlikhede te bereken, is die tabel wat hierbo verskaf is, ’n baie nuttige hulpmiddel. Hierdie tabel en die twee kategorieë wat deur die tabel voorgestel word (Provinsie en Pakket), sal vir die verduideliking van die vyf waarskynlikheidsbegrippe gebruik word.

Begrip 1: Snyding Snyding behels twee gebeurtenisse wat op dieselfde tyd plaasvind. Hierdie twee gebeurtenisse kan enigiets wees, byvoorbeeld: •

Dit reën en die son skyn. Gebeurtenis A sal Dit reën wees en Gebeurtenis B sal Die son skyn wees.

Die respondent werk voltyds en het ’n gesin. Gebeurtenis A sal Die respondent werk voltyds wees en Gebeurtenis B sal Die respondent het ’n gesin wees.

88

Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes •

’n Spesifieke kliënt woon in Gauteng en is geregistreer vir die Wild-en-wakkerpakket. Gebeurtenis A sal Die kliënt woon in Gauteng wees en Gebeurtenis B sal Die kliënt is geregistreer vir die Wild-en-wakker-pakket wees.

Daar is een woord wat in elk van die bogenoemde beskrywings voorkom. Hierdie woord is “en”. Snyding word altyd deur die woord “en” voorgestel: Gebeurtenis A en Gebeurtenis B vind gelyktydig plaas. ’n Nuttige wyse om snyding (en van die ander konsepte) voor te stel, is die sogenaamde Venn-diagram. Met ’n Venn-diagram word elke gebeurtenis met ’n sirkel voorgestel. Deur na die sirkels se interaksie (of gebrek aan interaksie) met mekaar te kyk, is dit makliker om ’n spesifieke konsep te verstaan. Snyding kan dus soos volg deur ’n Venn-diagram voorgestel word:

A

Snyding

B

Figuur 4.1: Snyding voorgestel deur ’n Venn-diagram Elke sirkel stel ’n gebeurtenis voor. Gebeurtenis A word deur die linkerkantse sirkel voorgestel, terwyl die regterkantse sirkel Gebeurtenis B voorstel. Die plek waar die twee sirkels mekaar sny, is die plek waar beide gebeurtenisse gelyktydig plaasvind. Die snyding van twee gebeurtenisse word deur die teken ∩ voorgestel. Gestel daar is twee gebeurtenisse, A en B. Die waarskynlikheid dat die snyding van die twee gebeurtenisse sal plaasvind (met ander woorde, die waarskynlikheid dat A en B gelyktydig gaan plaasvind, word voorgestel deur P(A∩ ∩B). Die volgende voorbeeld sal aandui hoe so ’n waarskynlikheid bereken kan word.

©akademia (MSW)| Hoofstuk 4: Waarskynlikhede

89


Elementêre Kwantitatiewe Metodes

Voorbeeld Kyk weer na die tabel wat al Vasvat se kliënte volgens provinsies en pakkette indeel. Wild en

Vat dit

wakker

kalm

Kleindorpie- Pasgemaak

TOTAAL

kind

Gauteng

289 371

9 144

54 187

4 039

356 741

Wes-Kaap

189 571

7 384

32 685

61 227

290 867

Noord-Kaap

14 586

6 291

590

431

21 898

Oos-Kaap

42 374

5 382

1 573

2 448

51 777

Vrystaat

27 463

3 458

1 875

1 960

34 756

KwaZulu-Natal

94 875

13 284

7 504

5 802

121 465

Noordwes

72 839

2 800

3 100

9 838

88 577

Limpopo

56 132

2 480

478

9 372

68 462

TOTAAL

787 211

50 223

101 992

95 117

1 034 543

Bereken nou die volgende: Vraag 1: Wat is die waarskynlikheid dat ’n kliënt wat ewekansig gekies word, in Gauteng woon? Vraag 2: Wat is die waarskynlikheid dat ’n kliënt wat ewekansig gekies word, vir die Pasgemaakte pakket ingeskryf is? Vraag 3: Wat is die waarskynlikheid dat ’n kliënt wat ewekansig gekies word, in die Oos-Kaap woon en vir die Wild-en-wakker-pakket ingeskryf is? Vraag 4: Wat is die waarskynlikheid dat ’n kliënt wat ewekansig gekies word, in die Wes-Kaap woon en vir die Vat-dit-kalm-pakket ingeskryf is? Antwoorde: Vraag 1: Die eerste vraag behels geen snyding nie. Daar is slegs een gebeurtenis waarvan ons die

90

Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes waarskynlikheid moet bereken. Die eerste stap sal dus wees om die gebeurtenis te identifiseer. Ons sal dit op die volgende wyse doen: Gestel A = Die kliënt woon in Gauteng Die volgende stap is om die waarskynlikheid te bereken. Ons weet reeds hoe om ’n basiese waarskynlikheid te bereken. Ons gebruik die formule wat vroeër in hierdie hoofstuk bespreek is: P(A) =

, -

Nou moet ons bepaal watter waardes deur r en n voorgestel word: •

n stel die totale hoeveelheid kliënte voor, dus 1 034 543

r stel die hoeveelheid kliënte wat in Gauteng woon, voor, dus 356 741

Nou is die berekening maklik: P(A) =

, -

= 356 741 / 1 034 543 = 0.349 Daar is dus ’n 0.349 waarskynlikheid (of 34.9%) dat ’n kliënt wat ewekansig gekies sal word, in Gauteng woon. Toets jou antwoord: ’n Nuttige toets om te doen om te kyk of jy nie moontlik ’n fout gemaak het nie, is om te vra “Maak my antwoord sin?” Is daar werklik ongeveer 35% van die kliënte in Gauteng? Nog ’n belangrike vraag wat gevra moet word, is: “Is die waarskynlikheid wel tussen 0 en 1?” Vraag 2: Hierdie is ook ’n eenvoudige waarskynlikheid (wat nie snyding behels nie). Beskryf die gebeurtenis soos volg: Gestel A = Die kliënt is vir die pasgemaakte pakket ingeskryf Bereken nou die waarskynlikheid met die formule: +

P(A) = waar: •

r = 95 117 (die totale hoeveelheid kliënte wat vir die pakket ingeskryf is)

n = 1 034 543 (die totale hoeveelheid kliënte by Vasvat) ©akademia (MSW)| Hoofstuk 4: Waarskynlikhede

91


Elementêre Kwantitatiewe Metodes

Die waarskynlikheid kan dus soos volg bereken word: P(A) =

+

= 95 117 / 1 034 543 = 0.092 Daar is dus ’n 0.092 waarskynlikheid (of 9.2%) dat ’n kliënt wat ewekansig gekies word, wel vir die pasgemaakte pakket ingeskryf is. Vraag 3: By Vraag 3 word daar vir die eerste keer na twee, snydende waarskynlikhede verwys. Hoewel snyding sy eie formule het (wat ons later sal bespreek), kan ons ook die snyding van twee gebeurtenisse van die tabel aflees. Die eerste stap sal natuurlik wees om die gebeurtenisse te identifiseer: Gestel A = Die kliënt woon in die Oos-Kaap Gestel B = Die kliënt is vir die Wild-en-Wakker-pakket ingeskryf Omdat die snyding van A en B op die tabel voorkom, kan ons dieselfde formule gebruik: +

P(A∩ ∩B) = n is steeds 1 034 543. Wat is r? r sal voorgestel word deur die plek op die tabel waar A en B sny. Dit is dus by die sel waar die Oos-Kaap-ry kruis met die Wild-en-Wakker-kolom. Die waarde by die hierdie snyding (op die tabel) is 42 374. Die waarde word hieronder op die tabel aangedui:

92

Wild en

Vat dit

wakker

kalm

Kleindorpie- Pasgemaak

TOTAAL

kind

Gauteng

289 371

9 144

54 187

4 039

356 741

Wes-Kaap

189 571

7 384

32 685

61 227

290 867

Noord-Kaap

14 586

6 291

590

431

21 898

Oos-Kaap

42 374

5 382

1 573

2 448

51 777

Vrystaat

27 463

3 458

1 875

1 960

34 756

KwaZulu-Natal

94 875

13 284

7 504

5 802

121 465

Noordwes

72 839

2 800

3 100

9 838

88 577

Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

Limpopo

56 132

2 480

478

9 372

68 462

TOTAAL

787 211

50 223

101 992

95 117

1 034 543

Van hier af is die berekening weer dieselfde as vir enkele waarskynlikhede: +

P(A∩ ∩B) = = 42 374 / 1 034 543 = 0.041 Daar is dus ’n 0.041 waarskynlikheid (of 4.1%) dat ’n kliënt wat ewekansig gekies word in die Oos-Kaap woon en vir die Wild-en-wakker-pakket ingeskryf is. Vraag 4: Hier het ons weereens ’n waarskynlikheid waar snyding betrokke is. Ons sal weer die twee gebeurtenisse identifiseer: Gestel A = Die kliënt woon in die Wes-Kaap Gestel B = Die kliënt is vir die Vat-dit-kalm-pakket ingeskryf .

Die formule P(A∩B) = / kan weer gebruik word. n word weer voorgestel deur die totale hoeveelheid kliënte, naamlik 1 034 543, terwyl r voorgestel word deur die sel waar die Wes-Kaap-ry en die Vat-dit-kalm-kolom sny. Die waarde wat hier van die tabel afgelees kan word, is 7 384. Bereken nou die waarskynlikheid: +

P(A∩ ∩B) = = 7 384 / 1 034 543 = 0.00714 Daar is dus ’n 0.00714 waarskynlikheid (0.714%) dat ’n kliënt wat ewekansig gekies word, in die Wes-Kaap sal woon en vir die Vat-dit-kalm-pakket ingeskryf sal wees. Notas: •

Jy sal oplet dat die waarskynlikheid vir twee gebeurtenisse wat op dieselfde tyd plaasvind, kleiner is as die afsonderlike waarskynlikheid van elke gebeurtenis. Dit maak logies sin: Die waarskynlikheid om een van jou ses vakke deur te kom is kleiner as die waarskynlikheid om al jou vakke deur te kom. Die waarskynlikheid om in 2016 ’n kompetisie te wen, is groter as die waarskynlikheid om in 2016, 2017 en ©akademia (MSW)| Hoofstuk 4: Waarskynlikhede

93


Elementêre Kwantitatiewe Metodes 2018 die prys te wen. •

Daar bestaan ’n formule om die snyding van twee waarskynlikhede te vind as jy nie ’n tabel het soos wat in hierdie oefening vir jou gegee word nie. Hierdie formule gebruik die individuele waarskynlikhede van die twee gebeurtenisse en sal volgende bespreek word.

Bereken snyding sonder ’n tabel Om die snyding van twee gebeurtenisse te bereken, deur van ’n tabel gebruik te maak, is redelik eenvoudig. Dit is, byvoorbeeld, maklik om die hoeveelheid Gauteng-kliënte wat vir die Wild-en-wakker-pakket geregistreer is, van die tabel af te lees. Daar is egter nie altyd ’n tabel met rou data beskikbaar vir hierdie berekening nie. Die wyse waarop ons waarskynlikhede bereken het, was redelik eenvoudig. Die formule .

P(A) = / is egter slegs een wyse waarop waarskynlikhede bereken kan word. Hierdie tipe

waarskynlikhede word “marginale waarskynlikhede” genoem. Nie alle waarskynlikhede is egter marginale waarskynlikhede nie. Soos wat jy later in hierdie gids sal sien, is daar verskillende tipes waarskynlikhede. Daar is ook verskillende wyses waarop waarskynlikhede bereken kan word. Ons sal, byvoorbeeld, later sien hoe waarskynlikhede deur sogenaamde waarskynlikheidverspreidings bereken kan word. Daar is ook ’n groot hoeveelheid wyses waarop waarskynlikhede bereken kan word, wat nie in hierdie gids bespreek word nie. Dit is dus moontlik dat jy slegs twee waarskynlikhede sal ontvang (sonder die rou data) en dat daar van jou verwag word om die snyding te bereken. Beskou die volgende: P(A) = 0.24 P(B) = 0.11 Wat is P(A∩ ∩B)?

Hoe nou gemaak? Ons het nie ’n tabel met die rou data tot ons beskikking nie? Gelukkig is daar ’n formule vir die berekening van snyding beskikbaar. Hierdie formule is: P(A∩ ∩B) = P(A) x P(B) As daar meer as twee waarskynlikhede is en ons wil graag die snyding van al die waarskynlikhede bereken, kan dieselfde formule aangepas word. Beskou die volgende Venn-diagram vir drie gebeurtenisse:

94

Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

A

B P(A∩ ∩B∩ ∩C)

C Figuur 4.2: Snyding van drie gebeurtenisse Die formule vir die snyding van hierdie drie gebeurtenisse is: P(A∩ ∩B∩ ∩C) = P(A) x P(B) x P(C) Beskou weer die voorbeeld hierbo genoem: P(A) = 0.24 P(B) = 0.11 Om die snyding te bereken kan ons die formule toepas: P(A∩ ∩B) = P(A) x P(B) = 0.24 x 0.11 = 0.0264 Dit is belangrik om in ag te neem dat, omdat die rou data nie beskikbaar is nie, die formule ’n benaderde waarde vir die snyding gee. As ons, byvoorbeeld, nie weet hoeveel Gautengkliënte vir Vasvat se Wild-en-wakker-pakket geregistreer is nie, sal ons die totale hoeveelheid kliënte in Gauteng en die totale hoeveelheid kliënte wat vir die Wild-en-wakkerpakket geregistreer is, gebruik om die presiese snyding-waarskynlikheid te benader.

©akademia (MSW)| Hoofstuk 4: Waarskynlikhede

95


Elementêre Kwantitatiewe Metodes

Probeer dit self Beskou weer Vasvat Versekeraars se kliëntegetalle: Wild en

Vat dit

Kleindorpie- Pasgemaak TOTAAL

wakker

kalm

kind

Gauteng

289 371

9 144

54 187

4 039

356 741

Wes-Kaap

189 571

7 384

32 685

61 227

290 867

Noord-Kaap

14 586

6 291

590

431

21 898

Oos-Kaap

42 374

5 382

1 573

2 448

51 777

Vrystaat

27 463

3 458

1 875

1 960

34 756

KwaZulu-Natal

94 875

13 284

7 504

5 802

121 465

Noordwes

72 839

2 800

3 100

9 838

88 577

Limpopo

56 132

2 480

478

9 372

68 462

TOTAAL

787 211

50 223

101 992

95 117

1 034 543

Vraag 1: Deur die tabel te gebruik, bepaal die waarskynlikheid dat ’n ewekansig-gekose kliënt in Limpopo sal woon en vir die Pasgemaakte pakket geregistreer is. Vraag 2: Bereken nou dieselfde waarskynlikheid wat jy in Vraag 1 hierbo bereken het, maar maak gebruik van die formule P(A∩B) = P(A) x P(B). Hoe verskil die waarskynlikhede? Antwoorde: Vraag 1: Gestel A = Die kliënt woon in Limpopo Gestel B = Die kliënt is vir die Pasgemaakte pakket geregistreer +

P(A∩ ∩B) = (Lees r van die tabel af) = 9 372 / 1 034 543 = 0.0091

96

Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

Vraag 2: Gestel ons kan nie r bloot van die tabel aflees nie – met ander woorde, die hoeveelheid kliënte wat in Limpopo woon en vir die pasgemaakte pakket geregistreer is, is nie beskikbaar nie. Ons sal dus nou P(A) en P(B) moet gebruik om die waarskynlikheid te benader. Gestel A = Die kliënt woon in Limpopo Gestel B = Die kliënt is vir die Pasgemaakte pakket geregistreer P(A) =

+

= 68 462 / 1 034 543 = 0.0662 +

P(B) = = 95 117/ 1 034 543 = 0.092 Ons kan dan die formule gebruik om die snyding te benader: P(A∩ ∩B) = P(A) x P(B) = 0.0662 x 0.092 = 0.0061 Hoe verskil die twee waardes? Die mees akkurate waarskynlikheid van die snyding is 0.0091. Die benaderde waarde is 0.0061. Die verskil tussen hierdie twee waardes is ’n relatief klein, naamlik 0.003 (of 0.3%). Probeer self: Jy kan self probeer om ’n paar van die ander moontlike snydings te bereken en dan met die formule te benader.

Begrip 2: Samevoeging Samevoeging behels die waarskynlikheid dat ten minste een van twee of meer gebeurtenisse kan plaasvind. Hierdie gebeurtenisse hoef nie gelyktydig plaas te vind nie, hoewel dit wel mag gebeur. Voorbeelde van gebeurtenisse sluit in: •

’n Persoon is ten minste 21 jaar oud of sy ouers teken die kontrak namens hom. Gebeurtenis A is dan Die persoon is ten minste 21 jaar oud en Gebeurtenis B is Die persoon se ouers teken die kontrak namens hom. Dit is ook moontlik dat die persoon se ouers namens hom teken, selfs al is hy 21 jaar oud. ©akademia (MSW)| Hoofstuk 4: Waarskynlikhede

97


Elementêre Kwantitatiewe Metodes •

Dit reën of dit hael. Gebeurtenis A is Dit reën en Gebeurtenis B is Dit hael. Dit is ook moontlik dat dit gelyktydig kan reën en hael.

’n Toeris is Suid-Afrikaans of Amerikaans. Gebeurtenis A is Die toeris is SuidAfrikaans en Gebeurtenis B is Die toeris is Amerikaans. In sommige gevalle is dit moontlik dat ’n toeris gedeelde burgerskap besit en die gebeurtenisse gelyktydig ook kan plaasvind.

Daar is egter gevalle waar die twee (of meer) gebeurtenisse nie gelyktydig kan plaasvind nie (hoewel ’n kreatiewe persoon moontlik aan uitsonderings kan dink!). Voorbeelde sluit in: •

Die ruimtevaarder is op die Aarde of op die Maan.

Dit is nag of dit is dag (die som van hierdie twee waarskynlikhede sal natuurlik 1 wees – sien Begrip 4).

Die student se oë is oop of die student nies.

Een woord wat in elk van hierdie stellings voorkom, is die woord “of”. “Of” word gebruik om samevoeging van twee gebeurtenisse aan te dui. Die Venn-diagram hieronder stel samevoeging grafies voor. Die behoort ook vir jou ’n aanduiding te gee waarom ons die woord “samevoeging” gebruik.

A

B

SAMEVOEGING

Figuur 4.3: Samevoeging voorgestel deur ‘n Venn-diagram Die twee sirkels stel die waarskynlikhede dat twee gebeurtenisse, A en B, sal plaasvind, voor. Die grys gedeelte (wat dus die totale oppervlakte van A en B is), stel die waarskynlikheid voor dat een of albei van A of B sal plaasvind. Die waarskynlikheid dat ten minste een (of albei) van die gebeurtenisse sal plaasvind, is dus die som van die twee

98

Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes waarskynlikhede. Die Venn-diagram hierbo stel slegs waarskynlikhede wat wel gelyktydig kan plaasvind, voor. Samevoeging word deur die simbool U voorgestel. Die waarskynlikheid dat Gebeurtenisse A of B (of beide) sal plaasvind, word deur P(AUB) voorgestel. Daar is twee formules wat gebruik kan word om samevoeging te bereken. Die keuse van die formule word bepaal deur die antwoord op die vraag: Is dit moontlik dat beide gebeurtenisse tegelyk kan plaasvind? Ons sal begin deur na ’n geval te kyk waar twee gebeurtenisse nie gelyktydig kan plaasvind nie. Die formule wat ons in hierdie geval gebruik, is: P(AUB) = P(A) + P(B) Voorbeeld Die waarskynlikheid dat ’n student by ’n sekere universiteit vir ’n BCom (Ondernemingsbestuur)-graad ingeskryf is, is 0.42. Die waarskynlikheid dat ’n student by die universiteit vir ’n BCom (Finansiële bestuur)-graad ingeskryf is, is 0.32. Dit is nie moontlik vir ’n student om vir meer as een kwalifikasie in te skryf nie. Wat is die waarskynlikheid dat ’n student vir ’n Ondernemingsbestuur- of Finansiële Bestuurkwalifikasie ingeskryf is? Antwoord: Gestel A = Student is ingeskryf vir Ondernemingsbestuur Gestel B = Student is ingeskryf vir Finansiële bestuur Die formule vir die samevoeging is bloot die som van die afsonderlike waarskynlikhede: P(AUB) = P(A) + P(B) = 0.42 + 0.32 = 0.74 Dit kan ook uitgedruk word as ’n persentasie van 74%. Wanneer die twee gebeurtenisse gelyktydig kan plaasvind, ondervind ons ’n probleem. Kyk na die volgende waarskynlikhede: •

Die waarskynlikheid dat ’n spesifieke toeris in ’n toergroep Suid-Afrikaans is, is 0.75.

Die waarskynlikheid dat ’n spesifieke toeris in ’n toergroep Amerikaans is, is 0.30.

©akademia (MSW)| Hoofstuk 4: Waarskynlikhede

99


Elementêre Kwantitatiewe Metodes •

Die waarskynlikheid dat ’n spesifieke toeris in ’n toergroep beide Amerikaanse en Suid-Afrikaanse burgerskap het, is 0.05.

Wat is die waarskynlikheid dat ’n toeris Suid-Afrikaans of Amerikaans (of beide) sal wees? As ons nou die formule vir samevoeging sou toepas, sou dit soos volg lyk: Gestel A = Die toeris is Suid-Afrikaans Gestel B = Die toeris is Amerikaans P(AUB) = 0.75 + 0.3 = 1.05 MAAR ons weet dat ’n waarskynlikheid nooit meer as 1 mag wees nie! Hoe het dit gebeur? Kom ons stel hierdie geval grafies met behulp van ’n Venn-diagram voor:

A

B

A∩B

Figuur 4.4: Gebeurtenisse wat nie onderling uitsluitlik is nie Ons kan hierdie Venn-diagram nou aanpas om die spesifieke waarskynlikhede te weerspieël:

A = 0.75

A∩ ∩B =0.05

B = 0.3

Figuur 4.5: Waarskynlikhede van gebeurtenisse wat nie onderling uitsluitlik is nie

100

Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes Die groot verskil tussen hierdie voorbeeld en die vorige voorbeeld, is die feit dat A en B wel gelyktydig kan plaasvind. As ons Gebeurtenis A se waarskynlikheid (0.75) in ag neem, is die 0.05 van die snydingsgedeelte daarby ingesluit. As ons Gebeurtenis B se waarskynlikheid in ag neem, is die 0.05 van die snydingsgedeelte ook daarby ingesluit. Wanneer ons die twee waarskynlikhede (0.75 en 0.3) bymekaartel, dan het ons dus die snydingsgedeelte twee keer in ag geneem. Om hierdie rede moet ons die snydingsgedeelte een keer van die totaal aftrek om die samevoeging te vind. Die formule vir samevoeging, as dit moontlik is vir twee gebeurtenisse om gelyktydig plaas te vind, is dus: P(AUB) = P(A) + P(B) – P(A∩ ∩B) Bogenoemde voorbeeld sal dus soos volg bereken kan word: P(AUB) = P(A) + P(B) – P(A∩ ∩B) = 0.75 + 0.3 – 0.05 =1 In hierdie geval is die waarskynlikheid van 1 wel aanvaarbaar. Ons kan dus ook aanneem dat daar in hierdie geval geen ander toeriste in die toergroep is as Suid-Afrikaners en Amerikaners (of toeriste met gedeelde burgerskap) nie. Hierdie begrip (gesamentlik uitputbaar) word later bespreek. Probeer self Kyk weer na die tabel wat al Vasvat se kliënte volgens provinsies en pakkette indeel. Wild en

Vat dit

Kleindorpie- Pasgemaak TOTAAL

wakker

kalm

kind

Gauteng

289 371

9 144

54 187

4 039

356 741

Wes-Kaap

189 571

7 384

32 685

61 227

290 867

Noord-Kaap

14 586

6 291

590

431

21 898

Oos-Kaap

42 374

5 382

1 573

2 448

51 777

Vrystaat

27 463

3 458

1 875

1 960

34 756

KwaZulu-Natal

94 875

13 284

7 504

5 802

121 465

Noordwes

72 839

2 800

3 100

9 838

88 577

©akademia (MSW)| Hoofstuk 4: Waarskynlikhede

101


Elementêre Kwantitatiewe Metodes

Limpopo

56 132

2 480

478

9 372

68 462

TOTAAL

787 211

50 223

101 992

95 117

1 034 543

Bereken nou die volgende: Vraag 1: Wat is die waarskynlikheid dat ’n kliënt wat ewekansig gekies word, in Gauteng of die WesKaap sal voorkom? Vraag 2: Wat is die waarskynlikheid dat ’n kliënt wat ewekansig gekies word, vir die Wild-en-wakkerpakket of die Pasgemaakte pakket geregistreer sal wees? Vraag 3: Wat is die waarskynlikheid dat ’n kliënt wat ewekansig gekies word, in die Vrystaat, Noordwes of Limpopo sal woon? Vraag 4: Wat is die waarskynlikheid dat ’n kliënt wat ewekansig gekies word, in Gauteng sal woon of vir die Wild-en-wakker-pakket geregistreer sal wees? Antwoorde: Vraag 1: Vir elk van die waarskynlikhede moet ons die vraag vra: Is dit moontlik vir die twee gebeurtenisse om gelyktydig plaas te vind? Vir Vraag 1 is hierdie antwoord “nee”. Dit is nie moontlik vir ’n kliënt om in beide Gauteng en die Wes-Kaap voor te kom nie. (Ons neem aan dat geen kliënte twee keer in die tabel voorkom nie.) Die formule wat ons dus gaan gebruik, is P(AUB) = P(A) + P(B). Gestel A = Die kliënt woon in Gauteng Gestel B = Die kliënt woon in die Wes-Kaap Voordat ons egter die gesamentlike waarskynlikheid kan bereken, moet ons die individuele waarskynlikhede, P(A) en P(B), bereken. +

P(A) = = 356 741 / 1 034 543 = 0.345

102

Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes +

P(B) = = 290 867 / 1 034 543 = 0.281 Nou kan ons die gesamentlike waarskynlikheid bereken: P(AUB) = P(A) + P(B) = 0.345 + 0.281 = 0.626 Daar is dus ’n waarskynlikheid van 0.626 dat ’n kliënt wat ewekansig gekies word, in Gauteng of in die Wes-Kaap woon. Vraag 2: Ons moet weer die vraag vra: Is dit moontlik vir die twee gebeurtenisse om gelyktydig plaas te vind? Is dit dus moontlik dat ’n kliënt vir meer as een pakket op een slag geregistreer is? Omdat ons aanneem dat ’n kliënt nie twee keer in die tabel ingesluit is nie, gaan ons ook aanneem dat dit nie moontlik is vir ’n kliënt om vir meer as een pakket op ’n slag geregistreer te wees nie. Ons kan dus die formule P(AUB) = P(A) + P(B) gebruik. Gestel A = Die kliënt is vir die Wild-en-wakker-pakket geregistreer Gestel B = Die kliënt is vir die Pasgemaakte pakket geregistreer Ons moet weereens eers die afsonderlike waarskynlikhede, P(A) en P(B), bereken: +

P(A) = = 787 211 / 1 034 543 = 0.761 +

P(B) = = 95 117 / 1 034 543 = 0.092 Nou kan ons die samevoeging bereken: P(AUB) = P(A) + P(B) = 0.761 + 0.092

©akademia (MSW)| Hoofstuk 4: Waarskynlikhede

103


Elementêre Kwantitatiewe Metodes

= 0.853 Daar is dus ’n waarskynlikheid van 0.853 (of 85.3%) dat ’n kliënt wat ewekansig gekies word, vir ’n Wild-en-wakker-pakket of ’n Pasgemaakte pakket geregistreer sal wees. Vraag 3: In hierdie vraag is daar drie gebeurtenisse. Die wyse waarop hierdie vraag benader word, verskil egter nie van die vorige twee vrae nie. Ons moet weereens bepaal of dit moontlik is dat hierdie gebeurtenisse gelyktydig kan plaasvind. Die antwoord is weereens “nee”. Dit is nie moontlik vir ’n kliënt om gelyktydig in die Vrystaat, Noordwes en Limpopoprovinsie te woon nie. (Selfs al sou dit vir ’n kliënt moontlik wees om twee huise in verskillende provinsies te besit, sou slegs een adres as die hoofadres in Vasvat se databasis voorgekom het.) Ons gaan dus dieselfde formule gebruik: P(AUBUC) = P(A) + P(B) + P(C) Gestel A = Die kliënt woon in die Vrystaat Gestel B = Die kliënt woon in die Noordwesprovinsie Gestel C = Die kliënt woon in die Limpopoprovinsie Ons moet natuurlik eers die afsonderlike waarskynlikhede bereken: P(A) =

+

= 34 756 / 1 034 543 = 0.034 +

P(B) =

= 88 577 / 1 034 543 = 0.086 +

P(C) = = 68 462 /1 034 543 = 0.066

Nou kan ons die waarskynlikhede bymekaartel om die samevoeging te vind: P(AUBUC) = P(A) + P(B) + P(C) = 0.034 + 0.086 + 0.066

104

Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

= 0.186 Daar is dus ’n 0.186 waarskynlikheid (of 18.6%) dat ’n kliënt wat ewekansig gekies word, uit die Vrystaat, Noordwes- of Limpopoprovinsie sal kom. Vraag 4: In die laaste vraag kyk ons na twee gebeurtenisse wat wel gelyktydig kan plaasvind. Ons sal dus in hierdie geval die tweede formule moet gebruik: P(AUB) = P(A) + P(B) – P(A∩B). Dit is moontlik vir ’n kliënt om in Gauteng te woon en terselfdertyd vir die Wild-en-wakker-pakket geregistreer te wees. Gestel A = Die kliënt woon in Gauteng Gestel B = Die kliënt is vir die Wild-en-wakker-pakket geregistreer Ons het reeds beide hierdie waarskynlikhede in Vraag 1 en 2 hierbo bereken: P(A) = 0.345 P(B) = 0.761 Ons moet egter nou ook nou bereken wat die waarskynlikheid is dat ’n ewekansig-gekose kliënt in Gauteng woon en vir die Wild-en-wakker-pakket geregistreer is, omdat hierdie waarde deur die formule benodig word. +

P(A∩ ∩B) = = 289 371 / 1 034 543 = 0.280 Ons kan nou die samevoeging bereken: P(AUB) = P(A) + P(B) – P(A∩ ∩B) = 0.345 + 0.761 – 0.280 = 0.826 Daar is dus ’n waarskynlikheid van 0.826 (of 82.6%) dat ’n ewekansig-gekose kliënt in Gauteng woon of vir die Wild-en-wakker-pakket geregistreer is (of beide). Nota: Jy sal opmerk dat die eerste formule vir samevoeging (wat nie die snyding in ag neem nie) ook vir jou ’n ongeldige waarskynlikheid van 1.106 (0.345 + 0761) sou gee. Die rede hiervoor is omdat daar so ’n groot hoeveelheid kliënte is wat beide in Gauteng woon en vir die Wild-en-wakker-pakket geregistreer is – die snyding van die twee gebeurtenisse is dus groot. ©akademia (MSW)| Hoofstuk 4: Waarskynlikhede

105


Elementêre Kwantitatiewe Metodes

Begrip 3: Onderling-uitsluitlike gebeurtenisse Gebeurtenisse is onderling uitsluitlik indien die gebeurtenisse nie gelyk kan plaasvind nie. Die volgende is voorbeelde van onderling-uitsluitlike gebeurtenisse: •

’n Student kan geregistreer wees vir ’n BCom (Ondernemingsbestuur) of vir ’n BCom (Finansiële bestuur)-graad, maar mag nie vir meer as een kwalifikasie op een slag geregistreer wees nie.

’n Werknemer kan in een van die volgende departemente werk: Finansies, Menslike hulpbronne, Produksie of Bemarking. Die werknemer kan egter nie in meer as een departement werksaam wees nie.

’n Venn-diagram sal onderling-uitsluitlike gebeurtenisse soos volg voorstel:

B A Figuur 4.6: Venn-diagram van onderling-uitsluitlike gebeurtenisse Uit bogenoemde Venn-diagram is dit duidelik dat A en B nooit tegelyk kan plaasvind nie omdat die twee sirkels (en dus gebeurtenisse) nooit sny nie. Die waarskynlikheid dat A en B gelyktydig plaasvind, is dus ’n onmoontlikheid: P(A∩ ∩B) = 0 Waarom is dit belangrik om te weet of gebeurtenisse onderling uitsluitlik is? Die waarde hiervan kan gesien word in die berekening van ’n samevoeging-waarskynlikheid. Soos vroeër genoem, bepaal die feit dat gebeurtenisse onderling uitsluitlik is, die formule wat vir samevoeging gebruik gaan word. As gebeurtenisse wel kan sny (en dus nie onderling uitsluitlik is nie), word een formule gebruik. Indien dit wel onderling uitsluitlik is, word ’n ander formule gebruik.

106

Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

Probeer dit self Beskou weer die kliëntegetalle van Vasvat Versekeraars: Wild en

Vat dit

Kleindorpie- Pasgemaak TOTAAL

wakker

kalm

kind

Gauteng

289 371

9 144

54 187

4 039

356 741

Wes-Kaap

189 571

7 384

32 685

61 227

290 867

Noord-Kaap

14 586

6 291

590

431

21 898

Oos-Kaap

42 374

5 382

1 573

2 448

51 777

Vrystaat

27 463

3 458

1 875

1 960

34 756

KwaZulu-Natal

94 875

13 284

7 504

5 802

121 465

Noordwes

72 839

2 800

3 100

9 838

88 577

Limpopo

56 132

2 480

478

9 372

68 462

TOTAAL

787 211

50 223

101 992

95 117

1 034 543

Vraag: Wat is die waarskynlikheid dat ’n kliënt wat ewekansig gekies word, in beide Gauteng en die Wes-Kaap woon? Antwoord: Hierdie vraag kan nie met ’n formule bereken word nie. Uit die tabel is dit duidelik dat dit nie moontlik is vir een kliënt om in Gauteng en die Wes-Kaap te woon nie. Daar is nie ’n spesifieke sel vir kliënte in beide Gauteng en die Wes-Kaap nie. Die waarskynlikheid sal dus nul wees: Gestel A = ’n Kliënt woon in Gauteng Gestel B = ’n Kliënt woon in die Wes-Kaap P(A∩ ∩B) = 0 Die belangrikheid van konteks: Om ’n vraag soos hierdie te beantwoord, is dit egter altyd nodig om die konteks rondom die data te verstaan. As jy bloot die waarskynlikhede A en B ontvang het, sou jy die formule gebruik het om die waarskynlikheid te bereken. Sonder konteks sou jy dan ’n ©akademia (MSW)| Hoofstuk 4: Waarskynlikhede

107


Elementêre Kwantitatiewe Metodes waarskynlikheid gevind het. Hierdie antwoord sou egter verkeerd gewees het, bloot omdat dit nie moontlik is vir ’n enkele kliënt om in beide Gauteng en die Wes-Kaap geregistreer te wees nie.

Begrip 4: Gesamentlik uitputbaar Gebeurtenisse is gesamentlik uitputbaar indien dit alle moontlike gebeurtenisse insluit. Voorbeelde van gesamentlik-uitputbare gebeurtenisse sluit in: •

Gebeurtenis A = Die skrywer lewe. Gebeurtenis B = Die skrywer is oorlede. Daar is nie enige ander moontlike gebeurtenisse wat nie by A of B ingesluit is nie. Die waarskynlikheid dat A of B waar is, is dus 1 (of 100%).

Gebeurtenis A = Die kliënt is 21 jaar of jonger. Gebeurtenis B = Die kliënt is ouer as 21 jaar en jonger as 35. Gebeurtenis C = Die kliënt is 35 en ouer, maar jonger as 55. Gebeurtenis D = Die kliënt is 55 jaar en ouer. Dit is nie moontlik vir ’n kliënt om enige ouderdom te besit wat nie by een van die bogenoemde gebeurtenisse inpas nie. Die waarskynlikheid vir A of B of C of D om waar te wees, is 1.

Die belangrikste eienskap van gesamentlik-uitputbare gebeurtenisse is die feit dat die som van die waarskynlikhede van hierdie gebeurtenisse 1 sal wees. Beskou weer die laaste punt wat hierbo genoem word: Gestel A = Die kliënt is 21 jaar of jonger Gestel B = Die kliënt is ouer as 21 jaar en jonger as 35 Gestel C = Die kliënt is 35 en ouer, maar jonger as 55 Gestel D = Die kliënt is 55 jaar en ouer Deur na die bogenoemde gebeurtenisse te kyk, is dit onmoontlik om aan enige gebeurtenis te dink (ten opsigte van die kliënte se ouderdomskategorie) wat nie by een van die bogenoemde ingesluit is nie. Dus kan ons sê dat: P(AUBUCUD) = P(A) + P(B) + P(C) + P(D) = 1

108

Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

Probeer self Die volgende waarskynlikhede word verskaf: P(A) = 0.22 P(B) = 0.44 P(C) = 0.13 P(D) = 0.19 P(E) = ? Dit is bekend dat A, B, C, D en E gesamentlik uitputbaar is. Bereken P(E). Antwoord: Die belangrikste leidraad wat benodig word om hierdie vraag te beantwoord, is die feit dat die gebeurtenisse gesamentlik uitputbaar is. As gevolg van hierdie feit, mag ons aanvaar dat die som van al die waarskynlikhede gelyk is aan 1. Sodoende kan ons die uitstaande waarskynlikheid bereken: P(AUBUCUDUE) = P(A) + P(B) + P(C) + P(D) + P(E) = 1 Dus: 0.22 + 0.44 + 0.13 + 0.19 + P(E) = 1 Ons kan nou die eenvoudige wiskundige vergelyking oplos deur P(E) as ’n onbekende veranderlike te hanteer: 0.22 + 0.44 + 0.13 + 0.19 + P(E) = 1 0.98 + P(E) = 1 P(E) = 1 – 0.98 = 0.02 Dus is die waarskynlikheid dat P(E) gaan plaasvind 0.02 (of 2%). Ons kan ons antwoord toets deur al die waarskynlikhede nou bymekaar te tel. As die totaal 1 is, is ons antwoord korrek omdat die gebeurtenisse gesamentlik uitputbaar is. P(A) + P(B) + P(C) + P(D) + P(E) = 0.22 + 0.44 + 0.13 + 0.19 +0.02 =1

©akademia (MSW)| Hoofstuk 4: Waarskynlikhede

109


Elementêre Kwantitatiewe Metodes

Terug na Vasvat Versekeraars Beskou weer Vasvat Versekeraars se kliënte-inligting: Wild en

Vat dit

Kleindorpie- Pasgemaak TOTAAL

wakker

kalm

kind

Gauteng

289 371

9 144

54 187

4 039

356 741

Wes-Kaap

189 571

7 384

32 685

61 227

290 867

Noord-Kaap

14 586

6 291

590

431

21 898

Oos-Kaap

42 374

5 382

1 573

2 448

51 777

Vrystaat

27 463

3 458

1 875

1 960

34 756

KwaZulu-Natal

94 875

13 284

7 504

5 802

121 465

Noordwes

72 839

2 800

3 100

9 838

88 577

Limpopo

56 132

2 480

478

9 372

68 462

TOTAAL

787 211

50 223

101 992

95 117

1 034 543

Vraag: Wat is die waarskynlikheid dat ’n kliënt wat ewekansig gekies is, vir die Wild-en-wakkerpakket, die Vat-dit-kalm-pakket, die Kleindorpie-kind-pakket of die Pasgemaakte pakket geregistreer sal wees? Antwoord: Uit die samestelling van die data is dit duidelik dat al 1 034 543 kliënte vir een van die vier pakkette geregistreer is. Die vier gebeurtenisse is dus gesamentlike uitputbaar. Ons kan hierdie stelling egter statisties toets: Gestel A = Die kliënt is vir die Wild-en-wakker-pakket geregistreer Gestel B = Die kliënt is vir die Vat-dit-kalm-pakket geregistreer Gestel C = Die kliënt is vir die Kleindorpie-kind-pakket geregistreer Gestel D = Die kliënt is vir die Pasgemaakte pakket geregistreer Ons moet nou elke waarskynlikheid afsonderlik bereken:

110

Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

P(A) =

+

= 787 211 / 1 034 543 = 0.7609 +

P(B) = = 50 223 / 1 034 543 = 0.0485 +

P(C) = = 101 992 / 1 034 543 = 0.0986 +

P(D) = = 95 117 / 1 034 543 = 0.0919 Om die samevoeging te bereken, gebruik ons die formule vir gebeurtenisse wat onderling uitsluitlik is, omdat dit nie moontlik is vir ’n enkele kliënt om vir meer as een pakket geregistreer te wees nie: P(AUBUCUD) = P(A) + P(B) + P(C) + P(D) = 0.7609 + 0.0485 + 0.0986 + 0.0919 ~1

Begrip 5: Voorwaardelike waarskynlikhede Met ’n voorwaardelike waarskynlikheid word ’n aanname ten opsigte van een van die veranderlikes gemaak. Hierdie aannames word as ’n gegewe aanvaar en die waarskynlikheid word dan bereken. ’n Voorwaardelike waarskynlikheid kan soos volg lyk: •

’n Ewekansig-gekose kliënt woon in die Wes-Kaap. Wat is die waarskynlikheid dat daardie kliënt vir die Pasgemaakte pakket geregistreer is?

Gegewe dat ’n ewekansig-gekose kliënt vir die Wild-en-wakker-pakket geregistreer is. Wat is die waarskynlikheid dat daardie kliënt in Gauteng woon? ©akademia (MSW)| Hoofstuk 4: Waarskynlikhede

111


Elementêre Kwantitatiewe Metodes •

Gegewe dat ’n ewekansig-gekose kliënt nie in die Limpopoprovinsie woon nie. Wat is die waarskynlikheid dat daardie kliënt vir die Vat-dit-kalm-pakket geregistreer is?

Indien ’n tabel, soos in die geval van Vasvat Versekeraars se kliënte, beskikbaar is, is ’n voorwaardelike waarskynlikheid maklik om te bereken. Dieselfde formule kan gebruik word +

( ). Die enigste verskil is die feit dat ons die getalle van ’n kleiner steekproef gebruik. Voorbeeld Beskou die kliëntetabel van Vasvat Versekeraars: Wild en

Vat dit

Kleindorpie- Pasgemaak TOTAAL

wakker

kalm

kind

Gauteng

289 371

9 144

54 187

4 039

356 741

Wes-Kaap

189 571

7 384

32 685

61 227

290 867

Noord-Kaap

14 586

6 291

590

431

21 898

Oos-Kaap

42 374

5 382

1 573

2 448

51 777

Vrystaat

27 463

3 458

1 875

1 960

34 756

KwaZulu-Natal

94 875

13 284

7 504

5 802

121 465

Noordwes

72 839

2 800

3 100

9 838

88 577

Limpopo

56 132

2 480

478

9 372

68 462

TOTAAL

787 211

50 223

101 992

95 117

1 034 543

Wat is die waarskynlikheid dat ’n ewekansig-gekose kliënt vir die Vat-dit-kalm-pakket geregistreer is, gegewe dat hierdie kliënt in die Wes-Kaap woon? Omdat ons dus nou weet dat die kliënt in die Wes-Kaap woon, hoef ons glad nie die data in die ander provinsies in ag te neem nie. Ons kan dus soos volg na die tabel kyk: Vat dit

Kleindorpie- Pasgemaak TOTAAL

wakker

kalm

kind

Gauteng

289 371

9 144

54 187

4 039

356 741

Wes-Kaap

189 571

7 384

32 685

61 227

290 867

14 586

6 291

590

431

21 898

Noord-Kaap

112

Wild en

Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

Oos-Kaap

42 374

5 382

1 573

2 448

51 777

Vrystaat

27 463

3 458

1 875

1 960

34 756

KwaZulu-Natal

94 875

13 284

7 504

5 802

121 465

Noordwes

72 839

2 800

3 100

9 838

88 577

Limpopo

56 132

2 480

478

9 372

68 462

TOTAAL

787 211

50 223

101 992

95 117

1 034 543

Ons werk dus nou slegs met die Wes-Kaap se data. Die voorwaardelike waarskynlikheid kan dus soos volg bereken word: Gestel A = Die kliënt is vir die Vat-dit-kalm-pakket geregistreer Gestel B = Die kliënt woon in die Wes-Kaap (gegewe) +

P(A/B) = = 7 384 / 290 867 = 0.025

Probeer self Beskou die kliëntetabel van Vasvat Versekeraars: Wild en

Vat dit

Kleindorpie- Pasgemaak TOTAAL

wakker

kalm

kind

Gauteng

289 371

9 144

54 187

4 039

356 741

Wes-Kaap

189 571

7 384

32 685

61 227

290 867

Noord-Kaap

14 586

6 291

590

431

21 898

Oos-Kaap

42 374

5 382

1 573

2 448

51 777

Vrystaat

27 463

3 458

1 875

1 960

34 756

KwaZulu-Natal

94 875

13 284

7 504

5 802

121 465

Noordwes

72 839

2 800

3 100

9 838

88 577

Limpopo

56 132

2 480

478

9 372

68 462

TOTAAL

787 211

50 223

101 992

95 117

1 034 543

©akademia (MSW)| Hoofstuk 4: Waarskynlikhede

113


Elementêre Kwantitatiewe Metodes

Vraag 1: Wat is die waarskynlikheid dat ’n ewekansig-gekose kliënt in die Vrystaat sal woon, gegewe die feit dat die kliënt vir die Pasgemaakte pakket geregistreer is? Vraag 2: Wat is die waarskynlikheid dat ’n ewekansig-gekose kliënt vir die Wild-en-wakker-pakket geregistreer sal wees, gegewe dat hierdie kliënt in Gauteng of die Wes-Kaap woon? Antwoord 1: In hierdie geval kan ons weer die meeste van die data in die tabel ignoreer en slegs fokus op die kliëntegetalle van die Pasgemaakte pakket (gegee). Die tabel sal dan soos volg lyk: Wild en

Vat dit

Kleindorpie- Pasgemaak TOTAAL

wakker

kalm

kind

Gauteng

289 371

9 144

54 187

4 039

356 741

Wes-Kaap

189 571

7 384

32 685

61 227

290 867

Noord-Kaap

14 586

6 291

590

431

21 898

Oos-Kaap

42 374

5 382

1 573

2 448

51 777

Vrystaat

27 463

3 458

1 875

1 960

34 756

KwaZulu-

94 875

13 284

7 504

5 802

121 465

Noordwes

72 839

2 800

3 100

9 838

88 577

Limpopo

56 132

2 480

478

9 372

68 462

TOTAAL

787 211

50 223

101 992

95 117

1 034 543

Natal

Gestel A = Die kliënt woon in die Vrystaat Gestel B = Die kliënt is vir die Pasgemaakte pakket geregistreer (gegewe)

P(A/B) =

+

= 1 960 / 95 117 = 0.021

114

Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

Antwoord 2: In hierdie geval word die steekproef ook verklein. In plaas daarvan om een ry of kolom te kies, word twee rye (Gauteng en Wes-Kaap) van die tabel ingesluit. Ons tabel sal dus soos volg lyk: Wild en

Vat dit

Kleindorpie- Pasgemaak TOTAAL

wakker

kalm

kind

Gauteng

289 371

9 144

54 187

4 039

356 741

Wes-Kaap

189 571

7 384

32 685

61 227

290 867

Noord-Kaap

14 586

6 291

590

431

21 898

Oos-Kaap

42 374

5 382

1 573

2 448

51 777

Vrystaat

27 463

3 458

1 875

1 960

34 756

KwaZulu-Natal

94 875

13 284

7 504

5 802

121 465

Noordwes

72 839

2 800

3 100

9 838

88 577

Limpopo

56 132

2 480

478

9 372

68 462

TOTAAL

787 211

50 223

101 992

95 117

1 034 543

Ons het egter nou die totale van die samevoeging ook nodig: Ons steekproef bestaan uit alle kliënte in Gauteng en die Wes-Kaap. ’n Nuwe tabel met die totale sal soos volg lyk: Wild en

Vat dit

Kleindorpie- Pasgemaak TOTAAL

wakker

kalm

kind

Gauteng

289 371

9 144

54 187

4 039

356 741

Wes-Kaap

189 571

7 384

32 685

61 227

290 867

TOTAAL

478 942

16 528

86 872

65 266

647 608

Gestel A = ’n Kliënt is vir die Wild-en-wakker-pakket geregistreer Gestel B = ’n Kliënt woon in Gauteng of die Wes-Kaap

P(A/B) =

+

= 478 942 / 647 608 = 0.74 ©akademia (MSW)| Hoofstuk 4: Waarskynlikhede

115


Elementêre Kwantitatiewe Metodes

Begrip 6: Statistiese afhanklikheid Vervolg… Michael en Vanessa kyk na Vasvat se kliëntegetalle. Hulle is al vir twee dae besig met waarskynlikhede en het nog nie eens na die ander data gekyk nie. Vanessa dink skielik aan iets: “Is die provinsie waarin ’n kliënt woon en die pakket waarvoor die kliënt ingeskryf het, statisties afhanklik?” “Ja.” Vanessa bars uit van die lag. “Jy het nie eers daaroor gedink nie!” “Ek het. Gister al.” “Ek is die ene ore. Hoe het jy tot jou gevolgtrekking gekom?” Michael trek 'n ander lêer nader. “Ek het 'n bietjie data gaan versamel. En ’n paar berekeninge gedoen.” “Mooi,” sê Vanessa. “Teoretiese en statistiese argumente. Kom ons begin by die teorie. Waarom dink jy is die twee veranderlikes afhanklik van mekaar?” Michael dink ’n oomblik voordat hy begin praat. “Wel, ek het na die definisie van statistiese onafhanklikheid gekyk. As die twee veranderlikes onafhanklik was, sou kliënte se keuse van ’n pakket dieselfde gewees het, ongeag van die provinsie waarin hulle woon.” “En jy is van mening dat dit nie geval is nie?” vra Vanessa. Michael skud sy kop. “Daar is te veel faktore wat eie is aan ’n provinsie, wat ’n kliënt se keuse van pakket kan beïnvloed.” “Soos?” “Die ouderdom van die populasie. Die misdaadsyfers. Die vlak van opleiding van die meeste van die bevolking. Kulture. Dit maak net nie sin dat iemand se provinsie nie ’n rol kan speel in die keuse van ’n versekeringspakket nie.” “Sou jy dus sê dat ’n kliënt se provinsie sy of haar keuse van ’n produk beïnvloed?” Michael huiwer vir 'n oomblik. “Ek is versigtig om so ’n stelling te maak.” “Hoekom?” “Want statistiese afhanklikheid beteken nie noodwendig dat die een ’n invloed op die ander het nie. Daar kan ’n derde veranderlike wees wat ook ’n invloed op beide faktore het.”

116

Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

Vanessa wag vir Michael om te verduidelik. “Kom ons probeer ’n ander voorbeeld. Navorsers vind dat roomysverkope by ’n spesifieke strand tydens sekere maande hoër is as ander maande. Hulle vind ook dat die verkope van swemkostuums by dieselfde strand hoër is in dieselfde maande as roomysverkope. Is roomysverkope en verkope van swemklere statisties afhanklik? Ja? Beïnvloed roomysverkope die verkope van swemkostuums? Nee. Beide word deur die hoeveelheid besoekers aan die strand beïnvloed, wat weer weer beïnvloed word deur die klimaat.” “Goed gestel,” antwoord Vanessa. “Jy het my oortuig dat, vanuit ’n logiese of teoretiese perspektief, provinsie en keuse van pakket van mekaar afhanklik is. Het jy enige statistiese bewyse?” Michael maak die lêer oop. “Inderdaad,” sê hy. “My argument is: Indien provinsie en keuse van ’n pakket onafhanklik is, sal die waarskynlikheid dat ’n kliënt ’n pakket kies, dieselfde bly, ongeag van die provinsie waarin die kliënt woon.” “Dit maak sin. Hoe het jy die berekening gedoen?” Michael skuif ’n bladsy oor die tafel na Vanessa. Vanessa sien die volgende som: Die waarskynlikheid dat ’n ewekansig-gekose kliënt die Wild-en-wakker-pakket sal kies: +

P(A) = = 787 211/ 1 034 543 = 0.761 Indien ek egter vooraf weet dat die kliënt beslis in Gauteng woon, wat sal die waarskynlikheid wees dat daardie kliënt die Wild-en-wakker-pakket kies? +

P(A/B) = = 289 371 / 356 741 = 0.811 Dit is dus duidelik dat die twee waarskynlikhede verskil. Vanessa neem ’n oomblik om die opsomming te lees. “Verduidelik jou tweede waarskynlikheid vir my. Waarom gebruik jy nie die totale hoeveelheid kliënte, die 1 034 543, in jou berekening nie?” “Want dit is ’n voorwaardelike waarskynlikheid. Dit is die logika van die berekening. Met die eerste waarskynlikheid kyk ek wat die kans is dat ’n ewekansig-gekose persoon uit alle ©akademia (MSW)| Hoofstuk 4: Waarskynlikhede

117


Elementêre Kwantitatiewe Metodes provinsies die Wild-en-wakker-pakket gaan kies. Met die tweede een skep ek ’n kleiner steekproef – slegs die kliënte in Gauteng – en kyk of die waarskynlikheid vir ’n kliënt om die Wild-en-wakker-pakket te kies, dieselfde bly.” “En in hierdie geval het dit nie gebeur nie,” bevestig Vanessa. “Presies. Die waarskynlikheid dat ’n kliënt uit die hele populasie die Wild-en-wakker-pakket gaan kies, is kleiner as die waarskynlikheid dat iemand uit Gauteng die Wild-en-wakkerpakket gaan kies. Dus is die waarskynlikheid wel afhanklik van die provinsie. En dus is provinsie en keuse van ’n pakket statisties afhanklik.” Vanessa sit glimlaggend terug. “As ’n beroep in Statistiek nie vir jou uitwerk nie, kan jy gerus ’n loopbaan in die onderwys oorweeg.” Die formule vir die afhanklikheidstoets wat Michael hierbo gebruik het, kan soos volg voorgestel word: P(A/B) = P(A) Die voorwaardelike waarskynlikheid, P(A/B), kan beskryf word as: Die waarskynlikheid dat Gebeurtenis A gaan plaasvind as ons weet dat Gebeurtenis B wel waar is. In die bogenoemde geval was dit: Gebeurtenis A = ’n Kliënt kies die Wild-en-wakker-pakket Gebeurtenis B = ’n Kliënt woon in Gauteng Dus is die vraag wat ons vra: As ons weet dat ’n kliënt in Gauteng woon, sal die waarskynlikheid dat daardie kliënt die Wild-en-wakker-pakket kies dieselfde wees as wanneer ons nie weet in watter provinsie hy/sy woon nie? Om P(A/B) te bereken, gebruik ons slegs Gauteng se kliënte. Ons kyk nie eens na kliënte in die ander provinsies nie. Daar is 356 741 kliënte in Gauteng. Wat is die waarskynlikheid dat ’n ewekansig-gekose Gauteng-kliënt die Wild-en-wakker-pakket gaan kies? Daar is tans 289 371 kliënte in Gauteng wat vir die Wild-en-wakker-pakket geregistreer is. Daarom is: +

P(A/B) =

(Slegs vir Gauteng)

= 289 371 / 356 741 = 0.811 En omdat die waarskynlikheid vir slegs Gauteng verskil van die waarskynlikheid van die hele land, kan ons aflei dat die twee veranderlikes, provinsie en keuse van pakket, statisties afhanklik is.

118

Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

4.3

Telreëls

Vervolg… “Hallo. Michael?” Michael word na die werklikheid terug geruk en kyk op. Vir ’n oomblik is hy verward. “Ja?” “Ek is Sonja. Ons het so vinnig by die StatInc partytjie ontmoet.” Dan onthou Michael wie die meisie is. “Natuurlik. Ek het jou nie sonder die lemmetjiegroenen-pienk rok herken nie." Sonja word nie van stryk gebring nie. “Dit was die tema van die partytjie.” “’n Kleurvolle toekoms. En toe daag ek op met ’n professor se toga.” Sonja lag. “Opvoeding is die belangrikste pad na ’n kleurvolle toekoms.” “Ek is bly jy het die simboliek raakgesien. Opleiding is nie die enigste pad na sukses nie, maar dit help baie.” “Ja, dit, en as jy die maatskappy se lotery wen.” Michael het nog nie van die maatskappy se lotery gehoor nie. Sonja merk dit op en verduidelik. “Daar is elke jaar ’n kompetisie waaraan personeel kan deelneem.” Sonja gaan sit sonder om uitgenooi te word. Nie dat Michael omgee nie – almal is mal oor die vrolike meisie van Bemarking. “Een personeellid kan op ’n gratis toer na drie Europese lande gaan. Al wat jy moet doen, is om te raai watter drie lande hierdie jaar deel van die toer uitmaak. Die een wat die regte drie lande raai, kan op die toer gaan.” “Ek neem aan studente wat hul internskap doen, kwalifiseer nie.” “Wel, die een wat wen mag vier vriende saamneem.” Michael se hart maak ’n sprong. Dit is een van sy grootste drome om oorsee te gaan. En sy gunsteling bestemming is juis Europa. Hy is nie seker of hy Sonja reg verstaan het nie. “Waar pas ek in die prentjie in?” “Wel, as jy my help wen, dan kan jy saamkom.” “Hoe is ek veronderstel om dit reg te kry?” “Jy is die statistikus. Jy behoort te weet. Watter lande het die grootste kans om gekies te word?”

©akademia (MSW)| Hoofstuk 4: Waarskynlikhede

119


Elementêre Kwantitatiewe Metodes

“Jy kry nie baie met Statistiek te doen nie, né?" Michael se stem is vriendelik. Sonja lag weer. “As ek ’n statistikus was, sou ek nie nou hier gewees het nie. Ek sou myself kon help.” Michael oorweeg dit ’n oomblik. “Uit hoeveel lande kan jy kies?” Sonja bring ’n lys te voorskyn. “Daar is twaalf lande. Ek moet drie kies.” “Die eerste stap sal wees om te bepaal wat jou kanse is om die regte lande te kies, sou elke lande ewekansig gekies word.” “Ewekansig?” “Random. Lukraak. Elke land se kans om gekies te word, is ewe groot.” Michael gryp sy sakrekenaar en ’n stuk papier. Sonja hou hom geïnteresseerd dop. Na ’n rukkie gee Michael vir haar die papier. “Jou kans om die regte drie lande te kies is 0.0045. Dit is minder as ’n halfpersent.” Sonja kyk hom geskok aan. “Hoe weet jy dit?” “Jou kans is een uit 220.” Sonja is nog steeds verward. Michael verduidelik. “Die berekening wat ek gebruik het, is ’n kombinasie,” sê hy. “Ek het gaan uitwerk hoeveel verskillende kombinasies van lande jy kan raai. Uit ’n groep van twaalf, kan jy 220 moontlike kombinasies kies.” “En hoe kom jy by die halfpersent uit?” “Minder as ’n halfpersent. Wel, uit daardie 220 moontlike kombinasies, is daar slegs een kombinasie wat reg is. So jy het ’n kans van een uit 220 om die regte kombinasie te kies. Jou waarskynlikheid van die korrekte keuse is dus een gedeel deur 220.” “Dis onmoontlik,” sê Sonja, afgehaal. “Dis makliker as die nasionale lotery. Daar is jou kanse 0.0000072 persent, met meer as 13 miljoen verskillende kombinasies. Jy kan bly wees dat jy nie die lande in ’n spesifieke volgorde moet plaas nie. Dit sou die waarskynlikheid nog laer gemaak het.” “Minder as ’n halfpersent is nog steeds baie laag.” “Jammer,” sê Michael, “maar jou kans om ryk te word deur harde werk en innovasie is baie groter as met ’n lotery.” “Dan moet ek maar weer terugkom by my lessenaar. Ek het ’n berg werk wat wag.”

120

Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

Sonja maak aanstaltes. “Sonja!” Sy draai om as Michael haar terugroep. “Kies Nederland, Frankryk en Engeland.” “Hoekom?” “Dit is my gunsteling lande. As jy wen, is dit die lande wat ek graag sal wil besoek.” Sonja oorweeg dit ’n oomblik. “Parys. Londen. Amsterdam. Ek hou van die idee.”

Wat is kombinasies? Die voorbeeld wat hierbo genoem is, behoort ’n baie goeie aanduiding te verskaf van wat kombinasies is. Om die hoeveelheid moontlike kombinasies te bereken, word twee veranderlikes of waardes benodig. Die eerste is die hoeveelheid voorwerpe waaruit gekies kan word. In die StatInc-kompetisie is dit die twaalf lande waaruit Sonja moet kies. Hierdie waarde word deur die simbool n voorgestel. Die tweede veranderlike wat nodig is, is die hoeveelheid voorwerpe wat gekies kan word. In StatInc se kompetisie, moet Sonja drie lande kies. Hierdie waarde word met die simbool r voorgestel. •

Faktoriaal

Voordat die formule vir ’n kombinasie bespreek kan word, is dit eers belangrik om te verduidelik wat ’n faktoriaal is. Faktoriaal word deur ’n uitroepteken (!) voorgestel. Die faktoriaal van enige getal is die produk (vermenigvuldiging) van al die positiewe heelgetalle wat kleiner as daardie getal is. Byvoorbeeld: Vyf faktoriaal is 5 x 4 x 3 x 2 x 1, wat 120 is. Die som sal soos volg voorgestel word: 5! =5x4x3x2x1 = 120 Probeer dit self Vraag 1: Bereken 3! Vraag 2:

©akademia (MSW)| Hoofstuk 4: Waarskynlikhede

121


ElementĂŞre Kwantitatiewe Metodes

Bereken 10! Antwoord 1: 3! =3x2x1 =6 Antwoord 2: 10! = 10 x 9 x 8 x 7 x 6 x 5 x 4 x 3 x 2 x 1 = 3 628 880 Let wel: Die faktoriaal van 0 sal altyd 1 wees. Dus 0! = 1. Formule vir ’n kombinasie: ’n Kombinasie se formule kan soos volg voorgestel word: !

+! + !

nCr =

Soos hierbo genoem, stel die simbole die volgende voor: •

n is die totale hoeveelheid objekte of voorwerpe waaruit gekies kan word.

•

r is die hoeveelheid objekte of voorwerp wat gekies moet word.

Die belangrikste eienskap van ’n kombinasie is dat die volgorde waarin die objekte of voorwerpe gekies word nie belangrik is nie. Hoe het Michael die hoeveelheid kombinasies waarvolgens lande gekies kan word, uitgewerk? Vir hierdie som het Michael twee waardes nodig gehad, naamlik n en r: •

n is 12, omdat daar twaalf lande is waaruit Sonja kan kies.

•

r is 3, omdat Sonja drie lande moet kies.

Nou kan die formule toegepas word: nCr

=

12C3

122

!

+! + !

=

!

! !

Hoofstuk 4: Waarskynlikhede | Šakademia (MSW)


ElementĂŞre Kwantitatiewe Metodes

=

= 220 Daar is dus 220 verskillende kombinasies van lande wat gekies kan word. Voorbeelde van kombinasies wat Sonja kan kies is: •

Engeland, Frankryk, Nederland

•

Engeland, Frankryk, BelgiĂŤ

•

Engeland, Nederland, BelgiĂŤ

•

Frankryk, Nederland, BelgiĂŤ

•

Engeland, Duitsland, Nederland

Elk van die bogenoemde is ’n kombinasie, en daar is 220 van hierdie kombinasies wat moontlik gekies kan word. Wat is die waarskynlikheid dat een van hierdie kombinasies gekies kan word? Die waarskynlikheid dat een spesifieke kombinasie gekies kan word, is maklik om te bereken: Wat is die waarskynlikheid dat, uit 220 moontlik kombinasies, een spesifieke kombinasie ewekansig gekies kan word? Gestel A = die korrekte een kombinasie word gekies P(A) = 1 / 220 = 0.0045 Daar is dus ’n 0.45% kans dat Sonja die korrekte kombinasie van lande sal kies. Probeer dit self Vasvat Versekeraars het kliĂŤnte in al nege provinsies. Mnr. Louw is ’n bemarkingsbestuurder by Vasvat Versekeraars. Die topbestuur van Vasvat het besluit om aan mnr. Louw drie provinsies toe te ken. Mnr. Louw sal dan beheer oor die bemarking in daardie provinsies bestuur. Mnr. Louw weet nie watter provinsies aan hom toegeken gaan word nie. Jy mag aanneem dat elke provinsie dieselfde kans het om aan mnr. Louw toegeken te word. Vraag 1: Hoeveel verskillende moontlike kombinasies van provinsies kan aan mnr. Louw toegeken word? Vraag 2: Šakademia (MSW)| Hoofstuk 4: Waarskynlikhede

123


ElementĂŞre Kwantitatiewe Metodes

Wat is die waarskynlikheid dat Gauteng, Vrystaat en die Limpopoprovinsie aan mnr. Louw toegeken gaan word? Antwoord 1: Daar is nege provinsies en elk het dieselfde kans om in ’n groep van drie provinsies ingesluit te word. Die bestuur moet dus drie provinsies uit nege moontlike provinsies kies. Die hoeveelheid moontlike kombinasies van drie provinsies moet dus bereken word. Die volgorde van die provinsies is nie belangrik nie. Voorbeelde van hierdie kombinasies is: •

Gauteng, Vrystaat, Wes-Kaap

•

Gauteng, Wes-Kaap, Limpopo

•

Wes-Kaap, Vrystaat, Noord-Kaap

•

...en nog baie meer

Om die hoeveelheid kombinasies te bereken, kan die formule gebruik word: nCr

=

!

+! + !

waar: •

n=9

•

r=3

9C3

=

=

!

! !

= 84 Daar is dus 84 moontlike kombinasies van provinsies wat aan mnr. Louw toegeken kan word. Antwoord 2: Een van die 84 kombinasies wat aan mnr. Louw toegeken kan word, is Gauteng, Vrystaat en Limpopo. Die waarskynlikheid dat hierdie kombinasie toegeken word, is dus een uit 84. Gestel A = Gauteng, Vrystaat en Limpopo word aan mnr. Louw toegeken P(A) = 1 / 84

124

Hoofstuk 4: Waarskynlikhede | Šakademia (MSW)


Elementêre Kwantitatiewe Metodes

= 0.012 Daar is dus ’n 1.2% kans dat mnr. Louw as bemarkingsbestuurder oor Gauteng, Vrystaat en die Limpopoprovinsie aangestel kan word.

Permutasies Vervolg… “Ek het ’n interessante gesprek met Vasvat Versekeraars gehad,” begin Vanessa tydens haar en Michael se daaglikse ontmoeting vir koffie voor werk. “Ek dink enige gesprek met Vasvat Versekeraars is interessant,” sê Michael. Vanessa gee toe. “Hierdie gesprek was egter met hul bemarkingsbestuurder. Hy het my raad gevra oor die uitleg van hul stalletjies by ’n finansiële kongres.” “Wat het dit met statistiek te doen?” “Nie veel nie. Hulle benodig ’n hele stalletjie per pakket. Hy wou weet wat die beste volgorde is om hul pakkette uit te stal. Een stalletjie is by die deur en die ander is ’n paar treë verder. Die Wild-en-wakker-pakket is die gewildste. Die kans is dus goed dat voornemende kliënte daarin sal belangstel. Die Pasgemaakte pakket is nog baie nuut en hulle wil dit behoorlik bemark. En dan is daar nog genoeg redes om die ander pakkette ook in te sluit.” “En hulle wil weet wat die beste volgorde is waarin hul pakkette uitgestal kan word?” “Die probleem is: Hulle het net twee stalletjies en kan dus net twee pakkette uitstal. Hulle moet dus eers besluit watter twee pakkette hulle gaan uitstal, en dan die volgorde waarin dit uitgestal gaan word. Watter een is eerste – en dus naby die deur – en watter pakket is tweede.” “Wat het jy gesê?” vra Michael, wat self nie weet wat hy in die situasie sou doen nie. “Ek het vir hom gesê dat daar ’n 8.3% kans is dat die Wild-en-Wakker-pakket eerste sou wees, gevolg die pasgemaakte pakket. Toe het ek genoem dat ek ’n statistikus is en nie ’n bemarkingsbestuurder nie en nog koffie bestel.” Michael bars uit van die lag. “Ek kan nie glo wat ek hoor nie. Was hy omgekrap?” “Nee, hy wou dadelik meer weet van permutasies en kort voor lank was die bemarkingsprobleem vergete.”

©akademia (MSW)| Hoofstuk 4: Waarskynlikhede

125


Elementêre Kwantitatiewe Metodes •

Wat is ’n permutasie?

’n Permutasie is soortgelyk aan ’n kombinasie. Vir enige gegewe datastel sal daar egter meer permutasies as kombinasies wees. Met ’n permutasie sal die volgorde waarin die verskillende objekte gekies word, van belang wees. Gestel daar is vier persone waarvan drie vir ’n spesifieke span gekies moet word: Adam, Bessie, Carel en Danelle. Die verskil tussen kombinasies en permutasies kan in die volgende tabel voorgestel word: Kombinasies

Permutasies

(Alle moontlikhede, volgorde is nie belangrik nie)

(Volgorde is belangrik)

Die span bestaan uit: Adam, Bessie en Carel

Plek A: Adam Plek B: Bessie Plek C: Carel

Die span bestaan uit: Adam, Bessie en

Plek A: Adam

Danelle

Plek B: Carel Plek C: Bessie

Die span bestaan uit: Adam, Carel en

Plek A: Carel

Danelle

Plek B: Adam Plek C: Bessie

Die span bestaan uit: Bessie en Carel en

Plek A: Carel

Danelle

Plek B: Bessie Plek C: Adam Plek A: Bessie Plek B: Adam Plek C: Carel Plek A: Bessie Plek B: Carel Plek C: Adam En nog 18 ander moontlik permutasies as ons Danelle ook in berekening bring!

126

Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes Wanneer die volgorde van die keuses wat gemaak word, belangrik is, is daar dus baie meer moontlikhede wat gekies kan word. Dit is om hierdie rede dat Michael vir Sonja gesê het dat sy bly kan wees dat die lande nie in ’n spesifieke volgorde gekies moet word nie. Die formule vir ’n permutasie lyk soos volg: n Pr

!

= + !

Hier stel n weereens die hoeveelheid objekte waaruit gekies kan word, voor. r stel die hoeveelheid objekte wat gekies moet word, voor. In die geval van die voorbeeld in die tabel hierbo, is daar dus vier moontlike persone wat vir die span gekies kan word (n = 4). Drie persone moet gekies word (r = 3). Die belangrikste aanduiding dat permutasies se formule gebruik moet word, is die aanduiding dat volgorde belangrik is. [Adam, Bessie, Carel] sal verskil van [Bessie, Carel, Adam]. Dit is natuurlik nie die geval by kombinasies nie. In so ’n geval sal [Adam, Bessie, Carel] presies dieselfde kombinasie as [Bessie, Carel, Adam] wees en slegs een keer getel word. Ons kan dus nou die bogenoemde permutasie soos volg bereken: n Pr

!

= + !

waar: •

n=4

•

r=3

4 P3

!

= !

= 24 / 1 = 24 Daar is dus 24 moontlike wyses waarop drie van die vier persone gekies kan word as die volgorde waarin hulle gekies word, belangrik is. Wat is die waarskynlikheid dat drie persone soos volg gekies kan word? •

Plek A: Adam

•

Plek B: Bessie

•

Plek C: Carel

Šakademia (MSW)| Hoofstuk 4: Waarskynlikhede

127


Elementêre Kwantitatiewe Metodes Ons weet dat daar 24 verskillende permutasies is waarvan hierdie slegs een is. Die waarskynlikheid dat hierdie permutasie gekies kan word, is dus 1 uit 24. Die waarskynlikheid kan dus soos volg bereken word: Gestel A = Die volgende permutasie word gekies: •

Plek A: Adam

•

Plek B: Bessie

•

Plek C: Carel

P(A) = 1 / 24 = 0.042 Daar is dus ’n waarskynlikheid van 0.042 (of 4.2%) dat Adam in Plek A, Bessie in Plek B en Carel in Plek C, uit Adam, Bessie, Carel en Danelle gekies sal word. Vasvat se bemarking Hoe het Vanessa by die 8.3% uitgekom? Vasvat het vier pakkette waaruit hulle twee moet kies. Die volgorde waarin hierdie twee pakkette gerangskik moet word, is belangrik. Ons moet dus die permutasies bereken. 4 P2

!

= !

= 24 / 2 = 12 Daar is dus twaalf permutasies. Wat is die waarskynlikheid dat die volgende permutasie gekies sal word? •

Eerste: Wild-en-wakker-pakket

•

Tweede: Pasgemaakte pakket

Hierdie is een van die twaalf permutasies. Daar is dus ’n 1 uit 12 kans dat hierdie permutasie gekies kan word. Gestel A = Die volgende permutasie word gekies:

128

•

Eerste: Wild-en-wakker-pakket

•

Tweede: Pasgemaakte packet

Hoofstuk 4: Waarskynlikhede | Šakademia (MSW)


Elementêre Kwantitatiewe Metodes

P(A) = 1 / 12 = 0.083 Daar is dus ’n 0.083 (of 8.3%) kans dat die Wild-en-wakker-pakket eerste uitgestal sal word, gevolg deur die Pasgemaakte pakket.

Ten slotte Hierdie hoofstuk het ’n deeglike inleiding tot waarskynlikhede verskaf. Waarskynlikhede word egter nie altyd op hierdie wyse bereken nie. Die volgende hoofstuk sal waarskynlikheidverspreidings gebruik om waarskynlikhede te bereken. In hierdie hoofstuk het ons slegs twee waardes gebruik: r en n. Ons het bestaande of historiese data gebruik om die waarskynlikhede te bereken. Deur na die aard van data te kyk, is dit egter moontlik om te sien dat sekere gebeurtenisse patrone volg. Hierdie patrone kwalifiseer die waarskynlikheid om deur middel van ’n spesifieke formule of waarskynlikheidverspreiding opgelos te word. Hierdie drie verspreidings sal in die volgende hoofstuk bespreek word.

©akademia (MSW)| Hoofstuk 4: Waarskynlikhede

129


ElementĂŞre Kwantitatiewe Metodes Notas

130

Hoofstuk 4: Waarskynlikhede | Šakademia (MSW)


Elementêre Kwantitatiewe Metodes

HOOFSTUK 5: WAARSKYNLIKHEIDVERSPREIDINGS

Onderwerpe 5.1

Inleiding

5.2

Die binominale verspreiding

5.3

Die Poisson-verspreiding Wat is ‘n Poisson-verspreiding?

5.4

Die normaalverdeling Wat is ‘n normaalverdeling? Wat is kontinue data? Twee tipes normaalverdelings

©akademia (MSW)| Hoofstuk 5: Waarskynlikheidverspreidings

131


Elementêre Kwantitatiewe Metodes

5.1

Inleiding

Soos aan die einde van Hoofstuk 4 genoem is, is dit redelik eenvoudig om ’n marginale waarskynlikheid te bereken. ’n Marginale waarskynlikheid word deur die volgende formule bereken: +

P=

Om ’n marginale waarskynlikheid te bereken het ons dus net ’n waarde vir n en ’n waarde vir r nodig. Beskou nou die volgende vrae: •

Wat is die waarskynlikheid dat ’n masjien meer as drie keer per jaar sal breek as dit bekend is dat ’n masjien gemiddeld twee keer per jaar breek?

Wat is die waarskynlikheid dat drie uit vyf kliënte ’n produk sal koop as die waarskynlikheid dat een kliënt die produk sal koop, 0.4 is?

Hierdie waarskynlikhede is ietwat meer kompleks. Hierdie tipe waarskynlikhede word met ander tegnieke opgelos. Wanneer ’n waarskynlikheid (of die waarskynlikheidsprobleem) aan sekere vereistes voldoen, is dit moontlik om dit as ’n waarskynlikheidverspreiding te klassifiseer. Sodra ’n spesifieke waarskynlikheid wat bereken moet word, deel van ’n waarskynlikheidverspreiding uitmaak, kan daardie waarskynlikheid met behulp van ’n spesifieke formule opgelos word. Elke waarskynlikheidverspreiding het sy eie stel voorwaardes en formule. Drie belangrike waarskynlikheidverspreidings is: •

die binominale verspreiding

die Poisson-verspreiding

die normaalverdeling

Die laaste verdeling is veral van belang vir hierdie vak omdat dit die grondslag vorm vir berekeninge wat in die res van hierdie gids behandel gaan word. Elke waarskynlikheidverspreiding sal hieronder bespreek word:

5.2

Die binominale verspreiding

Ons lees verder… “Hy is regtig goed,” fluister Michael. “Hy is obsessief oor sy besigheid,” fluister Vanessa terug.

132

Hoofstuk 5: Waarskynlikheidverspreidings | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

Michael en Vanessa is genooi na een van Vasvat se bemarkingsessies. Walter Blignaut, die bemarkingsbestuurder van Vasvat Versekeraars, is besig om ’n groep kliënte toe te spreek. “Wie het al versekering oor die foon probeer koop?” vra Walter die groep kliënte. “Dit neem ten minste ’n halfuur se telefoongesprek! Tyd wat jy aan iets anders kon spandeer. Dit is waar Vasvat Versekeraars ander is. Baie anders. En beter.” Vanessa neem ’n stukkie papier en skryf vir Michael ’n boodskap. Hoeveel mense dink jy gaan Vasvat-produkte koop? Michael antwoord, sonder om te dink: Almal. Vanessa is vir ’n oomblik stil. Watter pakket sal hulle koop? skryf sy. Michael kyk vir ’n oomblik na die verskillende kliënte wat meegevoer is deur Walter se passievolle aanbieding. Beslis Vat-dit-kalm. Ten minste die helfte van hulle is ouer as veertig. Vanessa glimlag: Wil jy wed? Ek is ’n statistikus. Ek dobbel nie, is al antwoord wat sy kry. “Wat is die waarskynlikheid dat agtien persone die Vat-dit-kalm-pakket gaan kies?” fluister Vanessa vir hom. “Hoekom agtien?” fluister Michael terug. Vanessa glimlag net. Michael trek ’n nuwe vel papier nader. Hy is in sy noppies: uiteindelik iets om hom mee besig te hou. Hy skryf die volgende op die papier: Hoeveelheid persone: 20 Waarskynlikheid dat iemand die Vat-dit-kalm-pakket kan kies? Geskat op 0.049 (provinsies onbekend?!) Sukses = ’n Persoon kies Vat-dit-kalm Mislukking = ’n Persoon kies nie Vat-dit-kalm nie Binominale verspreiding!! x = 18 Na ’n rits berekeninge wys hy die papier vir Vanessa: Daar is ’n 0.00013 waarskynlikheid waarskynlikheid dat 18 persone die VatVat-ditdit-kalmkalmpakket gaan kies. Vanessa se oë rek: Michael hou nooit op om haar te beïndruk nie. Die binominale verspreiding word gebruik om waarskynlikhede op te los waar slegs twee uitkomste – ’n sukses en ’n mislukking – kan plaasvind. Die eienskappe van ’n binominale ©akademia (MSW)| Hoofstuk 5: Waarskynlikheidverspreidings

133


Elementêre Kwantitatiewe Metodes verspreiding (en dus die vereistes vir ’n spesifieke scenario om met die binominale verspreiding opgelos te word) is: •

Daar moet ’n gebeurtenis wees met slegs twee uitkomste: sukses en mislukking. In die gevallestudie se geval is die gebeurtenis soos volg:

o

Sukses: ’n Kliënt kies die Vat-dit-kalm-pakket

o

Mislukking: ’n Kliënt kies nie die Vat-dit-kalm-pakket nie

Die gebeurtenisse is gesamentlik uitputbaar. Dit moet dus nie moontlik wees vir enige ander uitkoms om plaas te vind nie. In die gevallestudie hierbo is dit die geval: ’n Kliënt kan die Vat-dit-kalm-pakket kies, of die kliënt kan nie die Vat-dit-kalm-pakket kies nie. Daar is geen ander opsie nie. As die kliënt, byvoorbeeld, besluit om die Wild-en-wakker-pakket te kies, is dit presies dieselfde as ’n mislukking (die kliënt kies nie die Vat-dit-kalm-pakket nie).

Die waarskynlikheid van ’n sukses moet bekend wees. In die gevallestudie hierbo moet die waarskynlikheid dat ’n kliënt die Vat-dit-kalm-pakket kies, bekend wees. Ons het in die vorige hoofstuk hierdie tipe (marginale) waarskynlikheid met die tabel en die formule bereken.

Die formule vir die binominale verspreiding is: P(x) = nCxpx(1 – p)n-x Hierdie formule sal deur middel van ’n voorbeeld verduidelik word. Voorbeeld Dit is bekend dat een uit elke vyf kliënte wat ’n sekere winkelsentrum besoek, by die restaurant Bessie se Kombuis gaan eet. Gestel dat vyf kliënte op ’n sekere tydstip die winkelsentrum besoek. Vraag 1: Wat is die waarskynlikheid dat twee van hierdie kliënte by Bessie se Kombuis gaan eet? Vraag 2: Wat is die waarskynlikheid dat al drie van die vyf kliënte by Bessie se Kombuis gaan eet? Vraag 3: Wat is die waarskynlikheid dat minder as drie van die vyf kliënte by Bessie se Kombuis gaan eet?

134

Hoofstuk 5: Waarskynlikheidverspreidings | ©akademia (MSW)


ElementĂŞre Kwantitatiewe Metodes

Vraag 4: Wat is die waarskynlikheid dat ten minste een van die vyf kliÍnte by Bessie se Kombuis gaan eet? Antwoorde: Voordat ons die antwoorde vir die afsonderlike vrae kan bepaal, moet ons eers die inligting tot ons beskikking ontleed: Hierdie is ’n binominale verspreiding – daar is slegs twee moontlike uitkomste: •

Sukses: ’n KliÍnt eet by Bessie se Kombuis.

•

Mislukking: ’n KliÍnt eet nie by Bessie se kombuis nie.

Dit is bekend dat een uit elke vyf kliÍnte wat die winkelsentrum besoek, ook by Bessie se Kombuis gaan eet. Die waarskynlikheid van ’n sukses is dus een uit vyf: •

P(sukses) = 1/5 = 0.2

•

P(mislukking) = 1 – p (sukses) = 1 – 0.2 = 0.8

•

Die veranderlike x verskil van vraag tot vraag. Die veranderlike n sal vir al drie vrae dieselfde bly:

•

n = 5 (daar is vyf kliĂŤnte wat by die sentrum instap)

Antwoord 1: Om die waarskynlikheid van twee suksesse uit die vyf te bereken, kan die formule vir ’n binominale verspreiding gebruik word. n is, soos hierbo genoem, 5. x sal in hierdie geval 2 wees omdat ons die waarskynlikheid dat twee kliÍnte by Bessie se Kombuis eet, wil bepaal. Ons pas dus nou die binominale verspreiding se formule soos volg toe: P(x) = nCxpx(1 – p)n-x Met x = 2; n = 5, p = 0.2 P(x = 2) = 5C2(0.2)2(0.8)5-2

=

!

! !

Onthou: 5C2 stel die kombinasie, soos in die vorige hoofstuk bespreek, voor.

(0.2)2(0.8)5-2

= 10(0.04)(0.512) = 0.2048 Daar is dus ’n 0.2048 (of 20.48%) waarskynlikheid dat twee uit die vyf kliĂŤnte sal kies om by Bessie se Kombuis te eet. Šakademia (MSW)| Hoofstuk 5: Waarskynlikheidverspreidings

135


Elementêre Kwantitatiewe Metodes

Antwoord 2: Vraag 2 vra dieselfde as Vraag 1, behalwe dat x in hierdie geval 3 is. Ons sal dus weer die formule gebruik: P(x) = nCxpx(1 – p)n-x Met x = 3; n = 5, p = 0.2 P(x = 3) = 5C3(0.2)3(0.8)5-3 !

= ! ! (0.2)3(0.8)5-3 = 10 (0.008)(0.64) = 0.0512 Daar is dus ’n waarskynlikheid van 0.0512 (of 5.12%) dat drie van die kliënte uit ’n groep van vyf sal besluit om by Bessie se Kombuis te eet. Antwoord 3: Hierdie vraag is ’n bietjie moeiliker. Wat is die waarde vir x? In die vorige vrae was dit redelik maklik om vir x te vind, maar in hierdie geval wil ons weet wat die waarskynlikheid is dat minder as drie kliënte by Bessie se Kombuis gaan eet. Die waarskynlikheid wat ons dus wil bereken is: P(x < 3) Hoe word dit gedoen? Om hierdie vraag te beantwoord sal ons eenvoudig al die waardes van x wat kleiner is as 3 moet gebruik en die verskillende binominale waarskynlikhede bereken. Die berekening kan met die volgende vergelyking verduidelik word: P(x < 3) = P(x = 0) + P(x = 1) + P(x = 2) Die waarskynlikheid dat P<3 is, is dus dieselfde as die som van al die waarskynlikhede waar x kleiner is as 3. Ons moet dus drie waarskynlikhede bereken. Jy kan self P(x = 0) en P(x = 1) bereken – gebruik die formule soos by Vraag 1 en 2 hierbo gedoen is. Ons het reeds P(x = 2) in Vraag 1 hierbo bereken. Jy behoort die volgende waardes te verkry: P(x = 0) = 0.3277 P(x = 1) = 0.4096 P(x = 2) = 0.2048 Die finale waarskynlikheid kan dus nou soos volg bereken word: P(x < 3) = P(x = 0) + P(x = 1) + P(x = 2)

136

Hoofstuk 5: Waarskynlikheidverspreidings | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

= 0.3277 + 0.4096 + 0.2048 = 0.9421 Daar is dus ’n waarskynlikheid van 0.9421 (of 94.25%) dat minder as drie van die vyf kliënte wel by Bessie se Kombuis gaan eet. Antwoord 4: Hier wil ons weet wat die waarskynlikheid is dat ten minste een kliënt Bessie se Kombuis gaan besoek. Ons weet dat daar net vyf kliënte is wat by die winkel instap, daarom is die maksimum moontlike besoekers aan Bessie se Kombuis ook vyf kliënte. Die waarskynlikheid dat ten minste een kliënt Bessie se Kombuis besoek, is dus: P(x > 0) = P(x = 1) + P(x = 2) + P(x = 3) + P(x = 4) + P(x = 5) Is daar nie ’n makliker manier om hierdie waarskynlikheid te bereken nie? Om die vraag te beantwoord benodig ons vyf verskillende waarskynlikhede wat elk bereken moet word. Daar is egter wel ’n makliker manier! Die maksimum kliënte wat Bessie se kombuis kan besoek, is 5. Die minimum is 0. Dit is dus nie moontlik dat 6 of meer kliënte (of minder as 0 kliënte) Bessie se Kombuis kan besoek nie. Die ses waarskynlikhede, P(x = 0), P(x = 1), P(x = 2), P(x = 3), P(x = 4) en P(x = 5) verteenwoordig alle moontlike uitkomste. Ons kan dus aflei dat hierdie ses gebeurtenisse gesamentlik uitputbaar is en alle moontlike uitkomste voorstel. Dus is die som van hierdie gebeurtenisse gelyk aan 1. Die waarskynlikheid dat x groter as 0 is, is dus presies dieselfde as 1 minus die waarskynlikheid dat x gelyk aan 0 is: P(x > 0) = 1 – P(x = 0) Nou is daar slegs een waarskynlikheid om te bereken: P(x=0) wat ons dan van 1 kan aftrek. P(x) = nCxpx(1 – p)n-x Met x = 0; n = 5, p = 0.2 P(x = 0) = 5C0(0.2)0(0.8)5-0

=

!

! !

(0.2)0(0.8)5-0

= 1 (1)(0.3277) = 0.3277 Daar is dus ’n 0.3277 (of 32.77%) waarskynlikheid dat geen van die vyf kliënte Bessie se ©akademia (MSW)| Hoofstuk 5: Waarskynlikheidverspreidings

137


Elementêre Kwantitatiewe Metodes Kombuis sal besoek nie. Die waarskynlikheid dat ten minste een kliënt wel Bessie se Kombuis gaan besoek, is: P(x>0) = 1 – P(x=0) = 1 – 0.3277 = 0.6723 Daar is dus ’n waarskynlikheid van 0.6723 (of 67.23%) dat ten minste een van die vyf kliënte Bessie se Kombuis gaan besoek.

Toets jou antwoord met Microsoft Excel Microsoft Excel is baie nuttig om jou antwoord mee te toets. Dit is natuurlik belangrik dat jy die waarskynlikhede met die hand kan bereken, omdat jy sodoende sal verseker dat jy die begrippe verstaan. Vraag 1 en 3 hierbo sal gebruik word om te verduidelik hoe om Microsoft Excel te gebruik. Vraag 1: Die vraag was: Wat is die waarskynlikheid dat twee van die vyf kliënte by Bessie se Kombuis gaan eet? Neem ook in ag dat: •

P(sukses) = 1/5 = 0.2

P(mislukking) = 1 – P(sukses) = 1 – 0.2 = 0.8

n=5

x=2

In enige sel in Excel, sleutel nou die volgende in:

=BINOMDIST(2,5,0.2,FALSE) Terwyl jy tik, sal jy die volgende boodskap sien:

=BINOMDIST(number_s,trials,probability_s,cumulative) Hierdie stel die verskillende waardes voor wat in die BINOMDIST-funksie vervang moet word:

138

“number_s” stel x voor, dit is dus 2

“trials” stel n voor, dit is dus 5

“probability_s” stel die waarskynlikheid van ’n sukses voor, dit is dus 0.2 Hoofstuk 5: Waarskynlikheidverspreidings | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

“cumulative” sal met die volgende vraag verduidelik word

Vraag 3: Verwys weer na Vraag 3: Wat is die waarskynlikheid dat minder as drie van die vyf kliënte wel by Bessie se Kombuis gaan eet? Om die vraag op te los, het ons die volgende gedoen: P(x < 3) = P(x = 0) + P(x = 1) + P(x = 2) = 0.3277 + 0.4096 + 0.2048 = 0.9421 Hierdie vraag kan egter ook met Excel se BINOMDIST-funksie opgelos word. Deur die laaste waarde van die funksie (“cumulative”) na “TRUE” te verander, sal die funksie alle waarskynlikhede tot en met die waarde vir “number_s” bymekaartel. As ons dus die funksie soos volg gebruik:

=BINOMDIST(2,5,0.2,TRUE) sal alle waarskynlikhede van x = 0 tot x = 2 (insluitend) bymekaargetel word.

Hoe het Michael sy berekening gedoen? Kyk weer na die berekening wat Michael gedoen het. Die inligting wat Michael tot sy beskikking gehad het was: •

Hoeveelheid persone in die vertrek: 20

Geskat op 0.049 (sien hieronder vir ’n verduideliking)

Sukses = ’n Persoon kies Vat-dit-kalm

Mislukking = ’n Persoon kies nie Vat-dit-kalm nie

Binominale verspreiding!!

Waar het Michael die waarskynlikheid gekry? Kyk weer na die tabel wat Vasvat Versekeraars se kliëntegetalle aandui:

Wild en

Vat dit

Kleindorpie- Pasgemaak TOTAAL

wakker

kalm

kind

Gauteng

289 371

9 144

54 187

4 039

356 741

Wes-Kaap

189 571

7 384

32 685

61 227

290 867

14 586

6 291

590

431

21 898

Noord-Kaap

©akademia (MSW)| Hoofstuk 5: Waarskynlikheidverspreidings

139


ElementĂŞre Kwantitatiewe Metodes

Oos-Kaap

42 374

5 382

1 573

2 448

51 777

Vrystaat

27 463

3 458

1 875

1 960

34 756

KwaZulu-Natal

94 875

13 284

7 504

5 802

121 465

Noordwes

72 839

2 800

3 100

9 838

88 577

Limpopo

56 132

2 480

478

9 372

68 462

TOTAAL

787 211

50 223

101 992

95 117

1 034 543

Ons kan vir eers aanneem dat die provinsies waaruit die persone in die vertrek afkomstig is, onbekend was. (As ons elkeen se provinsie in ag wou neem, sou die berekening aansienlik moeiliker gewees het.) Gebaseer op die bestaande inligting tot Vasvat (en Michael) se beskikking, is daar 50 223 van die 1 034 543 kliÍnte wat die Vat-dit-Kalm-pakket gekies het. Die waarskynlikheid van ’n sukses (m.a.w. dat ’n kliÍnt die Vat-dit-Kalm-pakket kies) is dus: P(sukses) = 50 223 / 1 034 543 = 0.0485 (benaderd na 0.49) Om Vanessa se vraag te beantwoord sal ons weer die binominale verspreiding se formule gebruik: P(x) = nCxpx(1 – p)n-x waar: •

n = die hoeveelheid persone in die vertrek = 20

•

x = 18

•

p = waarskynlikheid van ’n sukses = 0.49

•

1 – p = waarskynlikheid van ’n mislukking = 0.51

P(x=18) = 20C18(0.49)18(0.51)20-18 =

! ! !

(0.49)18(0.51)20-18

= 190 (0.0000265)(0.2601) = 0.00013 Daar is dus ’n 0.00013 (of 0.13%) waarskynlikheid dat, uit die 20 kliÍnte, 18 die Vat-ditKalm-pakket gaan kies.

140

Hoofstuk 5: Waarskynlikheidverspreidings | Šakademia (MSW)


Elementêre Kwantitatiewe Metodes

5.3

Die Poisson-verspreiding

Vervolg… “Vasvat het ’n nuwe probleem.” Michael is die ene ore. “En hulle wil hê ons moet dit oplos?” “Ja en nee. Ons moet hulle adviseer met waarskynlikhede. Hulle sal self die probleem uitsorteer.” “En wat is die probleem?” “Vasvat het ’n groot oproepsentrum. Daar is voldoende personeel om alle oproepe te beantwoord. Maar so nou en dan is daar ’n skielike toename in oproepe.” “Direk nadat daar ’n advertensie op die radio of televisie was?” “Dit is die probleem: hulle kan nie vasstel wat hierdie toename veroorsaak nie. Daar is geen duidelike oorsaak nie. Ja, daar is ’n toename in oproepe direk na ’n advertensie of na ’n groot haelstorm, maar die bestuurder van die oproepsentrum beplan hiervoor en stel deeltydse personeel aan.” “Hoe gereeld gebeur dit?” “Gemiddeld twee keer per dag.” “En waar pas ons in die prentjie in?” “Die bestuurder het besluit om self in te spring en telefone te beantwoord tot die oorsaak van die skielike toenames opgespoor is.” “So die probleem is opgelos?” Michael is nie seker waarheen Vanessa met die gevallestudie op pad is nie. “Ja en nee,” sê Vanessa weer. “As die oproepsentrumbestuurder die hele dag in die oproepsentrum is, dan is daar geen probleem nie. Maar sy het ander afsprake om te maak. En sy kan nie afsprake maak as sy nie seker is dat die oproepe soos normaal gaan verloop nie.” Michael snap. “Ek sien. En sy wil weet wanneer sy die oproepsentrum kan verlaat.” Vanessa beaam. “En sy wil weet wat die waarskynlikheid is dat daar ’n derde of vierde toename in oproepe sal wees. Moet sy elke dag wag vir vier toenames om te gebeur, of kan sy die kantoor verlaat sodra die eerste toename in oproepe verby is?” “Klink soos ’n waarskynlikheidverspreiding. Poisson.” ©akademia (MSW)| Hoofstuk 5: Waarskynlikheidverspreidings

141


Elementêre Kwantitatiewe Metodes

“Presies. Kom ons begin met die eerste vraag: As die bestuurder na die tweede toename in oproepe die kantoor verlaat, wat is die waarskynlikheid dat sy ’n toename in oproepe gaan mis?”

Wat is ’n Poisson-verspreiding? Nie alle gebeurtenisse is binominaal nie. Deur die geval hierbo soos ’n binominale verspreiding te hanteer, gaan Vasvat se probleem nie opgelos word nie. Vir die bogenoemde geval sal ’n Poisson-verspreiding beter wees. Waarskynlikhede volg ’n Poisson-verspreiding as daar ’n sekere gebeurtenis is wat ’n sekere hoeveelheid kere binne ’n spesifieke tyd-, ruimte- of volume-interval plaasvind (Wegner, 2013: 130). Voorbeelde van vrae wat deur ’n Poisson-verspreiding beantwoord kan word, sluit in: •

Dit is bekend dat Bessie se Kombuis gemiddeld twaalf kliënte per uur ontvang. Wat is die waarskynlikheid dat, tydens ’n spesifieke uur, Bessie se Kombuis veertien kliënte sal ontvang? Wat is die waarskynlikheid dat, tydens ’n spesifieke uur, Bessie se Kombuis minder as agt kliënte sal ontvang?

Dit is bekend dat ’n spesifieke dosent daagliks ’n gemiddeld van drie oproepe van studente ontvang. Wat is die waarskynlikheid dat die dosent op ’n spesifieke dag meer as vier oproepe sal ontvang? Wat is die waarskynlikheid dat die dosent tydens ’n spesifieke week (vyf dae) meer as agt oproepe sal ontvang?

Uit die twee voorbeelde hierbo genoem, is daar twee waardes ter sprake by ’n Poissonvraag: •

’n Gegewe hoeveelheid gebeurtenisse tydens ’n spesifieke periode (of ruimte of volume). Byvoorbeeld: Dit is bekend dat ’n dosent gemiddeld drie oproepe per dag van studente ontvang. Dit is bekend dat Bessie se Kombuis gemiddeld twaalf kliënte per uur ontvang. Hierdie waarde word met die simbool a voorgestel.

Die x-waarde soos wat ons dit in die binominale verspreiding gebruik het. Hierdie is die waarde wat op ’n spesifieke vraag en dus waarskynlikheid van toepassing is. Byvoorbeeld: Wat is die waarskynlikheid dat, tydens ’n spesifieke uur, Bessie se Kombuis veertien kliënte sal ontvang? In hierdie geval is x = 14. Ons sal dan die waarskynlikheid P(x =14) bereken.

’n Derde waarde wat by die berekening van ’n Poisson-waarskynlikheid gebruik word, is e. Hierdie is ’n konstante waarde en sal altyd 2.71828 wees, ongeag wat die vraag is. Die formule vir ’n Poisson-waarskynlikheid is:

142

Hoofstuk 5: Waarskynlikheidverspreidings | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

P(x) =

!1 1 !

Let wel: •

e = 2.71828

x sal altyd ’n heelgetal wees, bv. 1, 2 of 3

a is die gemiddelde hoeveelheid keer wat ’n gebeurtenis in ’n spesifieke tyd, ruimte of volume plaasvind

x is die hoeveelheid kere wat die gebeurtenis sal plaasvind in die waarskynlikheid wat bereken word

Voorbeeld Die eienaar van ’n restaurant, Bessie se Kombuis, ontvang weekliks ’n gemiddeld van vyf klagtes. Die restaurant is elke dag van die week (en elke week van die jaar oop). Vraag 1: Wat is die waarskynlikheid dat, in ’n spesifieke week, Bessie se Kombuis drie klagtes sal ontvang? Vraag 2: Wat is die waarskynlikheid dat, in ’n spesifieke week, Bessie se Kombuis minder as twee klagtes sal ontvang? Vraag 3: Wat is die waarskynlikheid dat, in ’n spesifieke week, Bessie se Kombuis meer as drie klagtes sal ontvang? Vraag 4: Wat is die waarskynlikheid dat Bessie se Kombuis ’n klagte op ’n spesifieke dag sal ontvang? Antwoord 1: Ons gebruik die formule vir die Poisson-verdeling: P(x) =

!1 1 !

met: •

e = 2.71828 ©akademia (MSW)| Hoofstuk 5: Waarskynlikheidverspreidings

143


ElementĂŞre Kwantitatiewe Metodes

•

a=5

•

x=3

P(x = 3) = =

. ! !

.34 5

= 0.1403 Daar is dus ’n waarskynlikheid van 0.1403 (of 14.03%) dat Bessie se Kombuis in ’n spesifieke week drie klagtes sal ontvang. Antwoord 2: Die waarskynlikheid wat bereken moet word, is P(x<2). Ons moet dus die volgende waarskynlikhede bereken: •

P(x = 0)

•

P(x = 1)

Ons sal dan hierdie twee waarskynlikhede bymekaartel om P(x < 2) te vind. Vir P(x = 0) gebruik ons die Poisson-verspreiding se formule: P(x) =

!1 1 !

met: •

e = 2.71828

•

a=5

•

x=0

P(x = 0) = =

. !

.

!

= 0.0067 Vir P(x=1) gebruik ons dieselfde formule: P(x) =

144

!1 1 !

Hoofstuk 5: Waarskynlikheidverspreidings | Šakademia (MSW)


ElementĂŞre Kwantitatiewe Metodes

met: •

e = 2.71828

•

a=5

•

x=1

P(x = 1) = =

.

. ! !

= 0.0337 Nou kan ons die twee waarskynlikhede bymekaartel: P(x < 2) = P(x = 0) + P(x = 1) = 0.0067 + 0.0337 = 0.0404 Daar is dus ’n waarskynlikheid van 0.0404 (of 4.04%) dat Bessie se Kombuis in ’n spesifieke week minder as twee klagtes sal ontvang. Vraag 3: In hierdie geval is daar ’n oneindige hoeveelheid waardes vir x. Omdat daar nie ’n maksimum vasgestel is vir die hoeveelheid klagtes wat Bessie se Kombuis in ’n week kan ontvang nie, is dit moontlik dat 10, 20 of 100 000 klagtes ontvang sal word. Hierdie waarskynlikhede sal natuurlik baie klein wees, maar dit moet steeds bereken word. Hoewel dit nie moontlik is om al hierdie (oneindige) moontlike waardes van x te gebruik en die (oneindige hoeveelheid) waarskynlikhede te bereken nie, weet ons dat alle moontlike waardes van x ’n totale waarskynlikheid van 1 sal verskaf. Ons weet dus dat die waarskynlikheid dat x groter is as drie, dieselfde is as 1 minus die waarskynlikheid dat x kleiner of gelyk aan 3 sal wees. Dus: P(X > 3) = 1 – P(x ≤ 3) Ons moet dus nou eers P(x ≤ 3) bereken: P(x ≤ 3) = P(x = 0) + P(x = 1) + P(x = 2) + P(x = 3) Jy kan self die waarskynlikheid P(x = 2) gaan bereken. Uit die vorige vrae is die waarskynlikhede vir x = 0, 1 en 3 ook bekend. Die vier waarskynlikhede is:

Šakademia (MSW)| Hoofstuk 5: Waarskynlikheidverspreidings

145


ElementĂŞre Kwantitatiewe Metodes

•

P(x = 0) = 0.0067

•

P(x = 1) = 0.0337

•

P(x = 2) = 0.0842

•

P(x = 3) = 0.1403

Die totale waarskynlikheid kan dus soos volg bereken word: P(x ≤ 3) = P(x = 0) + P(x = 1) + P(x = 2) + P(x = 3) = 0.0067 + 0.0337 + 0.0842 + 0.1403 = 0.2649 Vraag 4: Hierdie vraag is anders as die ander drie. Die eenheid waarin a gemeet is (oproepe per week), is nie dieselfde as die eenheid waarin x gemeet word nie (oproepe per dag). Ons moet dus eers a aanpas na dieselfde eenhede as x toe (of x aanpas vir a). a = 5 oproepe per week = 5 / 7 oproepe per dag (in ’n 7-dag week) = 0.714 oproepe per dag. Nou kan ons die formule gebruik: P(x) =

!1 1 !

met: •

e = 2.71828

•

a = 0.714

•

x=1

P(x = 1) =

=

.

. ! . . !

= 0.3496 Daar is dus ’n 0.3496 (of 34.96%) waarskynlikheid dat Bessie se Kombuis een klagte op ’n spesifieke dag sal kry.

146

Hoofstuk 5: Waarskynlikheidverspreidings | Šakademia (MSW)


Elementêre Kwantitatiewe Metodes

Toets jou antwoord in Microsoft Excel Jy kan, soos wat die geval is met die binominale verspreiding, ook jou Poisson-verdeling se antwoord toets in Microsoft Excel. Gebruik die volgende funksie:

=POISSON(1,5,TRUE) waar: •

Die eerste waarde x voorstel (in hierdie geval 1)

Die tweede waarde a voorstel (in hierdie geval 5)

Die derde waarde aandui of die waarskynlikhede vir alle heelgetalle kleiner as x bymekaargetel moet word. (In hierdie getal die waarskynlikhede vir x = 0, en 1.)

Terug by Vasvat Kyk weer na die vraag wat deur Vasvat se oproepsentrumbestuurder gevra is. Die oproepsentrum kry gemiddeld twee oproepe per dag. Die vraag is: As die bestuurder na die tweede toename in oproepe die kantoor verlaat, wat is die waarskynlikheid dat sy ’n toename in oproepe gaan misloop? Ons wil dus weet wat die kans is dat daar nog toenames in oproepe gaan plaasvind na die tweede toename in ’n dag. Met ander woorde, wat is die kans dat daar drie of meer toenames op enige dag sal plaasvind? Die vraag kan voorgestel word as: Wat is P(x>2)? Soos ons reeds hierbo gesien het, is daar oneindige x-waardes wat groter is as 2. Ons sal dus die formule soos volg moet gebruik: P(x > 2) = 1 – P(x ≤ 2) = 1 – [P(x = 0) + P(x = 1) + P(x = 2)] Om P(x = 0) te bereken kan ons die Poisson-verdeling se formule gebruik: P(x) =

!1 1 !

met: •

e = 2.71828

a=2

©akademia (MSW)| Hoofstuk 5: Waarskynlikheidverspreidings

147


ElementĂŞre Kwantitatiewe Metodes

•

x=0

P(x = 0) = =

. ! !

.

= 0.1353 Om P(x = 1) te bereken kan ons ook die Poisson-verdeling se formule gebruik:

P(x) =

!1 1 !

met: •

e = 2.71828

•

a=2

•

x=1

P(x = 1) =

=

. ! !

.

= 0.2707 P(x = 2) sal soos volg bereken word: P(x) =

!1 1 !

Met: •

e = 2.71828

•

a=2

•

x=2

P(x = 1) =

=

.

. ! !

= 0.2707 Ons kan nou P(x>2) soos volg bereken:

148

Hoofstuk 5: Waarskynlikheidverspreidings | Šakademia (MSW)


Elementêre Kwantitatiewe Metodes

P(x > 2) = 1 – P(x ≤ 2) = 1 – [P(x = 0) + P(x = 1) + P(x = 2)] = 1 – (0.1353 + 0.2707 + 0.2707) = 1 – 0.6767 = 0.3233 Daar is dus ’n 0.3233 (of 32.33%) waarskynlikheid dat daar meer as drie toenames op ’n dag sal plaasvind. Die bestuurder moet dus maar liewer ’n rukkie langer in die kantoor bly en dalk eers na die derde toename in oproepe die kantoor verlaat.

5.4

Die normaalverdeling

Die normaalverdeling is ’n belangrike waarskynlikheidsverdeling omdat dit in ’n groot mate as basis vir alle statistiese toetse in die res van hierdie boek gebruik word. Wanneer data deur navorsing versamel word, sal ’n statistikus gewoonlik eers toets of die data normaal verdeel is. Indien dit wel normaal verdeel is, is daar heelwat meer statistiese toetse wat die statistikus kan gebruik. ’n Verskeidenheid statistiese toetse kan slegs op normaalverdelings toegepas word. Vir alle berekeninge in die res van hierdie boek sal ons aanneem dat die data wel normaal verdeel is.

Wat is ’n normaalverdeling? ’n Normaalverdeling is slegs moontlik wanneer kontinue data gebruik word. Respondente se keuse van ’n gunsteling restaurant is nie kontinu nie. Wanneer ’n groep van 200 respondente gevra word wat hul gemiddelde inkomste per maand is, sal die data wel kontinu wees. Kyk na die volgende data en histogram: Kategorie

Frekwensie

0 tot 10

1 500

11 tot 20

2 000

21 tot 30

2 500

31 tot 40

1 900

41 tot 50

1 400

©akademia (MSW)| Hoofstuk 5: Waarskynlikheidverspreidings

149


Elementêre Kwantitatiewe Metodes Hierdie data kan soos volg as ’n histogram voorgestel word:

Figuur 5.1: Histogram van ‘n normaalverspreiding As ons egter die kategorieë nou kleiner maak, sal die histogram soos volg lyk:

150

Kategorie

Frekwensie

0 tot 5

700

6 tot 10

800

11 tot 15

900

16 tot 20

1100

21 tot 25

1200

26 tot 30

1300

31 tot 35

1000

36 tot 40

900

41 tot 45

800

46 tot 50

600

Hoofstuk 5: Waarskynlikheidverspreidings | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

Figuur 5.2: Histogram met meer kategorieë Let daarop dat die data wat versamel is, nie verander het nie. Dit is net die kategorieë wat kleiner is. Gestel ons raak heeltemal ontslae van al die kategorieë. Gestel ons het ’n kolom vir 1, 2, 3, 4, al die pad tot by 50. Dan sal ons ’n histogram vind wat soos volg lyk:

Figuur 5.3: Histogram met ‘n kolom vir elke heelgetal Jy sal sien dat die kolomme al hoe nader aan mekaar kom. Hierdie laaste histogram is egter nog steeds gebaseer op heelgetalle op die x-as. Wat as dit moontlik is vir die respondente om reële getalle (met desimale) te verskaf? En as ons dan vir elke moontlike waarde (desimale ingesluit) ’n kolom geskep het? Die kolomme sou so naby aan mekaar gekom het ©akademia (MSW)| Hoofstuk 5: Waarskynlikheidverspreidings

151


Elementêre Kwantitatiewe Metodes dat daar nie meer spasies tussen die kolomme sou gewees het nie. En omdat daar ’n oneindige hoeveelheid waardes tussen enige twee heelgetalle kan voorkom, is daar ’n oneindige hoeveelheid kolomme wat in ’n kontinue verdeling kan voorkom.

Wat is kontinue data? Hoeveel waardes is daar tussen 20 en 21? As ons na heelgetalle kyk, is daar geen waardes tussen 20 en 21 nie. 21 volg direk op 20. As ons egter na kontinue waardes kyk, sal ons alle moontlike desimale waardes insluit. Hoeveel desimale waardes is tussen 20 en 21? Daar is 20.1, 20.2, 20.3, tot by 20.9. Maar selfs tussen 20 en 20.1 is daar ’n groot hoeveelheid waardes: 20.01, 20.02, 20.03, tot by 20.1. En so kan ons aangaan. Die waarde 20.000002228 kom ook tussen 20 en 21 voor. So ook die waarde 20.99999999999. Daar is dus ’n oneindige hoeveelheid waardes tussen 20 en 21. Om hierdie rede sal die “kolomme” vir die moontlike waardes wat respondente tussen 20 en 21 kon kies, ook oneindig wees.

In ’n kontinue verspreiding is daar geen spasies tussen die “kolomme” nie. Die volgende is voorbeelde van kontinue data wat grafies voorgestel is:

Figuur 5.4: Grafiese voorstelling van kontinue data

152

Hoofstuk 5: Waarskynlikheidverspreidings | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes Die normaalverdeling is ’n spesiale tipe kontinue verspreiding. In hierdie verspreiding is die gemiddeld, mediaan en modus gelyk aan mekaar. Dit beteken dat die meeste waardes reg in die middel van die verspreiding voorkom. Hoe verder ’n waarde van die middel (en dus gemiddeld) af beweeg, hoe minder van hierdie waardes kom in die verspreiding voor. ’n Normaalverdeling sal dus soos volg lyk:

Gemiddeld

Figuur 5.5: Grafiese voorstelling van ’n normaalverdeling

’n Normaalverdeling is spesiaal. Dit bevat die volgende eienskappe: •

’n Normaalverdeling is simmetries. Dit beteken dat die linkerkant van die verdeling (tot by die gemiddeld) presies dieselfde is as die regterkant. Ons sal later sien waarom hierdie eienskap baie nuttig kan wees.

Die oppervlakte van ’n normaalverdeling kan gebruik word om ’n waarskynlikheid voor te stel. Dus: die oppervlakte tussen twee punte op ’n normaalverdeling = die waarskynlikheid dat ’n ewekansig-gekose waarde tussen hierdie twee punte sal voorkom. Hierdie is een van die belangrikste eienskappe van ’n normaalverdeling.

Die oppervlakte van ’n normaalverdeling is 0. Die linkerkant (tot by die gemiddeld) se oppervlakte is dus 0.5. Omdat die normaalverdeling simmetries is, is die regterkant ook 0.5, soos wat in die onderstaande figuur aangedui word:

©akademia (MSW)| Hoofstuk 5: Waarskynlikheidverspreidings

153


Elementêre Kwantitatiewe Metodes

Figuur 5.6: Simmetrie van ’n normaalverdeling

Twee tipes normaalverdelings Ons onderskei hoofsaaklik tussen twee tipes normaalverdelings: •

Die standaard-normaalverdeling. Hierdie verdeling word nie tipies in praktyk aangetref nie, maar is baie belangrik vir die berekeninge wat ons doen. Die gemiddeld van ’n standaard-normaalverdeling is 0 en die standaardafwyking is 1.

Normaalverdelings in praktyk. Data wat in praktyk versamel word, sal tipies nie ’n gemiddeld van presies 0 en ’n standaardafwyking van 1 hê nie.

Bereken waarskynlikhede in ’n normaalverspreiding Ons sal begin om waarskynlikhede te bereken deur van die standaard-normaalverdeling gebruik te maak. Daarna sal ons, soos wat meer in die praktyk die geval is, waarskynlikhede bereken in normaalverdelings waar die gemiddeld en standaardafwyking nie 0 en 1, onderskeidelik, is nie. Die berekening van ’n waarskynlikheid sal met behulp van die volgende voorbeeld verduidelik word: Bereken ’n waarskynlikheid deur middel van die standaard-normaalverdeling Vraag: ’n Sekere datastel is normaal verdeel met ’n gemiddeld van 0 en ’n standaardafwyking van 1. Wat is die waarskynlikheid dat ’n ewekansige waarde wat uit die verdeling gekies word, tussen 0 en 0.22 sal voorkom? Antwoord: Die eerste stap sal wees om hierdie spesifieke area op ’n skets van die normaalverdeling aan te dui. Onthou: om ’n waarskynlikheid te bereken moet ons altyd die normaalverdeling se skets teken. Dit maak die berekening soveel makliker:

154

Hoofstuk 5: Waarskynlikheidverspreidings | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

???

0

0.22

Om die waarskynlikheid dat ’n waarde tussen 0 en 0.22 lê te vind, moet ons die oppervlakte van die deel van die grafiek tussen 0 en 0.22 vind. Dit is die deel wat met vraagtekens aangedui is. Maar hoe bereken ons hierdie oppervlakte? Om die oppervlakte van ’n reghoek te bereken is maklik (oppervlakte = lengte x breedte). Om ’n sirkel se oppervlakte te bereken is ook nie so moeilik nie (oppervlakte = Πr2). Maar om die oppervlakte van die area tussen 0 en 0.22 te bereken (die deel wat met die vraagtekens aangedui is) is ’n uitdaging. Om hierdie rede sal daar nie van jou verwag word om self, met ’n formule, hierdie oppervlakte te bereken nie. Aan die einde van hierdie gids word ’n tabel verskaf – al die moontlike oppervlaktes vir ’n groot verskeidenheid waardes op die x-as word verskaf. Bereken ’n oppervlakte met behulp van ’n z-tabel Om die oppervlakte te bereken is dit altyd nuttig om eers die normaalverdeling te skets – soos wat ons hierbo gedoen het. Onthou dat die oppervlaktes wat verskaf word, vir alle waardes tussen 0 en getalle groter as 0 verskaf word. Die tabel verskaf nie oppervlaktes vir waardes soos byvoorbeeld die volgende nie: •

tussen 0.22 en 0.33

tussen 0 en -0.41

groter as 0.22

kleiner as 0.22

tussen -0.22 en -0.33

Vir hierdie berekeninge sal ons ons begrip van ’n normaalverdeling se eienskappe moet inspan om daardie oppervlaktes (en dus waarskynlikhede) te vind. Die waarskynlikheid dat ’n waarde tussen 0 en 0.22 sal voorkom, kan egter net so van die tabel afgelees word. ©akademia (MSW)| Hoofstuk 5: Waarskynlikheidverspreidings

155


Elementêre Kwantitatiewe Metodes

0.22 staan bekend as die z-waarde. Om ’n oppervlakte (en dus waarskynlikheid) op ’n normaalverdeling te vind, benodig ons hierdie z-waarde. Die tabel bestaan uit ’n aantal rye en kolomme. Die struktuur van die tabel lyk soos volg:

0.087

Die eerste kolom stel die eerste twee syfers van die z-waarde voor. In ons voorbeeld se geval sal dit die 0.2 van 0.22 wees. Die eerste ry stel die tweede desimaal van die z-waarde voor. In ons geval sal dit die 0.02 van ons 0.22 wees. Die middelste deel van die tabel verskaf al die verskillende oppervlaktes, gebaseer op die z-waardes. Ons vind dus die oppervlakte (en dus die antwoord vir ons vraag) op die plek waar die 0.2-ry en 0.02-kolom mekaar kruis. Alle oppervlaktes vir waardes tussen 0 en 4.09 word in die z-tabel aangetref. Jy sal ook sien dat, hoe groter die z-waarde word, hoe nader die oppervlakte (en waarskynlikheid) aan 0.5 kom. Hoe groter die spasie tussen 0 en die z-waarde word, hoe groter word die oppervlakte. Die totale oppervlakte aan die regterkant van die normaalverdeling is 0.5 en daarom sal die oppervlakte tussen 0 en ’n ander waarde nooit 0.5 oorskry nie.

156

Hoofstuk 5: Waarskynlikheidverspreidings | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

Probeer dit self Vraag: Deur van die z-tabel gebruik te maak, vind die waarskynlikhede vir die volgende: 1. P(0 < z < 1.54) 2. P(0 < z < 1.96) 3. P(0 < z < 0.99) Antwoord: 1. Die vraag benodig die waarskynlikheid dat ’n ewekansig-gekose waarde tussen 0 en 1.54 sal lê. Die grafiek sal soos volg lyk:

???

0

1.54

Ons benodig die oppervlakte tussen 0 en 1.54. Op die z-tabel gaan soek ons die ry waar 1.5 voorkom, asook die kolom waar 0.04 voorkom (want 1.54 = 1.5 + 0.04). Waar hierdie ry en kolom kruis, vind ons die waarde 0.4382. Hierdie is die oppervlakte wat deur die vraagtekens in die skets voorgestel word. Die waarskynlikheid dat ’n ewekansig-gekose waarde tussen 0 en 1.54 sal voorkom, is dus 0.4382. Belangrik: onthou dat ons in hierdie geval aanneem dat die data normaal verspreid is, met ’n gemiddeld van 0 en standaardafwyking van 1. Vraag 2 en 3 word op dieselfde wyse bereken. Kyk of jy die volgende antwoorde kry: 2. P(0 < z < 1.96) = 0.475 3. P(0 < z < 0.99) = 0.3389

©akademia (MSW)| Hoofstuk 5: Waarskynlikheidverspreidings

157


Elementêre Kwantitatiewe Metodes

Bereken waarskynlikhede wat nie tussen 0 en z voorkom nie. In al die bogenoemde gevalle was die oppervlakte tussen 0 en een of ander z-waarde. Dit is egter nie altyd die geval nie. Soms is die oppervlak wat ons wil bereken in ’n ander deel van die normaalkurwe (grafiek). ’n Paar moontlike gevalle sal hieronder bespreek word. Geval 1: Bereken die waarskynlikheid dat ’n ewekansig-gekose waarde groter as 1.54 is. Antwoord: Deur die normaalverdeling te teken kan ons duidelik sien watter waarskynlikheid (en dus oppervlakte) ons moet bereken:

0.4382 ???

0

1.54

Ons wil dus die oppervlakte regs van 1.54 bereken: P (1.54 < z < ∞). Ons kan nie hierdie waarde direk van die tabel aflees nie omdat die tabel slegs vir ons die waardes tussen 0 en die z-waarde (in hierdie geval 1.54) verskaf. In hierdie geval soek ons die z-waarde tussen 1.54 en ∞. Ons gebruik dus nou ons kennis van die normaalverdeling om die probleem op te los: •

Die totale oppervlak van ’n normaalverdeling is 1. Omdat die normaalverdeling egter simmetries is aan weerskante van die gemiddeld, weet ons dus dat die oppervlakte van die regterkant 0.5 is.

Ons kan die oppervlakte van die gedeelte tussen 0 en 1.54 van die tabel aflees. Ons het dit reeds hierbo gedoen en die oppervlakte 0.4382 gevind (sien skets).

Om dus die oppervlakte van die gedeelte tussen 1.54 en ∞ te vind, kan ons die 0.4382 van 0.5 aftrek. Dus: P (1.54 < z < ∞) = 0.5 – 0.4382 = 0.0618

158

Hoofstuk 5: Waarskynlikheidverspreidings | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

Geval 2: Wat is die waarskynlikheid dat ’n ewekansige-gekose waarde tussen 0 en -1.96 voorkom? Antwoord: Weereens kan die grafiese voorstelling van die normaalverdeling help om die vraag beter te verstaan:

???

-1.96

0

Die feit dat die z-waarde negatief is, dui daarop dat die oppervlakte aan die linkerkant van die gemiddeld (en dus 0) is. Die waarskynlikheid wat ons dus wil bereken is: P(-1.96 < z < 0) Die eienskappe van die normaalverdeling kan ons help om hierdie probleem op te los. Ons weet dat die normaalverdeling se twee helftes simmetries is. As ons dus die oppervlakte tussen 0 en (positiewe) 1.96 kan bereken, sal hierdie oppervlakte presies dieselfde wees vir die afstand tussen 0 en (negatiewe) -1.96. Ons het reeds die oppervlakte tussen 0 en 1.96 bereken: P(0 < z < 1.96) was 0.475. Dus sal die waarskynlikheid P(-1.96 < z < 0) ook 0.475 wees. Geval 3: Wat is die waarskynlikheid dat ’n ewekansig-gekose waarde tussen 1.54 en 1.96 voorkom? Antwoord: Die normaalverdeling sal soos volg lyk:

©akademia (MSW)| Hoofstuk 5: Waarskynlikheidverspreidings

159


Elementêre Kwantitatiewe Metodes

???

0

1.54

1.96

Ons is dus weereens nie op soek na ’n oppervlakte tussen 0 en ’n z-waarde nie. Ons is nou op soek na die oppervlakte tussen twee z-waardes. Om hierdie probleem op te los is makliker as wat dit lyk: •

Ons kan die oppervlakte tussen 0 en 1.96 van die z-tabel aflees.

Ons kan die oppervlakte tussen 0 en 1.54 van die z-tabel aflees.

Die oppervlakte tussen 1.54 en 1.96 is dan die verskil tussen hierdie twee oppervlaktes.

Dus: P(1.54 < z < 1.96) = P(0 < z <1.96) – P(0 < z < 1.54) = 0.475 – 0.4382 = 0.0368 Geval 4: Bereken die waarskynlikheid dat ’n ewekansig-gekose waarde tussen -1.96 en 1.54 sal val. Antwoord: Die normaalverdeling sal soos volg lyk:

160

Hoofstuk 5: Waarskynlikheidverspreidings | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

??????

-1.96

0

1.54

Hier is ons op soek na ’n oppervlakte wat in beide die linker- en regterkant van die normaalverdeling voorkom. Om hierdie oppervlakte te bereken sal ons die volgende stappe volg: •

Bereken die oppervlakte tussen 0 en 1.54: Ons kan dit van die tabel aflees.

Bereken die oppervlakte tussen 0 en -1.96: Omdat die linkerkant en regterkant simmetries is, kan ons die oppervlakte tussen 0 en 1.96 (positief) van die tabel aflees. Die oppervlakte tussen 0 en -1.96 sal dieselfde wees.

Tel nou hierdie twee oppervlaktes bymekaar.

P(-1.96 < z < 1.54) = P (0 < z < 1.54) + P (-1.96 < z < 0) = 0.4382 + 0.475 = 0.9132 Gebruik die oppervlakte om die z-waarde te bereken Die z-tabel kan ook gebruik word om die z-waarde te vind as jy die oppervlakte het. Kyk na die volgende voorbeeld: Die waarskynlikheid dat ’n ewekansig-gekose waarde tussen 0 en x voorkom, is 0.4505. Wat is x? Om hierdie vraag te antwoord kan ons bloot die oppervlakte 0.2088 in die middelste deel van die z-tabel vind. Sodra ons die sel met die oppervlakte gevind het, kan ons die z-waarde van die ry en kolom aflees:

©akademia (MSW)| Hoofstuk 5: Waarskynlikheidverspreidings

161


Elementêre Kwantitatiewe Metodes

Figuur 5.5: Vind van ‘n waarde op die z-tabel Die oppervlakte van 0.2088 korrespondeer dus met die 0.5 ry en die 0.05 kolom. Die zwaarde is dus 0.55.

Berekening van waarskynlikhede van niestandaard-normaalverdelings In praktyk sal ons tipies nie standaard-normaalverdelings kry nie. Dink daaraan: as ons vir respondente vra wat hul salaris is, is dit heel onwaarskynlik dat die gemiddeld R0.00 is. (As daar een persoon is wat ’n salaris verdien, moet daar ten minste een persoon wees wat minder as R0.00 as ’n salaris verdien!) En die standaardafwyking sal ook nie in normale omstandighede R1.00 wees nie. Kyk na die volgende voorbeeld: ’n Navorser het data oor ’n groep respondente se ouderdomme versamel. Hierdie data is normaal verdeeld. Die navorser vind ’n gemiddelde ouderdom van 18 met ’n standaardafwyking van 8 jaar. Wat is die waarskynlikheid dat ’n ewekansig-gekose respondent tussen 18 en 32 jaar oud sal wees? Die normaalverdeling vir hierdie geval sal soos volg lyk:

162

Hoofstuk 5: Waarskynlikheidverspreidings | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

???

18

32

Hoe nou gemaak? Daar is nie ’n z-waarde van 32 op die z-tabel nie! Die rede hiervoor is die feit dat ons nie met ’n standaard-normaalverspreiding werk nie. Die gemiddeld is nie 0 nie, die standaardafwyking is nie 1 nie, en dus is die 32 nie ’n z-waarde nie. Hoe bereken ons dan die oppervlakte? Om die oppervlakte tussen 18 en 32 te bereken, het ons ’n z-waarde nodig. 32 is nie ’n geldige z-waarde nie, omdat die gemiddeld nie 0 is nie en die standaardafwyking nie 1 is nie. Daar is egter ’n formule wat ons bestaande normaalverdeling kan “transformeer” na ’n standaard-normaalverdeling en vir ons ’n z-waarde kan gee. Die formule is: z=

6 7

waar: •

x die waarde is wat na ’n z-waarde verander moet word (dus 32)

μ die gemiddeld van ons normaalverdeling is (dus 18)

σ die standaardafwyking voorstel (dus 8)

Die z-waarde kan dus nou soos volg bereken word:

z= =

6 7

8 3 3

= 1.75 Die z-waarde is dus 1.75. Ons kan nou bloot die z-waarde gebruik om die oppervlakte op die z-tabel te vind. P(0 < z < 1.75) = 0.4599 Daar is dus ’n waarskynlikheid van 0.4599 dat ’n ewekansig-gekose respondent se ouderdom tussen 18 en 32 sal wees. ©akademia (MSW)| Hoofstuk 5: Waarskynlikheidverspreidings

163


Elementêre Kwantitatiewe Metodes

Probeer self Die salarisse van ’n groot groep werknemers is normaal verdeeld, met ’n gemiddeld van R18 500 en standaardafwyking van R1 200. Vraag 1: Wat is die waarskynlikheid dat ’n ewekansig-gekose werknemer se salaris tussen R18 000 en R20 000 sal wees? Vraag 2: Wat is die waarskynlikheid dat ’n werknemer wat ewekansig gekies word, se salaris groter as R20 000 sal wees? Antwoord 1: Die eerste stap sal altyd die skets van ’n normaalverdeling insluit:

???

R18 500

R20 000

Omdat hierdie nie ’n standaard-normaalverdeling is nie, moet ons die z-waarde bereken. z= =

9 : ;

3 <

= 1.25 Ons kan nou die z-waarde van 1.25 gebruik en die waarskynlikheid van die z-tabel aflees. P(0 < z < 1.25) = 0.3944 Daar is dus ’n waarskynlikheid van 0.3944 dat ’n ewekansig-gekose werknemer se salaris tussen R18 500 en R20 000 sal voorkom.

164

Hoofstuk 5: Waarskynlikheidverspreidings | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

Vraag 2: Die normaalverdeling sal soos volg lyk:

??? R18 500

R20 000

Hierdie berekening behoort nie moeilik te wees nie omdat ons soortgelyke probleme met ’n standaard-normaalverdeling hanteer het. Die berekening van die z-waarde is ook dieselfde. Die z-waarde is 1.25. Om die oppervlakte tussen R20 000 en ∞ te bereken kan ons bloot die oppervlakte tussen R18 500 en R20 000 van 0.5 aftrek. Met die z-waarde van 1.25 wat ons bereken het, sal die berekening soos volg lyk: P(1.25 < z < ∞) = 0.5 – P(0 < z < 1.25) = 0.5 – 0.3944 = 0.1056 Onthou: sodra jy die z-waarde bereken het, word die oppervlakte op presies dieselfde wyse bereken as wat die geval met ’n standaard-normaalverdeling sou wees. In die res van hierdie studie gaan ons gereeld na die normaalverdeling verwys. Die normaalverdeling word dikwels in navorsing gebruik om hipoteses (stellings) te toets. Is voltydse studente meer suksesvol as deeltydse studente? Maak ouer bestuurders minder ongelukke as jonger bestuurders? Was die ekstra klasse wat aan studente gebied is werklik suksesvol? Hierdie tipe vrae kan deur navorsing en statistiese analises beantwoord word. Voordat ons egter data kan analiseer, moet daardie data versamel word. Ons het reeds verwys na populasies en steekproewe, maar die volgende hoofstuk gaan ’n bietjie uitbrei op steekproewe en hoe hierdie steekproewe geneem gaan word. Die volgende hoofstuk is kort, maar vorm ’n baie belangrike grondslag vir enige navorsing wat gedoen word.

©akademia (MSW)| Hoofstuk 5: Waarskynlikheidverspreidings

165


ElementĂŞre Kwantitatiewe Metodes Notas

166

Hoofstuk 5: Waarskynlikheidverspreidings | Šakademia (MSW)


Elementêre Kwantitatiewe Metodes

HOOFSTUK 6: STEEKPROEWE

Onderwerpe 6.1

Steekproefneming

6.2

Ewekansige steekproefmetodes Eenvoudige ewekansige steekproefneming Sistematiese steekproefneming Gestratifiseerde steekproefneming Trossteekproefneming

6.3

Nie-ewekansige steekproefneming Geriefsteekproefneming Oordeelsteekproefneming Kwota-steekproefneming Sneeubalsteekproefneming

6.4

Waarom is steekproefneming belangrik?

©akademia (MSW)| Hoofstuk 6: Steekproewe

167


Elementêre Kwantitatiewe Metodes

Gevallestudie, vervolg… “Enige nuus oor die oorsese vakansie?” Michael en Sonja drink ’n koppie koffie by StatInc se koffiewinkel. Vanessa het ’n vergadering aangevra en dit duidelik gemaak dat beide Michael en Sonja die vergadering moet bywoon. Vanessa, wat feitlik nooit laat is nie, is deur ’n groot verkeersknoop vertraag. Michael en Sonja het solank koffie bestel. Sonja skud haar kop. “Die kompetisie sluit eers oor ’n week. Dan gaan hulle al die inskrywings analiseer en ’n wenner kies.” “Ek hou duim vas. Ek is klaar besig om my verlof op te gaar.” Sonja lag. “Jy is ’n kontrakwerker – jy het nie verlof nie.” “Onbetaalde verlof,” sê Michael ongestoord. “As jy die kompetisie met my lande wen, gaan ek saam.” Sonja verander die onderwerp. “Waaroor wil Vanessa ons sien?” “Sy het nie gesê nie. Ek is seker dit het iets met statistiek te doen.” Sonja sluk benoud. “Weet sy hoe voel ek oor syfers?” Michael wil net antwoord as Vanessa vervaard instorm. “Jammer ek is laat! Die verkeer is ’n nagmerrie. Ek kort ’n groot cappuccino,” sê sy in een asem terwyl sy die kelner nader wink. Sy bestel koffie en verduidelik aan die kelner hoe belangrik dit is, vir haar eie gesondheid, maar ook vir syne, dat sy sou gou as moontlik kafeïen moet inkry. Die kelner het haar ernstig opgeneem en oomblikke later sit Michael, Sonja en Vanessa (met ’n groot cappuccino) en gesels oor Vanessa se nuwe projek. “Ons is baie nuuskierig om te hoor waaroor jy met ons wil praat. Sonja is bang dat ons van haar gaan verwag om standaardafwykings te bereken.” Michael lag as Sonja se oë rek. “Dit sal nie nodig wees nie, “ stel Vanessa haar gerus. “Ek wil met julle gesels oor nuwe sagteware wat ons wil aankoop.” Sonja is nie gerusgestel nie. “Dis nog erger. Ek is nog minder gemaklik met programmering as met statistiek.” “Ontspan. Al wat ons van jou nodig het, is jou kennis in bemarking.” Vanessa maak ’n gebruikershandleiding oop. “SamplingSoft is spesialisprogrammatuur wat geskep is om steekproewe te vind. Dit het nuttige funksies wat ons kan help om ’n verskeidenheid ewekansige steekproefmetodes te gebruik. Dit help selfs met nie-ewekansige

168

Hoofstuk 6: Steekproewe | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes steekproefmetodes.” Michael sien die verwarde uitdrukking op Sonja se gesig en verduidelik: “Met ewekansige steekproefneming benodig jy ’n steekproefraamwerk. As jy byvoorbeeld ’n steekproef wil trek uit al die werknemers van StatInc, benodig jy die name van al die werknemers in StatInc. Sodoende het elke werknemer dieselfde kans om vir die steekproef gekies te word.” Vanessa kyk na Sonja. “Julle werk blykbaar aan ’n nuwe marknavorsingsprojek?” Sonja knik. “Ons kyk na sakeondernemings wat by die plaaslike sakekamer geregistreer is. Ons wil kyk hoeveel van die ondernemings navorsing doen en van StatInc se dienste gebruik sal kan maak.” “Wat is die populasie?” “Daar is meer as wat ek gedink het. Daar is sowat drie-en-’n-half-duisend ondernemings.” “Julle sal dus nie 'n sensus kan gebruik nie,” sê Michael. “Nee, ons sal ’n steekproef moet trek. Maar dit is moeilik om te besluit wie ons in die steekproef wil insluit.” “Wonderlik,” sê Vanessa, “ons kan verskillende opsies met SampleSoft probeer. Drie-en-’nhalf-duisend is klein genoeg om die programmatuur uit te toets. Vasvat Versekeraars se miljoen kliënte bied nie die ideale omstandighede om nuwe programmatuur te toets nie.” “Ek’s in,” sê Sonja opgewonde. “Wat het julle van my nodig?” “Sal jy ’n lys kan kry van al die ondernemings wat by die sakekamer geregistreer is?” Sonja knik en maak ’n nota in haar dagboek. “Dit is openbare inligting. Dit behoort nie moeilik te wees om dit in die hande te kry nie. In watter formaat het julle dit nodig?” “Dit maak nie saak nie – ons sal dit omskakel in die regte formaat. Maar as jy dit in ’n sigblad-formaat kan kry, sal dit help.” Sonja knik opgewonde. Sy sien daarna uit om saam met Vanessa en Michael te werk.

6.1

Steekproefneming

Steekproefneming is nie ’n onbekende begrip nie. Ons doen dit gereeld. Kyk na die volgende voorbeelde: •

’n Sekretaresse vra tien van die personeellede wat hulle tydens die jaareindfunksie wil doen. Wat die tien personeellede kies, word dan gedoen.

©akademia (MSW)| Hoofstuk 6: Steekproewe

169


Elementêre Kwantitatiewe Metodes •

’n Restaurant handig vraelyste aan kliënte uit om die diens te evalueer. Slegs sowat 10% van alle kliënte voltooi die vraelyste.

’n Onderwyser vra leerders in een van sy klasse wat hul opinie van die skool se nuwe sportvelde is.

Al drie hierdie gevalle is voorbeelde van steekproefneming. In elke geval is daar ’n populasie (alle personeellede, alle kliënte van die restaurant en alle leerders by die skool) en word daar ’n kleiner steekproef uit hierdie populasie getrek (tien werknemers, 10% van die restaurant se kliënte en die leerders in een klas). As dit dan so maklik is, waarom word ’n hele hoofstuk aan steekproefneming gewy? Die realiteit is dat steekproefneming nie so eenvoudig is nie. Die belangrikste doel van ’n steekproef is om ’n gevolgtrekking oor die populasie te maak. Indien die steekproef nie verteenwoordigend van die populasie is nie, sal hierdie gevolgtrekkings verkeerd wees. Beskou die volgende geval: Voorbeeld ’n Universiteit wil weet of daar ’n behoefte bestaan aan ’n ondersteuningsentrum vir studente wat hul eie sakeondernemings wil begin. Die universiteit besluit dat, indien daar meer as 20% van alle studente is wat hul eie sakeondernemings wil begin, die sentrum geopen sal word. ’n Dosent doen navorsing om te bepaal of studente belangstel om hul eie ondernemings te begin. Die dosent verkry ’n steekproef onder studente wat op ’n spesifieke dag in die kafeteria is. Wat die dosent nie weet nie, is dat al die studente wat Sakebestuur studeer, op daardie spesifieke dag ’n uitstappie na ’n maatskappy onderneem het. Die Sakebestuurstudente is dus nie by die steekproef ingesluit nie. Die dosent vind dat 16% van die studente in die steekproef wel ’n onderneming wil begin. Hy maak ook die gevolgtrekking dat hierdie getal dieselfde sal wees vir die groter populasie, met ander woorde, al die studente by die universiteit. Die universiteit besluit dat daar te min belangstelling is om met die ondersteuningsentrum voort te gaan. Wat is die probleem met die bogenoemde steekproef? Daar is twee belangrike probleme: •

Die steekproef was nie verteenwoordigend van die populasie nie. Die populasie het ’n groot hoeveelheid Sakebestuur-studente gehad. Die steekproef nie.

Die dosent het gevolgtrekkings ten opsigte van die populasie gemaak wat nie deur die steekproef ondersteun is nie.

170

Hoofstuk 6: Steekproewe | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes Laasgenoemde is die grootste gevaar van foutiewe steekproewe: die feit dat gevolgtrekkings ten opsigte van die populasie op die steekproef gebaseer word. As die steekproef nie dieselfde “lyk” as die populasie nie, kan daar nie met sekerheid gevolgtrekkings oor die populasie op die steekproef gebaseer word nie. Hierdie hoofstuk sal ’n aantal steekproefmetodes bespreek. Wegner (2013) som agt belangrike steekproefmetodes soos volg op: Ewekansige steekproefneming

Nie-ewekansige steekproefneming

Elke lid van die populasie het ʼn ewe groot kans om deel van die steekproef uit te maak.

Elke lid van die populasie het nie dieselfde kans om deel van die steekproef uit te maak nie.

Eenvoudige ewekansige steekproefneming

Geriefsteekproefneming (Convenience

(Simple random sampling)

sampling)

Sistematiese steekproefneming (Systematic

Oordeelsteekproefneming (Judgement

random sampling)

Sampling)

Gestratifiseerde steekproefneming (Stratified

Kwota-steekproefneming (Quota sampling)

random sampling) Trossteekproefneming (Cluster random

Sneeubalsteekproefneming (Snowball

sampling)

sampling)

6.2

Ewekansige steekproefmetodes

Die ewekansige steekproefmetodes sal deur middel van Sonja, Michael en Vanessa se ervaring met die SampleSoft-programmatuur verduidelik word. Voorbeeld Vanessa, Sonja en Michael sit by Vanessa se tafel en kyk na haar rekenaarskerm. Die skerm lyk soos volg:

©akademia (MSW)| Hoofstuk 6: Steekproewe

171


Elementêre Kwantitatiewe Metodes

“Die steekproefraamwerk is opgelaai. Ons kan nou kies watter steekproefmetode ons wil gebruik,” kondig Vanessa trots aan. “Is dit net vir ewekansige steekproefmetodes waar ons die steekproefraamwerk nodig het?” vra Sonja. “Ja. Vir nie-ewekansige steekproefmetodes kan ’n mens aanneem dat die navorser nie daardie inligting beskikbaar gehad het nie,” antwoord Vanessa. “Sal ons die eenvoudige steekproef probeer?” “Ek kan nie wag nie,” sê Michael en Vanessa kies die opsie wat sê Simple Random Sampling. Nadat sy op die create sample list-knoppie geklik het, word die volgende skerm vertoon:

172

Hoofstuk 6: Steekproewe | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

“Hoeveel vraelyste wil julle uitstuur?” vra Michael vir Sonja. “Ten minste tien persent van die populasiegrootte. Kom ons speel veilig en maak dit vyfhonderd.” Vanessa sleutel 500 in die spasie en klik op Continue >>. Oomblikke later word ’n lys met name gegenereer. Sy druk die lys uit en gee dit vir Sonja. Sonja lees vir ’n oomblik deur die lys. “Dit is heeltemal random,” sê sy. “Ek sien geen patroon nie. Hoe het die program die name gekies?” Michael lag. “Heeltemal random.” Vanessa verduidelik: “Met enige vorm van ewekansige steekproefneming moet elke element in die populasie ’n ewe groot kans hê om gekies te word. Met eenvoudige ewekansige steekproefneming of simple random sampling in Engels, kies die rekenaarprogram vyfhonderd name. Daar is geen patroon of volgorde nie. Dit is die punt.” “Dit kan werk,” sê Sonja. “Wat behels die ander opsies?” “Dit sal interessant wees om te sien hoe die steekproef wat deur die ander metodes gegenereer word met mekaar vergelyk,” voeg Michael by. Vanessa kies die opsie Systematic sampling. Sy sleutel weer die waarde 500 in en sien die volgende terugvoer:

Sonja kyk verras na die skerm. “Hoekom word elke sewende element gekies?” “Dit is hoe sistematiese steekproefneming werk. Drieduisend-vyfhonderd gedeel deur ©akademia (MSW)| Hoofstuk 6: Steekproewe

173


Elementêre Kwantitatiewe Metodes vyfhonderd, is sewe. Daarom word elke sewende element gekies.” “Dis wonderlik!” “Nie altyd nie,” waarsku Michael. “As jy ’n steekproef trek van die daaglikse omset van ’n maatskappy, sal elke sewende element op dieselfde dag val.” “En dan sal jou steekproef nie verteenwoordigend van die populasie wees nie,” voeg Vanessa by. “Ek sien,” antwoord Sonja. “Wat is stratified sampling?” “Gestratifiseerde steekproefneming trek ’n steekproef op dieselfde wyse as eenvoudige ewekansige steekproefneming. Die verskil hier is dat jou populasie eers in kleiner dele volgens sekere velde, of eienskappe, verdeel word.” “’skuus, jy het my verloor,” sê Sonja aan Vanessa. “Kom ons kyk na hoe die program dit doen,” stel Michael voor. Vanessa klik op Stratified sampling en sien die volgende skerm:

“Om jou steekproef meer verteenwoordigend te maak, kan jy die populasie opdeel in kleiner groepe volgens sekere kriteria, byvoorbeeld die grootte van die maatskappy,” verduidelik Vanessa. “Wat sal gebeur as ek company size kies?” “Dan sal die drieduisend-vyfhonderd ondernemings in drie groepe opgedeel word: klein, medium en groot. En die program sal dan ’n derde van die totale steekproef uit elke groep

174

Hoofstuk 6: Steekproewe | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes trek.” “Elke groep word dan ’n stratum genoem,” voeg Michael by. “Goed,” antwoord Sonja, “kom ons kies company size.” Vanessa klik op die skerm, sleutel 500 in die spasie en klik op Continue >>. ’n Lys met 500 name word weer gegenereer. Aan die bokant van die lys verskyn die volgende woorde:

Sonja verstaan. “So die program het outomaties, op ’n ewekansige wyse, ewe veel groot, medium en klein besighede vir die steekproef gekies. Maar in totaal is dit nog steeds vyfhonderd.” “Presies,” bevestig Vanessa. “Die verskil tussen gestratifiseerde steekproefneming en eenvoudige ewekansige steekproefneming is die feit dat ons nou seker gemaak het dat elke grootte onderneming eweveel verteenwoordig is. Met ons eerste steekproef wat ons geneem het, was dit nie noodwendig die geval nie.” “Hoe verskil dit van cluster sampling?” Michael het ’n antwoord gereed. “Trossteekproefneming, soos dit in Afrikaans bekend staan, deel ook jou populasie in groepe op. Maar in hierdie geval is die groepe soortgelyk aan mekaar, en die elemente binne-in elke steekproef verskil van mekaar.” “Kan ons dit probeer?” vra Sonja. “Ek verstaan beter as ek sien hoe dit gedoen word.” Vanessa klik op Cluster sampling en kry die volgende skerm:

©akademia (MSW)| Hoofstuk 6: Steekproewe

175


Elementêre Kwantitatiewe Metodes

Sonja kyk na die skerm. Michael trek ’n stuk papier nader en teken die volgende diagram om vir Sonja te verduidelik:

Weste van die stad Noorde van die stad 11 x klein maatskappye 10 x klein maatskappye 10 x mediumgrootte maatskappye

13 x mediumgrootte maatskappye 4 x groot maatskappye

5 x groot maatskappye

Ooste van die stad 12 x klein maatskappye 10 x mediumgrootte maatskappye 4 x groot maatskappye

Sentraal Suide van die stad 10 x klein maatskappye 11 x klein maatskappye 12 x mediumgrootte maatskappye

10 x mediumgrootte maatskappye 5 x groot maatskappye

6 x groot maatskappye

“Gestel ons kies slegs die maatskappy-grootte,” verduidelik hy. “Die program verdeel nou jou hele populasie volgens die kriteria wat jy verskaf het. Dan, deur middel van eenvoudige ewekansige steekproefneming, kies die program ’n aantal van die trosse – of clusters – wat in jou steekproef ingesluit sal word.”

176

Hoofstuk 6: Steekproewe | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

“Die verskillende trosse kan miskien geografies ingedeel word soos wat Michael in sy skets aangedui het,” sê Vanessa. “Hoewel elke tros in ’n ander gebied voorkom, is die groepe soortgelyk wanneer hulle met mekaar vergelyk word.” “So, die program sal miskien die maatskappy in die Noorde en in die Ooste kies as steekproef? En omdat die res van die maatskappy soortgelyk is aan dié in die Ooste en Noorde, sluit ons hulle nie by die steekproef in nie?” vra Sonja. “Presies,” sê Michael. “So, die verskil tussen gestratifiseerde steekproefneming en trossteekproefneming is...” “Die elemente in strata is soortgelyk. Dus trek ek my dele van my steekproef uit al die strata. Die data in trosse is verskillend: elke tros is verteenwoordigend van die populasie. Daarom kan ek een of meer trosse kies vir my steekproef.” “Jy leer vinnig,” glimlag Michael.

Opsomming van ewekansige steekproefneming Die ewekansige steekproefmetodes is deur middel van die StatInc-gevallestudie en ’n rekenaarprogram verduidelik. In kort kan die verskillende steekproefmetodes soos volg opgesom word. Daar bestaan vier ewekansige steekproefmetodes. Met ’n ewekansige steekproefmetode: •

moet elke element in die populasie ’n gelyke kans hê om in die steekproef opgeneem te word; en

word ’n steekproefraamwerk (sampling frame) benodig.

Met eenvoudige ewekansige steekproefneming word die steekproefraamwerk (alle elemente in die populasie) gebruik en word elemente vir die steekproef op ’n ewekansige wyse verkry. Dit kan vergelyk word met die praktyk om ’n klomp name in ’n hoed te gooi en dan name uit die hoed te trek. Die nasionale lotery se wennommers word op hierdie manier verkry. Sistematiese steekproefneming kies elke k’de element in die populasie. Om ’n steekproef van 500 uit ’n populasie van 3 500 te verkry, sal elke sewende element uit die populasie vir die steekproef gekies word. Dit is egter belangrik om seker te maak dat hierdie 7 (of k) nie ’n spesifieke betekenis het nie. Elemente wat volgens dae van die week ingedeel is, sal problematies wees as ’n k van 7 gebruik word, omdat al die elemente in die steekproef dan op dieselfde dag sal val. ©akademia (MSW)| Hoofstuk 6: Steekproewe

177


Elementêre Kwantitatiewe Metodes Met gestratifiseerde steekproefneming word die hele populasie in verskillende homogene groepe of strata ingedeel (byvoorbeeld, volgens geslag). Die groepe of strata verskil van mekaar, maar elemente binne-in elke groep is soortgelyk. Dan word eenvoudige ewekansige steekproefneming gebruik om ’n deel van die steekproef uit elke groep (of stratum) te verkry. Trossteekproefneming verdeel die populasie in groepe waarvan elke groep min of meer verteenwoordigend van die populasie is. Eenvoudige ewekansige steekproefneming word dan gebruik om ’n aantal groepe of trosse in hul geheel by die steekproef in te sluit. Die elemente in die trosse verskil van mekaar en is verteenwoordigend van die populasie, maar die groepe self is soortgelyk aan mekaar.

6.3

Nie-ewekansige steekproefneming

Een van die vereistes vir ewekansige steekproefneming is die beskikbaarheid van ’n steekproefraamwerk of sampling frame. Dit is egter nie altyd beskikbaar nie. Dit is dus nie altyd moontlik om van ewekansige steekproefneming gebruik te maak nie. As ’n reël is steekproewe wat met ewekansige steekproefneming geskep is, meer verteenwoordigend van die populasie. Daar is egter ’n aantal metodes wat gebruik kan word indien ewekansige steekproefneming nie beskikbaar is nie.

Geriefsteekproefneming Hierdie wyse van steekproefneming (convenience sampling in Engels) behels die verkryging van ’n steekproef op ’n wyse wat die maklikste en gerieflikste vir die navorser is. Enige element van die populasie wat op ’n spesifieke tydstip beskikbaar is, word by die steekproef ingesluit, byvoorbeeld: •

’n Restaurant eienaar wil navorsing oor ’n spesifieke item op die spyskaart doen. Die eienaar vra vir elke kliënt wat op ’n spesifieke dag die item bestel wat hul opinie van die produk is.

’n Hoërskoolleerder wil navorsing doen oor gunsteling televisieprogramme van volwassenes. Sy vra elke onderwyseres in haar skool om ’n vraelys in te vul. (In hierdie geval is die populasie alle volwassenes in ’n sekere area, maar die steekproef sluit slegs onderwysers by ’n spesifieke skool in. Die steekproef is dus glad nie verteenwoordigend nie).

Die grootste nadeel van geriefsteekproefneming is dat dit geen meganismes bevat wat die verteenwoordigheid van die steekproef kan verbeter nie.

178

Hoofstuk 6: Steekproewe | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

Oordeelsteekproefneming In hierdie geval word daar van die kundigheid van die navorser gebruik gemaak om te besluit wie in die steekproef ingesluit moet word. ’n Navorser wat wil bepaal of studente belangstel om hul eie sakeondernemings te begin, kan besluit om slegs studente wat Ondernemingsbestuur studeer, in te sluit. Die navorser sal dan natuurlik sy/haar eie redes hê waarom hierdie besluit geneem word. Deur op die oordeel van ’n navorser staat te maak verseker nie dat die steekproef verteenwoordigend is nie, maar dit kan wel in ’n mate bydra om elemente in die steekproef wat nie verteenwoordigend is nie, te verminder.

Kwota-steekproefneming Nog ’n stap om seker te maak dat ’n steekproef sover as moontlik verteenwoordigend van die populasie is, is om sekere eienskappe van die populasie te identifiseer. Die navorser sal dan seker maak dat die steekproef elemente met hierdie eienskappe bevat. Gestel daar was nie ’n steekproefraamwerk vir die sakeondernemings beskikbaar nie (verwys na die StatInc-gevallestudie). Sonja sou wel geweet het dat daar onderskei kon word tussen klein, medium en groot sakeondernemings. Sy sou kwotas kon saamstel vir haar steekproef, byvoorbeeld: ten minste 200 klein sakeonderneming, ten minste 150 mediumgrootte ondernemings en ten minste 150 groot sakeondernemings. Hierdie steekproef sal baie meer verteenwoordigend van die populasie wees as wat die geval met gewone geriefsteekproefneming sou wees.

Sneeubalsteekproefneming Met sneeubalsteekproefneming sal ’n navorser ’n aantal respondente identifiseer. Wanneer die respondente die vraelys of onderhoud voltooi het, sal die navorser vir verwysings vra. Die respondent sal dan vriende of familie kan verwys wat dan by die steekproef ingesluit word. Die steekproef word dus nie saamgestel voordat die navorsing gedoen word nie, maar groei soos wat die navorser besig is totdat die nodige steekproef bereik is.

6.4

Waarom is steekproefneming belangrik?

Ons weet reeds dat dit belangrik is dat ’n steekproef verteenwoordigend van die populasie moet wees. Die realiteit is egter dat geen steekproef altyd eenhonderd persent verteenwoordigend van die populasie sal wees nie. Ons kan hierdie probleem op twee wyses hanteer:

©akademia (MSW)| Hoofstuk 6: Steekproewe

179


Elementêre Kwantitatiewe Metodes •

Ons kan verseker dat ons steekproef so verteenwoordigend as moontlik is. Hoewel ons nie verseker kan wees dat die steekproef eenhonderd persent verteenwoordigend van die populasie is nie, kan ons stappe neem om verteenwoordigheid te verbeter. Dit kan gedoen word deur behoorlike steekproefneming.

Ons kan ook die probleem benader deur met omsigtigheid gevolgtrekkings te maak. In die res van hierdie gids sal ons sekere statistieke met steekproefdata bereken, en dan gevolgtrekkings ten opsigte van die populasie maak. Ons sal egter hierdie gevolgtrekkings kwalifiseer deur aan te dui hoe seker ons kan wees dat die gevolgtrekking wel op die populasie van toepassing is. In plaas daarvan om ’n stelling soos “die populasie se gemiddelde ouderdom is 18.75 jaar” te maak, sal ons eerder sê: “Ons kan met 95% sekerheid sê dat die populasie se ouderdom 18.75 is.” Hierdie sekerheid word in praktyk deur die steekproefmetode beïnvloed, maar ten opsigte van ons berekeninge sal die standaardafwyking en grootte van die steekproef ’n groot rol speel.

Hoofstuk 7 gaan hierop uitbrei. Ons gaan ’n steekproefgemiddeld bereken en ’n interval vir die populasie se gemiddeld daarmee beraam. In Hoofstuk 8 tot 11 gaan ons sekere stellings met steekproefdata toets en dan bepaal of dieselfde bevinding vir ons populasie sal waar wees.

180

Hoofstuk 6: Steekproewe | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

HOOFSTUK 7: VERTROUENSINTERVALLE

Onderwerpe 7.1

Om ‘n gevolgtrekking oor die populasie te maak

7.2

Wat is ‘n vertrouensinterval? Bereken ‘n vertrouensinterval Bereken ’n vertrouensinterval as σ onbekend is

©akademia (MSW)| Hoofstuk 7: Vertrouensintervalle

181


Elementêre Kwantitatiewe Metodes

Gevallestudie, vervolg… “Hier is iets interessant.” Michael kyk op. Vanessa trek ’n stoel nader en gaan sit by sy lessenaar. Vandat Michael se kontrak by StatInc verleng is, het hy by Vanessa se kantoor ingetrek. Haar kantoor is so groot dat vier ekstra lessenaars daar kan inpas sonder om die plek beknop te laat voel. “Hierdie artikel is ook interessant,” sê hy. “Hulle het ’n korrelasie gevind tussen die wyse waarop mense...” Michael bly stil as Vanessa hom glimlaggend aanstaar. “Nie so interessant soos wat ek hier het nie.” Michael se belangstelling is dadelik geprikkel. Hy neem die dokument wat Vanessa na hom uithou en kyk vlugtig na die inhoud. Daar is ’n verskeidenheid grafieke en iets wat soos beskrywende statistiek lyk. Vanessa verduidelik: “Ons is nie die eerste onderneming wat Vasvat Versekeraars genader het nie. ’n Jaar of wat gelede het hulle hierdie verslag ontvang. Hulle het hul besluite daarop baseer en miljoene verloor.” Michael kyk na die dokument en sien ’n aanbeveling. Aanbeveling: Bemarkingsaksies moet gefokus word op persone wat sestig jaar oud is. Dit is die gemiddelde ouderdom van die populasie in die omgewing. Michael kyk vraend na Vanessa. “Dit klink na ’n geldige aanbeveling.” Vanessa se glimlag word groter. Michael vermoed onraad. “Mits die statistiese berekeninge korrek was.” Vanessa knik. “En dit is nie die geval nie?” “Ek sal graag jou objektiewe opinie wil hoor,” sê Vanessa. Dit is duidelik dat daar een of ander groot tekortkoming in die navorsing is. Sy wil egter hê dat Michael dit self moet ontdek. Michael dink vir ’n oomblik. “Goed. Ek neem aan hulle het ’n steekproef geneem. Die steekproef was verteenwoordigend van die populasie. Hulle het toe, met die nodige statistiese omsigtigheid, die steekproefgemiddeld op die populasiegemiddeld van toepassing gemaak.” “Jy is halfpad reg. ‘Statistiese omsigtigheid’ is nie ’n woord wat by my opgekom het toe ek hierdie verslag gelees het nie.” Michael sug. “Ek wens ek het die rou data van die navorsingsprojek gehad.”

182

Hoofstuk 7: Vertrouensintervalle | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

“Pasop waarvoor jy wens,” sê Vanessa met ’n ondeunde lag. “Aanhangsel A.” Michael blaai vinnig na die agterkant van die dokument. Hy vind Aanhangsel A. Wat hy sien laat hom na sy asem snak. “Tien?” “Jip.” Dit is duidelik dat Vanessa dieselfde reaksie gehad het toe sy die verslag gelees het. Sy geniet egter Michael se skok en verontwaardiging. “Net tien?” “Net tien.” “Hoe maak jy ’n gevolgtrekking oor ’n populasie van duisende met ’n steekproef van tien?” “Dis nog net die begin. Kyk ’n bietjie na die tien waardes wat versamel is.” Michael kyk na die individuele waardes en sien die volgende:

“Al die respondente was tussen vyftig en sestig jaar oud. Behalwe Respondent ses en sewe. Enige persoon kan dadelik sien dat die gemiddelde kliënt tussen vyftig en sestig jaar oud is.” “Nie enige persoon nie. Om een of ander rede het niemand in Vasvat die moeite gedoen om na die berekeninge te kyk nie. Hulle sou twee keer gedink het voordat hulle die bemarkingsveldtog geloods het.” “En die statistikus? Het die vertrouensintervalle nie ’n groot rooi lig laat flikker nie?” Vanessa bars uit van die lag. Michael verstar. “Daar is geen vertrouensintervalle nie,” besef hy. “En geen standaardafwykings nie. Daar is niks. ’n Steekproefgemiddeld van sestig en ’n half ©akademia (MSW)| Hoofstuk 7: Vertrouensintervalle

183


Elementêre Kwantitatiewe Metodes jaar en ’n steekproefgrootte van tien. Die ‘statistikus’ was ’n vriend van ’n vriend van ’n vriend wat by Vasvat gewerk het.” “En niemand het sy kwalifikasies nagegaan nie?” “Die persoon wat dit moes doen, is intussen onder verdagte omstandighede by die onderneming weg. Die statistikus het soos mis voor die son verdwyn nadat hy sy geld gekry het. Vasvat het hierdie as ’n duur les afgeskryf en besluit om in die toekoms deskundiges te gebruik.” “En dit is waar jy in die prentjie pas,” sê Michael glimlaggend. Hoewel Vanessa baie beskeie is, het sy ’n reputasie as ’n formidabele navorser – plaaslik, maar ook in die internasionale arena. Hy kan steeds nie sy geluk glo dat Vanessa sy mentor is nie. “Ons,” antwoord Vanessa. Beskeie, soos gewoonlik. “Kom ons maak eers seker dat ons presies verstaan wat die vorige statistikus verkeerd gedoen het. Hoewel sommige van sy foute gruwelik nalatig was, is dit nie unieke foute nie. Dit is foute wat amateur statistici steeds kan maak en, as ons nie versigtig is nie, kan ons in dieselfde slaggat trap.” Michael het sy bedenkinge oor Vanessa se geneigdheid om in enige slaggate te trap, maar laat dit daar. Hy kyk weer na die dokument. “Reg, kom ons aanvaar dat hierdie piepklein steekproef wel verteenwoordigend van die populasie is – en ek wil dit duidelik maak dat ek nie vir een oomblik dink dit was nie.” “Dit was nie. Die statistikus het ’n groep vriende by ’n rugby-reünie gevra. Al die mense wat dit bygewoon het, was mans wat in dieselfde rugbyspan gespeel het. Die twee ouer mense was die destydse klubbestuurder en -sekretaris.” Michael hap na lug – hy kan sy ore nie glo nie. Vanessa onderbreek haarself: “Maar kom ons veronderstel vir ’n oomblik die steekproef was verteenwoordigend.” “Die eerste ding waarna die statistikus moes kyk, is die rou data. Dit is duidelik dat die meeste respondente tussen vyftig en nege-en-vyftig jaar oud was. Die twee ouer respondente is dus uitskieters.” “Dit is maklik om te doen met ’n klein steekproef,” merk Vanessa op. “Met ’n groter steekproef is dit ook maklik. Deur bloot ’n standaardafwyking te bereken, sou dit duidelik wees hoe vêr die gemiddelde respondent se ouderdom van die gemiddeld af is. Is hierdie gemiddeld darem korrek?” wil Michael weet. “Dit is die enigste korrekte statistiek in die verslag.”

184

Hoofstuk 7: Vertrouensintervalle | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

"Goed. Dan bereken ons gou ’n standaardafwyking.” Michael gryp ’n pen en papier en voeg daad by die woord terwyl Vanessa geamuseerd toekyk. Oomblikke later oorhandig hy die papier aan Vanessa. “Nes ek gedink het,” sê hy triomfantlik, “meer as sewentien jaar.” “Mooi,” antwoord sy, “ons weet dus dat die respondente oor die algemeen baie vêr van die gemiddeld af is.” “Enige Statistiekstudent behoort dit te weet. Dit is hoofstuk een in enige Statistiekhandboek.” “Maar as die steekproef ten volle verteenwoordigend van die populasie is, sal die populasie ook so ’n groot standaardafwyking hê,” sê Vanessa. “Ja, maar dit beteken dat die standaardafwyking êrens in berekening gebring moet word wanneer ons gevolgtrekkings oor die populasie se gemiddeld wil maak.” “Verduidelik.” “Ons weet nie wat die populasie se gemiddeld is nie,” verduidelik Michael. “Ons moet raai wat die populasie se gemiddeld is. Die beste manier om dit te raai, is deur ’n goeie steekproef te trek en dan al die nodige statistieke met die steekproef te doen.” “En dit is presies wat hierdie statistikus gedoen het.” “Nee, dit is nie. Hierdie statistikus,” sê Michael terwyl hy met sy vinger op die gewraakte verslag tik, “het sonder om te blik of te bloos aangeneem dat die steekproef se gemiddeld outomaties ook die populasie se gemiddeld is.” “En hy kan dit nie doen nie, want...?” “Want hy het geen versekering dat die populasie en steekproef identies is nie. Hy moet sekere verskille in ag neem. Veral moontlike foute wat hy kon maak toe hy die steekproef geneem het.” “En hoe doen hy dit?” wil Vanessa weet. “Hipotesetoetse. Vertrouensintervalle. Om net twee moontlikhede te noem.” “Aha! Kom ons begin by vertrouensintervalle. Sal jy ’n vertrouensinterval vir die populasiegemiddeld kan bereken?” “Is die hemel blou?” glimlag Michael.

©akademia (MSW)| Hoofstuk 7: Vertrouensintervalle

185


Elementêre Kwantitatiewe Metodes

7.1

Om ’n gevolgtrekking oor die populasie te maak

Een van die grootste uitdagings waarmee ’n statistikus gekonfronteer word, is die onsekerheid wat die populasie bied. Ons weet nie hoe die populasie lyk nie. Ons weet nie wat die gemiddelde ouderdom van ’n populasie is nie. Ons weet nie wat die standaardafwyking betrokke by daardie gemiddeld is nie. Ons weet letterlik niks. Die beste wat ons kan doen, is om te raai. En hoewel dit altyd ’n raaiskoot sal bly, bied statistiek vir ons ’n aantal metodes wat die waarskynlikheid dat ons reg sal raai, vergroot. Een van hierdie metodes is ewekansige steekproefneming. Deur ’n verteenwoordigende steekproef te neem, het ons data tot ons beskikking. Ons kan dan hierdie data gebruik om statistieke te bereken. Op grond van hierdie statistieke kan ons dan meer akkurate aannames oor die populasie maak. Die belangrikste om te onthou is egter: Ons kan nooit 100% seker wees dat ’n aanname wat ons oor die populasie maak, korrek is nie.

Die enigste uitsondering tot hierdie stelling is as ons al die data van die hele populasie beskikbaar het en die statistiese berekeninge met die populasie se data doen. As ons egter ’n steekproef moet gebruik omdat die populasie se data te veel is of as dit nie beskikbaar is nie, kan ons nooit hierdie aannames met 100% sekerheid maak nie. Beteken dit dat ons niks oor die populasie kan sê nie? Nee, glad nie. Deur van die regte statistiese metodes gebruik te maak, kan ons die vlak van sekerheid waarmee ons gevolgtrekkings maak, verhoog. Vertrouensintervalle is so ’n tegniek. Om vertrouensintervalle te verstaan is dit belangrik om net weer na ’n tipiese navorsingprojek te kyk. In enige navorsingsprojek sal die navorsing begin deur sekondêre navorsing te doen. Hier sal die navorser na die bevindinge van vorige navorsingsprojekte kyk. Daarna sal die navorser met die primêre navorsing begin. Dit is hier waar Statistiek belangrik is. ’n Tipiese primêre navorsingsproses sal soos volg lyk: •

Identifiseer die populasie en die statistieke (of inligting) wat oor die populasie benodig word.

Onttrek ’n steekproef uit hierdie populasie. Hoe meer verteenwoordigend die steekproef van die populasie is, hoe meer akkuraat is die gevolgtrekkings wat ons oor die populasie maak. Ewekansige steekproefneming bied gewoonlik meer verteenwoordigende steekproewe.

186

Hoofstuk 7: Vertrouensintervalle | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes •

Bereken die nodige statistieke (byvoorbeeld die gemiddeld) met die data wat in die steekproef voorkom. (Onthou dat hierdie statistieke nie sonder meer op die populasie van toepassing gemaak kan word nie.)

Bepaal met watter vlak van sekerheid jy die gevolgtrekkings oor die populasie wil maak. Hoe seker wil jy wees dat jy nie ’n fout maak as jy ’n gevolgtrekking maak nie? Wil jy 99% seker wees? 95%? 90%? Hoewel 100% ideaal sou wees, is dit nie moontlik nie.

Doen nou ’n hipotesetoets (later bespreek) of ’n vertrouensinterval en baseer die gevolgtrekkings van die populasie daarop.

Kom ons kyk vir ’n oomblik waar die onbevoegde navorser by Vasvat foute gemaak het: Stap in die navorsingsproses

Wat die onbevoegde navorser gedoen het

Identifiseer die populasie en die

Ons kan aanneem dat die amateur statistikus ’n idee

statistieke.

gehad het wie die populasie was. Hy het ook geweet dat die gemiddelde ouderdom vir die statistiek van belang was.

Onttrek ’n steekproef uit hierdie

Hier het die amateur statistikus reusefoute gemaak.

populasie.

Daar is geen manier dat hierdie steekproef verteenwoordigend van die populasie was nie. Die steekproef is in die eerste plek te klein. Tweedens het die (lui) amateur statistikus die eerste geleentheid wat opgeduik het, gebruik om ’n steekproef te versamel. Logika moes dit duidelik gemaak het dat die hele populasie nie uit mans tussen 50 en 60, wat deel van ’n rugbyspan gevorm het, sou bestaan nie. Hierdie is ’n eerste groot struikelblok in ons poging om gevolgtrekkings oor die populasie te maak. Die tipe gevolgtrekking wat die amateur statistikus gemaak het, is soortgelyk aan ’n stelling soos “omdat ’n groep van 21-jarige studente daarvan hou om ’n sportmotor te bestuur, sal driejarige kleuters ook daarvan hou.”

Bereken die nodige statistieke met

Hierdie deel het die amateur statistikus reg gedoen. Hy

die data wat in die steekproef

het ’n gemiddeld van 60.5 gevind. Dit was egter nie

voorkom.

genoeg nie. Enige gemiddeld moet met sorg ©akademia (MSW)| Hoofstuk 7: Vertrouensintervalle

187


Elementêre Kwantitatiewe Metodes geïnterpreteer word. Sonder ’n standaardafwyking is dit nie moontlik nie. Bepaal met watter vlak van

Die amateur statistikus het aangeneem dat sy vlak van

sekerheid jy die gevolgtrekkings

sekerheid 100% is. Dit was ’n reusefout.

oor die populasie wil maak. Doen nou ’n hipotesetoets of ’n

Die statistikus het hierdie stap geïgnoreer (of was nie

vertrouensinterval.

bewus van die stap nie).

Die amateur statistikus se gevolgtrekking is verkeerd en waardeloos. Vasvat het verkeerdelik na die raad geluister en hul bemarkingsveldtog op 60-jariges gefokus. Daar was geen 60-jariges in die steekproef nie!

7.2

Wat is ’n vertrouensinterval?

’n Statistikus moet vrede maak met die feit dat hy of sy nie met 100% sekerheid ’n stelling oor die populasie kan maak nie. Dit beteken nie dat ons geen stellings oor die populasie kan maak nie. Deur middel van ’n vertrouensinterval kan dit wel gedoen word. Gestel ons het ’n steekproef van 200 respondente (n = 200) met ’n gemiddelde ouderdom van 34.5 jaar en ’n standaardafwyking 11.5. Ons het ’n steekproef geneem en alles in ons vermoë gedoen om die steekproef so verteenwoordigend as moontlik te maak. Die amateur statistikus sou die volgende gesê het: Omdat die steekproefgemiddeld 34.5 is, kan ons aanneem dat die populasiegemiddeld ook 34.5 is. Hierdie stelling is nie noodwendig waar nie. Beskou die volgende, versigtiger stelling: Ons kan met 95% sekerheid sê dat die populasiegemiddeld tussen 32.91 en 36.09 jaar is. Hierdie stelling dui op ’n benadering van ’n populasiegemiddeld, gebaseer op die steekproefgemiddeld. Daar is ’n paar aspekte wat in hierdie stelling na vore kom: •

Die vlak van sekerheid: Die navorser wat hierdie stelling maak, het besluit dat hy/sy 95% seker wil wees dat die interval wat hy/sy gestel het (vir die populasiegemiddeld) wel korrek is. Dit is ’n subjektiewe keuse en word bepaal deur die aard van die navorsing (en die gevolge van ’n foutiewe aanname).

Die waardes 32.91 en 36.09: Hierdie waardes word met ’n formule bereken (en word hieronder bespreek). Die steekproef se gemiddeld, die vlak van sekerheid, die standaardafwyking en die steekproefgemiddeld is hiervoor gebruik.

Die verskil tussen die twee stellings – die ‘verkeerde’ en ‘korrekte’ stellings – kan dus grafies soos volg voorgestel word:

188

Hoofstuk 7: Vertrouensintervalle | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

VERKEERD

REG

Hierdie is my steekproefgemiddeld. Daarom

My steekproefgemiddeld is 34.5. Ek kan met

is dit ook my populasiegemiddeld:

95% sekerheid sê dat my populasiegemiddeld hier êrens lê:

|

|

|

|

|

|

33.5

34

34.5

35

35.5

36 |

|

|

|

|

|

32.9

33

33.5

34

34.5

35

|

|

35.5 36.09

Figuur 7.1: Gebruik ‘n steekproef om ‘n gevolgtrekking oor ‘n populasie te maak

Bereken ’n vertrouensinterval Die formule vir die onderste en boonste grens van ’n vertrouensinterval is: 7 √

μ = x̄ ± z

’n Ander wyse om hierdie formule voor te stel (as ’n interval) is: x̄ – z

7 √

7 √

≤ μ ≥ x̄ + z

waar: μ = die populasie se gemiddeld x̄ = die steekproef se gemiddeld z = die z-waarde wat ons in die z-tabel vind (ons benodig die vlak van sekerheid hiervoor) σ = die populasie se standaardafwyking (meer hieroor later) n = die steekproefgrootte Om die z-tabel en die z-statistiek te kan gebruik benodig ons die populasie se standaardafwyking (σ). As ons nie die populasie se standaardafwyking tot ons beskikking het nie, moet ons die steekproef se standaardafwyking(s) gebruik. Ons kan dan ook nie die z-statistiek en z-tabel gebruik nie, maar moet die t-statistiek en t-tabel gebruik. Ons sal wel ’n voorbeeld van beide gevalle doen.

©akademia (MSW)| Hoofstuk 7: Vertrouensintervalle

189


Elementêre Kwantitatiewe Metodes

Voorbeeld ’n Navorser wil bepaal wat die gemiddelde ouderdom van ’n sekere populasie is. Hy onttrek ’n ewekansige steekproef en doen alles in sy vermoë om die steekproef so verteenwoordigend van die populasie as moontlik te maak. Die navorser vind die volgende: •

Steekproefgemiddeld: 21.8 jaar

Steekproefgrootte: 144 respondente

Die navorser wil bepaal wat die populasiegemiddeld is. Hy wil 95% seker wees van hierdie gevolgtrekking. Bereken ’n vertrouensinterval vir die populasiegemiddeld. Jy kan aanneem dat die populasie se standaardafwyking 5.9 jaar is. Antwoord: Die formule vir die vertrouensinterval is:

x̄ – z

7

7

≤ μ ≥ x̄ + z

waar: μ = die populasie se gemiddeld x̄ = 21.8 z = die z-waarde wat ons in die z-tabel vind σ = die populasie se standaardafwyking = 5.9 n = 144 Stap 1: Bereken eers die z-waarde Ons het in Hoofstuk 5 gesien hoe ’n z-waarde bereken word as ons die oppervlakte (en dus waarskynlikheid) het. Beskou die volgende normaalverdeling:

190

Hoofstuk 7: Vertrouensintervalle | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

Waarskynlikheid dat die aanname korrek is Waarskynlikheid van ’n foutiewe aanname

Waarskynlikheid van ’n foutiewe aanname

95%

2.5%

2.5% z

0

z

Hierdie diagram dui aan hoe ons ’n gevolgtrekking oor die populasiegemiddeld gaan maak, gebaseer op die steekproefgemiddeld, en hoe akkuraat hierdie gevolgtrekking moet wees. As ons 95% seker wil wees dat die vertrouensinterval wat ons gaan skep, korrek is, is daar ’n 5% (0.05) kans dat ons aanname verkeerd gaan wees. Ons grense kan te hoog wees, maar dit kan ook te laag wees. Ons fout kan dus aan die linkerkant of regterkant van die verdeling plaasvind. Daarom verdeel ons die 5% tussen die twee kante van die normaalverdeling. Hierdie sal altyd die geval vir vertrouensintervalle wees. Ons vind dus die z-waardes wat op die grense tussen ’n korrekte en foutiewe aanname is. Verwys weer na Hoofstuk 5 oor hoe ons hierdie z-waardes bereken: •

Die normaalverdeling is simmetries. As ons dus die z-waarde aan die regterkant bereken, sal die z-waarde aan die linkerkant identies, maar negatief wees.

Ons weet dat die totale oppervlakte van die normaalverdeling 1 (dus 100%) is. Omdat die normaalverdeling simmetries is, is die oppervlakte aan die linkerkant en regterkant beide 50% (of 0.5). Die regterkantste deel van die verdeling sonder die 2.5% (of 0.025), is dus 0.5 – 0.025 = 0.475.

Ons vind nou die oppervlakte van 0.475 in die middel van die z-tabel. Die ry en kolom wat kruis by 0.475, verskaf dan aan ons die z-waarde. In hierdie geval kruis die ry by 1.9 en die kolom by 0.06 by die oppervlakte van 0.475. Dus is die z-waarde 1.96. Die z-waarde aan die linkerkant is dus -1.96. Dit sal soos volg op die bogenoemde grafiek aangedui word.

©akademia (MSW)| Hoofstuk 7: Vertrouensintervalle

191


Elementêre Kwantitatiewe Metodes

Waarskynlikheid dat die aanname korrek is Waarskynlikheid van ’n foutiewe aanname

Waarskynlikheid van ’n foutiewe aanname

95% 2.5% -1.96

0

2.5% 1.96

Stap 2: Bereken die vertrouensinterval Ons kan nou die vertrouensinterval met die formule bereken:

x̄ – z

7

<.=

√ 44

21.8 – 1.96

7

≤ μ ≥ x̄ + z

<.=

√ 44

≤ μ ≥ 21.8 + 1.96

21.8 – 0.964 ≤ μ ≥ 21.8 + 0.964 20.836 ≤ μ ≥ 22.764 Die steekproefgemiddeld was 21.8 jaar. Ons kan met 95% sekerheid sê dat die populasiegemiddeld tussen 20.836 en 22.764 lê.

Vlak van sekerheid en alfa(α α)-waarde Die vlak van sekerheid dui aan hoe seker ons oor ons gevolgtrekking oor die populasie wil wees. Dit sal dus gewoonlik 90%, 95% of 99% wees. Dit kan ook voorgestel word as waarskynlikhede van 0.9, 0.95 of 0.99. Die alfawaarde (voorgestel deur die simbool α) kan soms in plaas van die vlak van sekerheid gebruik word. Hierdie is die waarskynlikheid dat ons verkeerd gaan wees, met ander woorde die waarskynlikheid dat ons ’n fout sal maak. Hierdie waarde word as ’n waarskynlikheid verskaf en word bereken deur die vlak van sekerheid van 1 af te trek. Dus:

192

Hoofstuk 7: Vertrouensintervalle | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

Vlak van sekerheid

α

99% (of 0.99)

0.01

95% (of 0.95)

0.05

90% (of 0.90)

0.1

Probeer dit self ’n Navorser wil die gemiddelde salaris van ’n groep werknemers in ’n sekere beroep bepaal. Die navorser onttrek ’n steekproef van 225 werknemers en doen alles in haar vermoë om die steekproef so verteenwoordigend as moontlik te maak. Uit hierdie steekproef vind sy ’n gemiddelde salaris van R28 950. Jy kan aanneem dat die populasie se standaardafwyking R2 500 is. Bereken ’n vertrouensinterval vir die populasiegemiddeld deur ’n α-waarde van 0.05 te gebruik. Antwoord: Stap 1: Bepaal die z-waarde Die vlak van sekerheid is 95% (want die alfawaarde is 0.05). Ons het reeds die z-waarde in die vorige voorbeeld bereken – dit was ±1.96. Stap 2: Bereken die vertrouensinterval Die formule vir die vertrouensinterval is x̄ – z

;

√/

;

√/

≤ μ ≥ x̄ + z

waar: μ = die populasie se gemiddeld x̄ = 28 950 z = 1.96 σ = die populasie se standaardafwyking = 2 500 n = 225 Dus:

©akademia (MSW)| Hoofstuk 7: Vertrouensintervalle

193


Elementêre Kwantitatiewe Metodes <

28 950 – 1.96

√ <

<

≤ μ ≥ 28 950 + 1.96

√ <

28 950 – 326.67 ≤ μ ≥ 28 950 + 326.67 R28 623.33 ≤ μ ≥ R29 276.67 Ons kan dus met 95% sekerheid sê dat die populasie se gemiddeld tussen R28 623.33 en R29 276.67 lê.

Hoe beïnvloed die verskillende veranderlikes die vertrouensinterval? Die steekproefgemiddeld: Die steekproefgemiddeld (byvoorbeeld R28 950 in die voorbeeld hierbo) sal altyd presies in die middel van die vertrouensinterval lê. Dit maak sin omdat ons presies dieselfde waarde ;

(z /) by die steekproefgemiddeld tel en van die steekproefgemiddeld aftrek om die twee √

grense van die vertrouensinterval te vind. Die steekproefgemiddeld beïnvloed dus nie die grootte van die vertrouensinterval nie, maar dui aan waar die middelpunt van hierdie interval sal wees. Die vlak van sekerheid: Hoe groter ons vlak van sekerheid is, hoe meer moontlike waardes sal ons in die vertrouensinterval moet insluit om seker te maak dat ons nie ’n verkeerde afleiding maak nie. ’n Verhoging in die vlak van sekerheid sal dus ’n vergroting in die vertrouensinterval tot gevolg hê. Kyk na die volgende vertrouensintervalle. Elk is bereken met ’n gemiddeld van 10, ’n standaardafwyking van 1 en ’n steekproefgrootte (n) van 144. Die vlakke van sekerheid verskil egter vir elk:

Vlak van sekerheid

Vertrouensinterval: onderste grens

Vertrouensinterval: bogrens

Grootte van interval (bogrens – ondergrens)

90%

9.86

10.14

0.28

95%

9.84

10.16

0.32

99%

9.79

10.21

0.42

Dit is dus duidelik dat die vertrouensinterval vergroot het soos wat die vlak van sekerheid

194

Hoofstuk 7: Vertrouensintervalle | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes verhoog is. Standaardafwyking: Die standaardafwyking het ook ’n invloed op die grootte van die vertrouensinterval. Onthou: die standaardafwyking is ’n aanduiding van hoe die waardes rondom die gemiddeld versprei is. Met ’n klein standaardafwyking is die verskillende waardes naby aan die gemiddeld versprei. Met ’n groot standaardafwyking is die waardes verder van die gemiddeld af. Dit maak dus sin dat, as die data wyd verspreid is ten opsigte van die gemiddeld, die vertrouensinterval ook ’n groter area sal moet dek. Om hierdie punt statisties te demonstreer, beskou die volgende vertrouensintervalle. Die steekproefgemiddeld van 10 is gebruik, met ’n steekproefgrootte van n = 144. Die vlak van sekerheid is op 95% gehou. Die standaardafwyking is telkens verander.

Vertrouensinterval: Standaardafwyking onderste grens

Vertrouensinterval: bogrens

Grootte van interval (bogrens – ondergrens)

2

9.67

10.33

0.66

4

9.35

10.65

1.3

6

9.02

10.98

1.94

12

8.04

11.96

3.92

Die steekproefgrootte: Groter steekproewe is dikwels meer verteenwoordigend van die populasie omdat dit meer moontlike elemente wat in die populasie voorkom, bevat. Om hierdie rede sal ’n groter steekproef die risiko van ’n verkeerde afleiding verminder. En omdat die kans vir ’n fout kleiner is, sal ’n groter steekproef ook die afleidings ten opsigte van die populasie meer akkuraat maak. Soos wat die steekproef groter raak, sal die vertrouensinterval dus kleiner word. Beskou die volgende vertrouensintervalle. Die steekproefgemiddeld is 10, die standaardafwyking is 1, die vlak van sekerheid is 95%. Die steekproefgrootte verander telkens. Steekproefgrootte (n)

Vertrouensinterval: onderste grens

Vertrouensinterval: bogrens

Grootte van interval (bogrens – ondergrens)

10

9.38

10.62

1.24

©akademia (MSW)| Hoofstuk 7: Vertrouensintervalle

195


Elementêre Kwantitatiewe Metodes

100

9.8

10.2

0.4

1 000

9.94

10.06

0.12

1 000 000

9.998

10.002

0.004

Bereken ’n vertrouensinterval as σ onbekend is Al die probleme wat ons hierbo opgelos het, aanvaar dat die populasie se standaardafwyking bekend is. Dit is natuurlik selde die geval in ’n navorsingsprojek. Soos wat die steekproef se gemiddeld gebruik moet word om die populasie se gemiddeld te benader, sal ons ook in die meeste gevalle die steekproef se standaardafwyking bereken. As ons egter nie die populasie se standaardafwyking gebruik nie, kan ons nie die z-toets gebruik nie. Ons sal dus die alternatief, die t-waarde, moet bereken. Die t-tabel werk op ’n soortgelyke wyse as die z-tabel. Ons benodig egter die volgende om ’n t-waarde te bereken: •

Die grade van vryheid (df). Die grade van vryheid word bereken as n – 1. Vir 'n steekproef van 20 respondente sal die grade van vryheid dus 20 – 1 = 19 wees. Let daarop dat daar verskillende gevalle is waar die t-toets gebruik moet word. Dit is soms moontlik dat ’n ander formule vir die grade van vryheid sal bestaan, afhangende van waarvoor die toets gebruik word. Vir die doel van ’n vertrouensinterval sal die grade van vryheid altyd een minder as die steekproefgrootte, of n, wees.

Die α-waarde. Soos reeds genoem, word α verkry deur 1 minus die vlak van sekerheid. Vir 95% sekerheid sal α 0.05 wees. Ons sal egter steeds die α-waarde deur twee deel omdat ’n fout by ons vertrouensinterval aan beide kante van die normaalverdeling kan voorkom.

Die t-tabel lyk ook anders as die z-tabel. Waar die z-tabel die verskillende oppervlaktes in die middel gehad het, het die t-tabel slegs die α-waardes van 0.1, 0.05, 0.025, 0.01, 0.005 en 0.0025. Hierdie waardes word as kolom-opskrifte gebruik (en is dus nie in die binnekant van die tabel nie). Onthou dat ’n vertrouensinterval tweekantig is. Soos wat ons die alfawaarde in twee gedeel het met die berekening van die z-waarde, sal ons ook die alfawaarde in twee deel met die vind van ’n t-waarde. Die rye stel elk ’n verskillende graad van vryheid voor. Die binnekant van die tabel bevat al die t-waardes. Dit is die waarde waarna ons op soek is. Om die t-waarde te vind, doen die volgende:

196

Hoofstuk 7: Vertrouensintervalle | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes •

Maak seker dat jy die korrekte α-waarde het. Vir vertrouensintervalle word hierdie waarde deur twee gedeel omdat ’n vertrouensinterval tweekantig is. Dus sal 95% sekerheid ’n α-waarde van 0.05 gee, maar ons sal dit deur twee deel vir die vind van ons t-waarde: dus α = 0.025.

Vind nou die kolom wat deur hierdie α-waarde voorgestel word.

Bereken nou die grade van vryheid. Gestel ons het ’n steekproefgrootte van n = 25, dan sal die grade van vryheid 25 – 1 = 24 wees.

Vind nou die ry wat deur die grade van vryheid voorgestel word, dus die df = 24 ry.

Waar hierdie ry (df = 24) en kolom (α = 0.025) kruis, word die t-waarde gevind (in hierdie geval t = 2.064).

Voorbeeld ’n Navorser wil bepaal wat die ouderdom van ’n sekere populasie is. Die navorser identifiseer ’n ewekansige steekproef en bereken die volgende: •

Steekproefgemiddeld: 21.8

Steekproef-standaardafwyking: 5.9

Steekproefgrootte (n): 40

Bereken, teen ’n 95% vlak van sekerheid, ’n vertrouensinterval vir die populasiegemiddeld. Antwoord: Ons het nie die populasie-standaardafwyking (σ) nie, wat beteken dat ons die t-waarde gaan moet bereken (en nie die z-waarde nie). Die formule vir die vertrouensinterval moet nou aangepas word om die steekproef-standaardafwyking en die t-waarde te reflekteer. Die beginsels bly egter dieselfde: * √

x̄ – t

* √

≤ μ ≥ x̄ + t

waar: μ = die populasie se gemiddeld x̄ = die steekproef se gemiddeld t = die t-waarde wat ons in die t-tabel vind s = die steekproef se standaardafwyking n = die steekproefgrootte ©akademia (MSW)| Hoofstuk 7: Vertrouensintervalle

197


Elementêre Kwantitatiewe Metodes

Stap 1: Vind die t-waarde Soos hierbo verduidelik, benodig ons die α-waarde en die steekproefgrootte (n) om die twaarde te bereken: α = 0.05. Omdat ons ’n vertrouensinterval bereken (wat tweekantig is) moet ons die

α deur 2 deel: 0.05 / 2 = 0.025. Die steekproefgrootte is 40. Die grade van vryheid is: df = n – 1 = 40 – 1 = 39

Ons gaan soek nou die kolom waar α = 0.025 en die ry waar df = 39. Waar hierdie ry en kolom kruis, vind ons die t-waarde. Die t-waarde is 2.023. Stap 2: Vind die vertrouensinterval Ons vervang nou die waardes in die formule van die vertrouensinterval. *

x̄ – t

<.=

√4

21.8 – 2.2023

*

≤ μ ≥ x̄ + t

<.=

√4

≤ μ ≥ 21.8 + 2.2023

21.8 – 2.054 ≤ μ ≥ 21.8 + 2.054 19.746 ≤ μ ≥ 23.854 Ons kan dus met 95% sekerheid sê dat die populasiegemiddeld tussen 19.746 en 23.854 lê.

Probeer dit self ’n Navorser wil bepaal hoeveel geld kliënte op ’n maandelikse basis by ’n sekere winkel spandeer. Die populasie is natuurlik baie groot en die begroting vir die navorsingsprojek is klein. Die navorser besluit dus om ’n steekproef van 36 kliënte te neem. Hy vind ’n gemiddelde bedrag van R510 met ’n steekproef-standaardafwyking van R120. Bereken, teen ’n 90% vlak van sekerheid ’n vertrouensinterval vir die populasiegemiddeld. Antwoord: Omdat ons nie die populasie se standaardafwyking het nie, sal ons die t-waarde en dus die t-toets moet gebruik. Stap 1: Vind die t-waarde Die vlak van sekerheid is 90%. Dit beteken ’n α-waarde van 0.1. Omdat ons egter ’n

198

Hoofstuk 7: Vertrouensintervalle | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes vertrouensinterval (wat tweekantig is) wil bereken, moet ons die α-waarde in twee deel. Die α-waarde wat ons gaan gebruik om die t-waarde te vind, is dus 0.1 / 2 = 0.05. Die steekproefgrootte is 36. Die grade van vryheid is dus: df = n – 1 = 36 – 1 = 35 Die t-waarde op die plek waar die α = 0.05 kolom en die df = 35 kruis, is: 1.690 Stap 2: Vind die vertrouensinterval Die formule vir die vertrouensinterval wat t-waardes gebruik is: *

x̄ – t

√85

510 – 1.690

*

≤ μ ≥ x̄ + t

√85

≤ μ ≥ 510 + 1.690

510 – 33.8 ≤ μ ≥ 510 + 33.8 476.20 ≤ μ ≥ 543.80 Ons kan dus met 90% sekerheid sê dat die gemiddelde kliënt in die populasie tussen R476.20 en R543.80 per maand by die spesifieke winkel spandeer.

Probeer self ’n Navorser wil bepaal hoeveel boeke hoërskoolleerders per jaar lees. Hy vind ’n steekproef van die populasie. Hy vra vir elk van die leerders in die steekproef om aan te dui hoeveel boeke hulle in die laaste jaar gelees het. Hy vind die volgende resultate:

RESPONDENT

HOEVEEL BOEKE

RESPONDENT

HOEVEEL BOEKE

Respondent 1

7

Respondent 13

6

Respondent 2

8

Respondent 14

3

Respondent 3

20

Respondent 15

3

Respondent 4

13

Respondent 16

5

Respondent 5

11

Respondent 17

8

©akademia (MSW)| Hoofstuk 7: Vertrouensintervalle

199


Elementêre Kwantitatiewe Metodes

Respondent 6

4

Respondent 18

4

Respondent 7

7

Respondent 19

2

Respondent 8

3

Respondent 20

21

Respondent 9

8

Respondent 21

3

Respondent 10

4

Respondent 22

4

Respondent 11

7

Respondent 23

2

Respondent 12

9

Respondent 24

19

Respondent 25

7

Bereken, teen ’n 90% vlak van sekerheid, ’n vertrouensinterval vir die gemiddelde hoeveelheid boeke wat die populasie in die laaste jaar gelees het. Antwoord: Hierdie vraag mag intimiderend voorkom, maar dit hoef nie die geval te wees nie. Die enigste opsig waarin hierdie vraag van die vorige vraag verskil, is die feit dat jy self die waardes wat ons vir die formule benodig, moet bereken. Die waardes wat ons benodig, word in die volgende tabel opgesom:

Waarde benodig

Waar vind ons dit?

Steekproefgemiddeld

Kan bereken word met data

Steekproef-standaardafwyking

Kan bereken word met data

Steekproefgrootte

Kan bereken word met data

t-waarde

Kan bereken word met α, n en df

α

Kan van vlak van sekerheid afgelei word

df

Kan bereken word met steekproefgrootte

Steekproefgemiddeld: Soos reeds aan die begin van hierdie hoofstuk bespreek is, word die steekproefgemiddeld bereken deur al die waardes bymekaar te tel en te deel deur n (in hierdie geval 25 omdat daar 25 waardes in die steekproef is). Jy behoort ’n antwoord van 8 boeke te vind. x̄ = 8

200

Hoofstuk 7: Vertrouensintervalle | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

Steekproef-standaardafwyking: Deur die formule vir ’n standaardafwyking (verwys na Hoofstuk 3) te gebruik, word ’n steekproef-standaardafwyking van 5.463 gevind. s = 5.463 Steekproefgrootte: Die steekproefgrootte word gevind deur bloot die hoeveel respondente te tel. In hierdie geval is dit 25. n = 25 t-waarde: Om die t-waarde te bereken benodig ons eerstens die grade van vryheid: df = n – 1 = 25 – 1 = 24 Ons benodig ook die α-waarde. Hierdie waarde kan van die vlak van sekerheid afgelei word. Die vlak van sekerheid is 90% (of 0.9), dus is die α-waarde 0.1. ’n Vertrouensinterval neem egter moontlik foute aan beide kante van die normaalverdeling in ag, daarom sal ons die αwaarde deur twee deel om een kant se t-waarde te vind. In die tabel sal ons dus die αwaarde van 0.05 gebruik. Die plek in die t-tabel waar die 0.05-kolom en die 24-ry kruis, gee aan ons ’n t-waarde van 1.711. t = 1.711 Ons kan nou die formule van die vertrouensinterval hier toepas: *

x̄ – t

<.458

8 – 1.711

√ <

*

≤ μ ≥ x̄ + t

<.458

≤ μ ≥ 8 + 1.711

√ <

6.131 ≤ μ ≥ 9.869

©akademia (MSW)| Hoofstuk 7: Vertrouensintervalle

201


Elementêre Kwantitatiewe Metodes

7.3

Ten slotte

’n Vertrouensinterval is ’n nuttige statistiese hulpmiddel wat ons kan gebruik om die omgewing van die populasiegemiddeld te skat. Hierdie hulpmiddel het natuurlik sekere beperkings. In die eerste plek word die akkuraatheid van die vertrouensinterval direk beïnvloed deur hoe verteenwoordigend die steekproef van die populasie is. As die regte stappe om verteenwoordiging te verseker nie gevolg word nie, sal selfs ’n vertrouensinterval van 90% steeds nie die nodige akkuraatheid verskaf nie. In die tweede plek word die vertrouensinterval beïnvloed deur die arbitrêre keuse van ’n vlak van sekerheid. Die vertrouensinterval sal die onder- en bogrense verskaf, maar dit is steeds die verantwoordelikheid van die navorser om te bepaal met watter vlak van sekerheid hierdie vertrouensinterval bereken moet word. Dit kan ’n moeilike keuse wees. Gestel ’n vertrouensinterval se grense is 10 en 20 teen ’n 99% vlak van sekerheid. Hoewel daar slegs ’n 5% kans is dat die werklike populasiegemiddeld buite hierdie grense sal val, is dit steeds ’n moontlikheid. Die navorser moet dus bepaal wat ’n foutiewe vertrouensinterval (ongeag van hoe hoog die vlak van sekerheid is) se gevolge sal wees. Die volgende hoofstukke fokus op hipotesetoetse. Elk van die hipotesetoetse wat in die volgende vyf hoofstukke bespreek gaan word, sal dieselfde vyf stappe volg. Elk van die hipotesetoetse sal egter vir ’n ander scenario gebruik word. Maak seker dat jy verstaan in watter situasie watter hipotesetoets gebruik word. ’n Hipotesetoets is anders as ’n vertrouensinterval, omdat dit ’n spesifieke stelling toets. Kyk na die verskil tussen die twee maatstawwe: Voorbeelde van vrae wat elk beantwoord: Vertrouensinterval: Wat is die grense waarin ek die populasie se gemiddeld sal aantref indien ek 95% seker wil wees dat ek nie ’n fout maak nie? Hipotesetoets: Kan ek met 95% sekerheid sê dat die populasie se gemiddeld groter as 20 is? Voorbeelde van antwoorde wat deur elk verskaf word: Vertrouensinterval: Die populasiegemiddeld sal tussen 10.55 en 15.98 voorkom. Ek kan hierdie stelling met 95% sekerheid maak. Hipotesetoets: Daar is voldoende bewyse om, teen ’n 95% vlak van sekerheid, te aanvaar dat die populasiegemiddeld groter is as 20. Hoofstuk 8 sal hipotesetoetsing beskryf.

202

Hoofstuk 7: Vertrouensintervalle | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

HOOFSTUK 8: HIPOTESETOETSING VAN EEN VERANDERLIKE

Onderwerpe 8.1

Wat is ‘n hipotesetoets?

8.2

‘n Hipotesetoets vir een veranderlike

8.3

Hipotesetoets vir een veranderlike; populasiestandaardafwyking bekend

8.4

Hipotesetoets vir een veranderlike; populasiestandaardafwyking onbekend

8.5

Sonja se hipotese

©akademia (MSW)| Hoofstuk 8: Hipotesetoetsing van een veranderlike

203


Elementêre Kwantitatiewe Metodes

Gevallestudie… Sonja se kantoor is uniek. Vir ’n buitestaander sal dit soos absolute chaos lyk. Haar kollegas word egter nie deur die hope papier, lêers en ornamente om die bos gelei nie. Sonja weet presies wat en waar alles is. Sy word ook deur haar kollegas gerespekteer as iemand wat weet wat sy doen. Michael is egter nie een van daardie kollegas nie. Hy staan ’n oomblik in die deur en kyk na die chaos. Sonja is op die foon besig met iemand wat soos ’n voornemende kliënt klink. Die kantoor is betreklik klein, met meer stoele as wat raadsaam is. Nie dat dit saak maak nie. Twee van die stoele is weggesteek onder ’n berg van promosie-artikels. Sonja beduie vir Michael om te sit en hy kan nie help om te lag nie. Met die uitsondering van die vloer in die hoekie naby die deur, is daar geen plek vir hom om te sit nie. “Ja, ons kan dit in die kontrak insluit,” sê Sonja. “Dis geen probleem nie. Ek e-pos die kontrak sommer dadelik.” Sy luister terwyl sy vinnig iets op die rekenaar tik. “Ja, dit sal ook ingesluit wees. Die e-pos behoort binne ’n minuut of wat by julle te wees. Reg so. Totsiens.” “Klink soos ’n suksesvolle transaksie,” sê Michael. “Net so oor die driehonderdduisend rand,” antwoord sy. “En dit is een van die kleintjies.” Michael se oë rek. “Hoeveel geld maak die maatskappy.” “Vertroulike inligting. Maar glo my, dit is genoeg. As ek nie kommissie gekry het nie, sou ek vir ’n verhoging gevra het.” “Ek hoop jy het my laat kom oor die vakansie.” Sonja se oproep aan Michael was baie kort en die boodskap kripties. “Ongelukkig nie. Ek het jou raad nodig.” Michael probeer sy teleurstelling verberg. Hy sou ’n oorsese vakansie geniet het. Sonja kom niks agter nie en pluk ’n lêer behendig onder ’n groot stapel uit. Dat die hoop lêers nie omval nie, is ’n wonderwerk. “Ons het ons eie stukkie navorsing gedoen. En ek...” Sy stop as sy sien dat Michael effe verlore in die middel van die vertrek staan. Sy spring op en haal ’n pak pamflette van een van die stoele af. “Ekskuus, ons het ’n groot ekspo en ek wil nie hierdie goed in ’n stoorkamer gaan bêre nie.” Sy wag ’n oomblik tot Michael gaan sit het en verduidelik verder. “Ons wou kyk hoeveel die gemiddelde maatskappy op navorsing spandeer. Na aanleiding van ons gesprek oor steekproewe het ons alles in ons vermoë probeer doen om ’n verteenwoordigende steekproef te kry.”

204

Hoofstuk 8: Hipotesetoetsing van een veranderlike | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

“Wie was julle populasie en wie was die steekproef?” Michael is dadelik geïnteresseerd. “Die populasie is alle medium en groot maatskappye in die hoofstede van die nege provinsies wat by die stad se mees prominente handelskamer geregistreer is.” “Steekproefraamwerk?” “Ons was gelukkig. Al die handelskamers het vir ons ’n lys van hul lede gestuur. Die lyste mag dalk ’n maand of ses verouderd wees, maar dit is oor die algemeen redelik akkuraat – as ons die handelskamers mag glo.” “Hoe groot was die finale steekproef?” “Ons het sewehonderd maatskappye genader. Tweehonderd-en-een maatskappye het ons vrae beantwoord.” “Het hulle sonder meer hul finansiële state aan julle beskikbaar gestel?” vra Michael in ongeloof. “Nee, ons het nie ’n spesifieke bedrag gevra nie,” antwoord Sonja. “Ons wou net weet watter persentasie van hul totale uitgawes aan navorsing spandeer word. En die meeste maatskappye het nie ’n probleem gehad om daardie inligting te verskaf nie.” “Interessant. Ek sou dink dat hulle baie meer geheimsinnig sou wees. Wat was die resultate?” wil hy weet “Ek het gewag vir daardie vraag. Dit is waar ons jou hulp nodig het.” Sy oorhandig ’n dokument aan Michael. “Hierdie is ons steekproefdata.” Michael sien die volgende: Steekproefgrootte(n): 201 Steekproefgemiddeld: 4.874 Steekproef-standaardafwyking: 1.25 Sonja verduidelik: “Ek het 'n artikel gelees waar soortgelyke navorsing gedoen is. Die navorsers het na ’n aantal ontwikkelende lande gekyk en gevind dat die medium en groot sakeondernemings in daardie lande minder as vyf persent van hul jaarlikse uitgawes aan navorsing toeken. Ek wou kyk of ons dieselfde resultate in Suid-Afrika sou vind.” “Ek sien,” antwoord Michael. “En jy wou nie sonder meer aanneem dat jou resultate die vorige navorsing ondersteun nie?” “Die standaardafwyking is redelik groot as dit met die gemiddeld vergelyk word. Ek is ook nie gemaklik met die relatief klein steekproef nie. My steekproefgemiddeld is kleiner as vyf, ©akademia (MSW)| Hoofstuk 8: Hipotesetoetsing van een veranderlike

205


Elementêre Kwantitatiewe Metodes maar nie soveel kleiner dat ek sonder meer my resultaat op die populasiegemiddeld van toepassing kan maak nie. Sê nou my gemiddeld is net kleiner as vyf as gevolg van my steekproefneming?” “Dit is ’n baie geldige vraag. En dit is die vraag wat ’n statistikus van ’n amateur skei. Die amateur sou na die steekproefgemiddeld gekyk het en sonder meer besluit het dat die populasiegemiddeld ook minder as vyf persent is. Die statistikus sal eers ’n hipotesetoets doen.” “Wat?” “Hipotesetoetsing. Kom ek wys jou.” Michael trek ’n vel papier nader en begin verduidelik.

8.1

Wat is ’n hipotesetoets?

’n Hipotese is ’n stelling wat waar of vals kan wees. Hierdie hipotese is gewoonlik iets wat van belang is vir die navorser en wat deur ’n statistiese berekening getoets kan word. Voorbeeld van hipoteses sluit in: •

By Hoërskool X is die gemiddelde punt in Wiskunde laer as die gemiddelde punt in Wetenskap.

Die gemiddelde ouderdom van ’n universiteitstudent is laer as 25.

Daar is geen verskil tussen die gemiddelde ouderdom van manlike en vroulike direkteure van openbare maatskappye nie.

’n Goeie hipotese sal slegs een aspek toets. ’n Hipotese wat stel dat “die gemiddelde ouderdom van students sal hoër as 25 wees en nie dieselfde as die gemiddelde ouderdom van skoliere wees nie”, toets inderwaarheid meer as een aspek en is nie ’n goeie hipotese nie. Onthou: die hipotese in sy totaliteit gaan waar of vals wees. ’n Hipotesetoets bepaal of die hipotese aanvaar kan word al dan nie. Om ’n hipotesetoets te doen word die volgende veranderlikes vereis: •

Vlak van sekerheid (en α-waarde). Die navorser moet besluit hoe seker hy/sy wil wees dat, as die hipotese aanvaar word, hierdie aanname korrek sal wees. Soos ons reeds vroeër genoem het, kan ons nooit 100% seker wees dat ’n aanname wat ons oor die populasie maak, korrek sal wees nie. Tipiese vlakke van sekerheid is 0.99, 0.95 en 0.90 (of 99%, 95%, en 90%). Die α-waarde word weereens verkry deur die vlak van sekerheid van 1 af te trek. Dus sal 0.99, 0.95 en 0.90 α-waardes van 0.01, 0.05 en 0.1 respektiewelik hê.

206

Hoofstuk 8: Hipotesetoetsing van een veranderlike | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes •

’n Kritiese waarde. Die kritiese waarde maak gebruik van die tabelle (byvoorbeeld die t-tabel en z-tabel), asook die vlak van sekerheid (of α-waarde). Die doel van die kritiese waarde word hieronder bespreek.

’n Toetsstatistiek: Afhangende van die tipe toets, kan hierdie ’n z-statistiek, tstatistiek, F-statistiek of χ-statistiek wees. Elke toetsstatistiek het ’n formule wat bepaal word deur die aard van die hipotesetoets. In hierdie hoofstuk sal ons slegs die z-statistiek en die t-statistiek gebruik.

Die hipotesetoets sal dan die toetsstatistiek met die kritiese waarde vergelyk en op grond van hierdie vergelyking die hipotese verwerp of aanvaar.

8.2

’n Hipotesetoets vir een veranderlike

In hierdie hoofstuk (en in Sonja se probleem wat hierbo bespreek word), het ons te doen met ’n hipotesetoets wat ’n enkele veranderlike met ’n spesifieke getal vergelyk. Hierdie veranderlike is ’n steekproefgemiddeld. Die tipe hipotese wat hier ter sprake is, toets die stelling dat ’n populasiegemiddeld groter as, gelyk aan, of kleiner as ’n sekere getal is. Voorbeelde van hipoteses, in hierdie geval, sluit in: •

Die populasiegemiddeld is kleiner as 50

Die populasiegemiddeld is groter as 76

Die populasiegemiddeld is gelyk aan 100

Omdat ons nie weet wat die populasiegemiddeld is nie, en ons slegs die steekproefgemiddeld het om die populasiegemiddeld te benader, moet ’n hipotesetoets gedoen word. ’n Hipotesetoets bestaan uit die volgende stappe: •

Stap 1: Definieer die nul- en alternatiewe hipotese

Stap 2: Vind die kritiese waarde en area van aanvaarding

Stap 3: Vind die toetsstatistiek

Stap 4: Besluit of nulhipotese verwerp kan word

Stap 5: Maak ’n gevolgtrekking

Belangrik: Die stappe wat hierbo gevolg word, geld vir elke hipotesetoets wat ons in hierdie gids doen. Die inhoud van elke stap sal verskil, afhangende van die aard van die toets. ©akademia (MSW)| Hoofstuk 8: Hipotesetoetsing van een veranderlike

207


Elementêre Kwantitatiewe Metodes Elke stap word in meer besonderhede hieronder bespreek: Stap 1: Definieer die nul- en alternatiewe hipotese Om ’n stelling statisties te toets, moet die stelling in twee hipoteses opgedeel word, die nulhipotese en die alternatiewe hipotese. Die nulhipotese verteenwoordig die status quo, tipies die stelling wat sal aanvaar word as ons navorsing “niks” gevind het nie. Om dit meer eenvoudig te stel: •

Die alternatiewe hipotese sal die besigheidsprobleem (dit was ons wil toets) bevat.

Die nulhipotese sal die teenoorgestelde van die alternatiewe hipotese wees.

Die enigste uitsondering in hierdie geval is waar ’n =-teken in ’n hipotese voorkom. Die nulhipotese sal altyd die =-teken bevat.

Voorbeeld Vraag 1: ’n Navorser vermoed dat die gemiddelde ouderdom van kliënte van ’n maatskappy groter as 50 sal wees. Stel die nul- en alternatiewe hipotese. Antwoord 1: Die alternatiewe hipotese sal die besigheidsprobleem bevat. In hierdie geval is die navorser se stelling (of besigheidsprobleem): “Die gemiddelde ouderdom van die populasie is ouer as 50.” Die nul- en alternatiewe hipotese (voorgestel deur H0 en H1 onderskeidelik), sal soos volg wees: H0: μ ≤ 50 H1: μ > 50 Let daarop dat die nul- en alternatiewe hipoteses alle moontlike opsies bevat. Die waarskynlikheid dat die H0 of H1 waar is, is dus 1 (of 100%). Jy sal ook sien dat die nulhipotese (H0) die =-teken bevat. (μ ≤ 50 beteken dieselfde as “μ < 50 of μ = 50”.) Vraag 2: ’n Navorser vermoed dat die gemiddelde salaris van ’n sekere populasie kleiner is as R10 000 per maand. Stel die nul- en alternatiewe hipotese. Antwoord 2: Die besigheidsprobleem (wat die navorser vermoed) is dat die populasie se gemiddeld kleiner is as R10 000. Dit is dus die alternatiewe hipotese.

208

Hoofstuk 8: Hipotesetoetsing van een veranderlike | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

H0: μ ≥ 10 000 H1: μ < 10 000 Weereens is die alternatiewe hipotese en nulhipotese die presiese teenoorgesteldes van mekaar. Vraag 3: ’n Navorser vermoed dat die gemiddelde punt wat studente vir ’n toets behaal het, 65 is. Stel die nul- en alternatiewe hipoteses. Antwoord 3: Hierdie vraag verskil van die vorige twee omdat daar ’n =-teken in die besigheidsprobleem voorkom: Die navorser vermoed dat μ = 65. Hierdie is ’n uitsondering op die reël dat die besigheidsprobleem die alternatiewe hipotese vorm, omdat die nulhipotese altyd die =-teken sal bevat. In hierdie geval sal die hipoteses soos volg lyk: H0: μ = 65 H1: μ ≠ 65

Die doel van die hipotesetoets is om te kyk of daar voldoende statistiese bewys is om die nulhipotese te verwerp. Die uitslag van ’n hipotesetoets sal dus altyd een van die volgende wees: •

Daar is voldoende statistiese bewys (statistical support) om die nulhipotese te verwerp ten gunste van die alternatiewe hipotese.

Daar is nie voldoende bewys om die nulhipotese te verwerp nie.

Ons sê dus nie “ek aanvaar die alternatiewe hipotese” nie. Hierdie bewoording sal in meer besonderhede tydens Stap 4 en Stap 5 bespreek word.

Linkskantige, regskantige en tweekantige hipoteses ’n Hipotese kan linkskantig, regskantig of tweekantig wees. Hierdie onderskeid is belangrik, omdat dit die kritiese waarde wat ons in Stap 2 bereken, beïnvloed. Die alternatiewe hipotese bied vir ons ’n aanduiding of ’n hipotese linkskantig, regskantig of tweekantig is. Die volgende voorbeelde dui aan wanneer ’n hipotesetoets linkskantig, regskantig of tweekantig is. Moenie bekommerd wees as jy nie die notas op die grafiek verstaan nie – dit word meer breedvoerig in Stap 2 tot Stap 5 bespreek.

©akademia (MSW)| Hoofstuk 8: Hipotesetoetsing van een veranderlike

209


Elementêre Kwantitatiewe Metodes Regskantig H1 = μ > 50 Hierdie is ’n regskantige hipotese. Die toets kan grafies soos volg voorgestel word (meer inligting hieroor tydens Stap 2): As die z-stat hier val, word my H0 nie verwerp nie.

As die z-stat in hierdie area val, word H0 verwerp.

z-crit

Figuur 8.1: Grafiese voorstelling van ’n regskantige hipotesetoets Linkskantig H1 = μ < 50 Hierdie is ’n linkskantige hipotesetoets. Die toets kan grafies soos volg voorgestel word: As die z-stat hier val, word my H0 nie verwerp nie. As die z-stat in hierdie area val, word H0 verwerp.

z-crit

Figuur 8.2: Grafiese voorstelling van ’n linkskantige hipotesetoets

210

Hoofstuk 8: Hipotesetoetsing van een veranderlike | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes Tweekantig H1 = μ ≠ 50 As die z-stat hier val, word my H0 nie verwerp nie. As die z-stat in hierdie area val, word H0 verwerp.

As die z-stat in hierdie area val, word H0 verwerp.

z-crit

z-crit

Figuur 8.3: Grafiese voorstelling van ’n tweekantige hipotesetoets

Stap 2: Vind die kritiese waarde en area van aanvaarding Vir die toets van ’n hipotesetoets met een veranderlike, sal ons die t-toets of z-toets gebruik. Hiervoor sal ons dus die z-tabel of t-tabel gebruik: •

Indien die populasie-standaardafwyking bekend is, sal ons kritiese waarde ’n zwaarde wees. Hierdie kritiese waarde word kortliks as z-crit voorgestel.

Indien die populasie-standaardafwyking nie bekend is nie, sal ons kritiese waarde ’n t-waarde wees. Hierdie kritiese waarde word kortliks as t-crit voorgestel.

Vir die doel van hierdie verduideliking van die stappe van ’n hipotesetoets sal ons slegs na die z-toets verwys. Met die voorbeelde wat daarop volg, sal beide die z-toets en t-toets egter in meer besonderhede bespreek word.

Voorbeeld 1: Bepaal ’n kritiese waarde (z-crit) Beskou die volgende hipoteses: H0: μ ≤ 50 H1: μ > 50 ©akademia (MSW)| Hoofstuk 8: Hipotesetoetsing van een veranderlike

211


Elementêre Kwantitatiewe Metodes

Die navorser wil die hipotese toets teen ’n 95% vlak van sekerheid. Om die kritiese waarde te bereken benodig ons die vlak van sekerheid. Ons moet ook weet of dit ’n eenkantige of tweekantige hipotesetoets is. Uit die alternatiewe hipotese kan ons sien dat dit wel ’n eenkantige hipotesetoets is. Die hipotesetoets sal dus grafies voorgestel kan word as: As die z-stat hier val, word my H0 nie verwerp nie.

As die z-stat in hierdie area val, word H0 verwerp.

95% 5% z-crit

Ons moet nou bepaal wat die z-crit is. Hoe sal ons dit doen? Ons weet die volgende van die bogenoemde normaalverdeling: •

Die hele normaalverdeling se oppervlakte is 1.

Ons wil 95% seker wees dat ons nie die nulhipotese verkeerdelik verwerp nie. Daarom is die groot area (area van aanvaarding) 0.95. Die kleiner area stel dus die oorblywende 0.05 van die area voor.

Ons het reeds geleer hoe om die z-waarde te bepaal as ons die oppervlakte het. Ons sal slegs die regterkant van die normaalverdeling gebruik. Omdat die normaalverdeling simmetries is, is die regterkant van die verdeling 0.5. Ons weet dat die deel regs van z-crit 0.05 is. Dus is die oppervlakte tussen die gemiddeld en die z-crit 0.45. Deur hierdie oppervlakte in die z-tabel op te soek, vind ons ’n z-waarde van 1.645.

Die normaalverdeling hierbo kan nou soos volg aangepas word:

212

Hoofstuk 8: Hipotesetoetsing van een veranderlike | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

As die z-stat hier val, word my H0 nie verwerp nie. As die z-stat in hierdie area val, word H0 verwerp.

95% 5% 1.645

Voorbeeld 2: Beskou nou die volgende hipotesetoets: H0: μ ≥ 50 H1: μ < 50 Die navorser wil die hipotese toets teen ’n 95% vlak van sekerheid. Weereens moet ons bepaal of dit ’n eenkantige of tweekantige hipotesetoets is. Die alternatiewe hipotese gee vir ons ’n aanduiding. Die <teken is ’n aanduiding dat hierdie ’n eenkantige hipotesetoets is – meer spesifiek, die hipotese is linkskantig. Die normaalverdeling wat ons vir die hipotesetoets gaan gebruik, lyk dus soos volg. As die z-stat hier val, word my H0 nie verwerp nie. As die z-stat in hierdie area val, word H0 verwerp.

95%

5% z-crit

©akademia (MSW)| Hoofstuk 8: Hipotesetoetsing van een veranderlike

213


Elementêre Kwantitatiewe Metodes

Omdat ’n normaalverdeling simmetries is en die waardes wat ons gebruik presies dieselfde is as die eerste voorbeeld hierbo, is dit nie eens nodig om die z-crit te bereken nie. Ons weet dat die z-crit vir ’n regskantige toets teen ’n 0.95 vlak van sekerheid 1.645 is. Dus sal ’n linkskantige toets met dieselfde waardes -1.645 wees. Die normaalverdeling sal dus soos volg aangepas word vir die hipotesetoets: As die z-stat hier val, word H0 nie verwerp nie. As die z-stat in hierdie area val, word H0 verwerp.

95%

5% -1.645

Voorbeeld 3: Vind ’n z-crit vir ’n tweekantige hipotese Beskou die volgende hipotesetoets: H0: μ = 50 H1: μ ≠ 50 Die navorser wil die hipotese toets teen ’n 95% vlak van sekerheid. Die 95% is dieselfde as die vorige twee voorbeelde. Wat wel verskil, is die feit dat hierdie hipotese tweekantig is. Die hipotese kan dus deur die volgende normaalverdeling voorgestel word:

214

Hoofstuk 8: Hipotesetoetsing van een veranderlike | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

As die z-stat hier val, word H0 nie verwerp nie. As die z-stat in hierdie area val, word H0 verwerp.

As die z-stat in hierdie area val, word H0 verwerp.

95%

2.5% z-crit

2.5% z-crit

Die totale oppervlakte van aanvaarding van die nulhipotese bly 0.95 (of 95%). Maar, soos in die geval van die vertrouensintervalle, moet die oorblywende 0.05 (of 5%) tussen die linkeren regterkante verdeel word. Die oppervlaktes is dus 0.95 in die middel en 0.025 aan die twee kante. Om die z-crit te bereken werk ons dus nou met 0.475 en 0.025 aan elke kant van die verdeling (want 0.475 + 0.025 = 0.5). Die z-crit sal dus die z-waarde wees waar 0.475 in die z-tabel voorkom. z-crit is dus 1.96.

Stap 3: Bepaal die toetsstatistiek Die toetsstatistiek word met ’n formule bereken. Hierdie formule gebruik ’n aantal veranderlikes wat uit die steekproef verkry word. Die z-statistiek sal dan met die kritiese waarde vergelyk word. Hierdie stap sal ’n bietjie later met ’n voorbeeld verduidelik word. Stap 4: Besluit of die nulhipotese verwerp kan word Die nulhipotese is meestal die teenoorgestelde van ons besigheidsprobleem. As ons dus die nulhipotese kan verwerp, kan ons aanvaar dat die alternatiewe hipotese waar is. Hierdie stap sal ’n bietjie later met behulp van ’n voorbeeld verduidelik word. Stap 5: Maak ’n gevolgtrekking Stap 4 behels ’n statistiese besluit wat gemaak word. Jy moet egter die bevinding in die “taal” van die besigheidsprobleem stel. Waar Stap 4 sal eindig met “Daar is voldoende bewyse om die nulhipotese te verwerp”, sal Stap 5 eerder soos volg bewoord word: “Die ©akademia (MSW)| Hoofstuk 8: Hipotesetoetsing van een veranderlike

215


Elementêre Kwantitatiewe Metodes gemiddelde ouderdom van ’n kliënt is dus wel hoër as 50 jaar.” Hierdie stap sal in meer besonderhede in die voorbeelde hieronder bespreek word.

8.3

Oefening: Hipotesetoets vir een veranderlike; populasiestandaardafwyking bekend

Al die hipotesetoetse in hierdie hoofstuk behels ’n populasiegemiddeld en ’n spesifieke getal. Die hipotesetoets bepaal dan of die populasiegemiddeld groter as, kleiner as of gelyk aan daardie spesifieke getal is. Ons kan egter ook die hipotesetoetse wat ons in hierdie hoofstuk gaan doen, in twee kategorieë opdeel: gevalle waar die populasie-standaardafwyking bekend is en gevalle waar die populasie-standaardafwyking nie bekend is nie. As die populasie-standaardafwyking wel bekend is, kan ons die z-toets gebruik. Ons sal dus die z-tabel gebruik om ’n z-crit te vind. Ons sal ook die formule vir die z-toets gebruik om die toetsstatistiek (die z-stat) te bereken. Die formule vir die z-stat, in hierdie geval, is: z-stat =

̄ 6 7 √

waar: x̄ = die steekproefgemiddeld μ = die populasiegemiddeld soos deur die nulhipotese verwag σ = die populasie-standaardafwyking n = die steekproefgrootte Met hierdie formule kan ons nou ons eerste hipotesetoets doen:

Voorbeeld: ’n Hipotesetoets van een veranderlike; σ bekend Vraag 1: Beskou die volgende: ’n Navorser vermoed dat die gemiddelde ouderdom van studente by ’n spesifieke universiteit groter as 21 is. Hy onttrek ’n steekproef van 120 studente en probeer om hierdie steekproef so verteenwoordigend as moontlik van die populasie te maak. Hy vind ’n steekproefgemiddeld van 21.5. Jy kan aanneem dat die populasie-standaardafwyking 2.34 jaar is.

216

Hoofstuk 8: Hipotesetoetsing van een veranderlike | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

Doen ’n hipotesetoets om, teen ’n vlak van sekerheid van 95%, te bepaal of die navorser se vermoede korrek is. Antwoord: Om hierdie vraag te beantwoord sal ons die vyf stappe van 'n hipotesetoets uitvoer. Stap 1: Vind die nul- en alternatiewe hipotese H0: μ ≤ 21 H1: μ > 21 Hierdie is ’n regskantige (en dus eenkantige) hipotese. Stap 2: Vind die kritiese waarde Die vlak van sekerheid is 0.95 en die α-waarde is dus 0.05. Omdat hierdie ’n eenkantige hipotesetoets is (regskantig), hoef die α-waarde nie in twee gedeel word nie. Ons vind dus die z-waarde waar die oppervlakte 0.45 is (0.5 – 0.05). Hierdie z-waarde, en dus z-crit, is 1.645. Hierdie z-crit kan soos volg op die normaalverdeling aangedui word: As die z-stat hier val, word H0 nie verwerp nie. As die z-stat in hierdie area val, word H0 verwerp.

95% 5% z-crit = 1.645

Stap 3: Bereken die toetsstatistiek Die toetsstatistiek, z-stat, se formule is:

z-stat =

̄ 6 7 √

waar: x̄ = die steekproefgemiddeld ©akademia (MSW)| Hoofstuk 8: Hipotesetoetsing van een veranderlike

217


ElementĂŞre Kwantitatiewe Metodes

Îź = die populasiegemiddeld soos deur die nulhipotese verwag Ďƒ = die populasie-standaardafwyking n = die steekproefgrootte Dus: z-stat =

. . √

= 2.341 Stap 4: Besluit of die nulhipotese verwerp moet word Om te besluit of die nulhipotese verwerp moet word, moet die z-stat op die normaalverdeling geplaas word. Sodoende is dit maklik om met die blote oog te sien of die nulhipotese verwerp kan word: As die z-stat hier val, word H0 nie verwerp nie. As die z-stat in hierdie area val, word H0 verwerp.

95% 5% z-crit = 1.645

X

z-stat = 2.341

Die z-stat is aan die regterkant van die z-crit. Hierdie waarde lĂŞ dus in die area van verwerping soos wat ons in Stap 2 vasgestel het. Die waarskynlikheid dat ons dus H0 verkeerdelik gaan verwerp, is dus kleiner as 0.05. Ons kan dus maar voortgaan en H0 verwerp: Daar is voldoende statistiese bewys om H0 te verwerp ten gunste van H1. Stap 5: Gevolgtrekking Daar is voldoende statistiese bewyse om te kan sĂŞ dat die gemiddeld van al die studente by die betrokke universiteit (die populasie) groter is as 21.

218

Hoofstuk 8: Hipotesetoetsing van een veranderlike | Šakademia (MSW)


Elementêre Kwantitatiewe Metodes

Vraag 2: ’n Navorser vermoed dat die gemiddelde onderwyser minder as 30 dae per jaar vakansie neem. Deur informele gesprekke het dit aan die lig gekom dat onderwysers geneig is om tydens skoolvakansies te werk en agterstallige administrasie in te haal. Die navorser besluit om hierdie vermoede met ’n hipotesetoets te toets. Sy besluit om eers op die onderwysers in die Wes-Kaapprovinsie te fokus en dus onderwysers in hierdie provinsie haar populasie te maak. Sy onttrek ’n steekproef van 340 onderwysers in die Wes-Kaap. Sy vind dat, uit hierdie populasie, onderwysers gemiddeld 29 dae per jaar ten volle vakansie neem. Jy kan aanneem dat die populasie-standaardafwyking 5.12 dae is. Toets die navorser se vermoede met ’n hipotesetoets. Gebruik ’n 90% vlak van sekerheid. Antwoord 2: Stap 1: Vind die nul- en alternatiewe hipotese H0: μ ≥ 30 H1: μ < 30 Hierdie is ’n linkskantige (en dus eenkantige) hipotese. Stap 2: Vind die kritiese waarde Die vlak van sekerheid is 0.90 en die α-waarde is dus 0.1. Omdat hierdie ’n eenkantige hipotesetoets is (linkskantig), hoef die α-waarde nie in twee gedeel word nie. Ons vind dus die z-waarde waar die oppervlakte 0.4 is (0.5 – 0.1). Hierdie z-waarde is 1.28. Maar omdat dit ’n linkskantige toets is, sal die z-waarde aan die linkerkant van die gemiddeld voorkom en dus negatief wees. Die z-crit is dus -1.28. Hierdie z-crit kan soos volg op die normaalverdeling aangedui word:

©akademia (MSW)| Hoofstuk 8: Hipotesetoetsing van een veranderlike

219


ElementĂŞre Kwantitatiewe Metodes

As die z-stat hier val, word H0 nie verwerp nie. As die z-stat in hierdie area val, word H0 verwerp.

10%

90%

z-crit = -1.28

Stap 3: Bereken die toetsstatistiek Die toetsstatistiek, z-stat, se formule is:

z-stat =

Ě„ 6 7 √

waar: xĚ„ = die steekproefgemiddeld Îź = die populasiegemiddeld soos deur die nulhipotese verwag Ďƒ = die populasie-standaardafwyking n = die steekproefgrootte Dus:

z-stat =

. √

= -3.601 Let wel: die antwoord is ’n negatiewe waarde. Stap 4: Besluit of die nulhipotese verwerp moet word Om te besluit of die nulhipotese verwerp moet word, moet die z-stat op die normaalverdeling geplaas word. Sodoende is dit maklik om met die blote oog te sien of die nulhipotese verwerp kan word:

220

Hoofstuk 8: Hipotesetoetsing van een veranderlike | Šakademia (MSW)


Elementêre Kwantitatiewe Metodes

As die z-stat hier val, word H0 nie verwerp nie. As die z-stat in hierdie area val, word H0 verwerp.

10% X

90%

z-crit = -1.28

z-stat = -3.601

Dit is duidelik dat -3.601 kleiner is as die z-crit van -1.28 en dus in die area van verwerping val. Daar is dus voldoende bewyse om H0 te verwerp. Daar is voldoende bewyse om H0 te verwerp ten gunste van H1. Stap 5: Gevolgtrekking Daar is voldoende bewyse om te bevestig dat die gemiddelde onderwyser in die WesKaapprovinsie minder as 30 dae per jaar op vakansie gaan. Voorbeeld 3: ’n Navorser vermoed dat die gemiddelde salaris van ’n sekere populasie R25 000 is. Hy neem ’n steekproef van 140 werknemers en vind ’n gemiddeld van R25 500. Jy kan aanneem dat die populasie se standaardafwyking R2 500 is. Toets die navorser se vermoede teen ’n 95% vlak van sekerheid. Antwoord 3: Stap 1: Vind die nul- en alternatiewe hipotese H0: μ = 25 000 H1: μ ≠ 25 000 Hierdie is ’n tweekantige hipotese.

©akademia (MSW)| Hoofstuk 8: Hipotesetoetsing van een veranderlike

221


Elementêre Kwantitatiewe Metodes

Stap 2: Vind die kritiese waarde Die vlak van sekerheid is 0.95 en die α-waarde is dus 0.05. Omdat hierdie ’n tweekantige hipotesetoets is, moet die α-waarde wel in twee gedeel word. Ons vind dus die z-waarde waar die oppervlakte 0.475 is (0.5 – 0.025). Hierdie z-waarde, en dus z-crit, is ± 1.96. Hierdie z-crit kan soos volg op die normaalverdeling voorgestel word: As die z-stat hier val, word H0 nie verwerp nie. As die z-stat in hierdie area val, word H0 verwerp.

2.5%

As die z-stat in hierdie area val, word H0 verwerp.

95%

z-crit = -1.96

2.5% z-crit = 1.96

Stap 3: Bereken die toetsstatistiek Let wel: die formule en berekening van die z-statistiek word nie beïnvloed deur die feit dat ons met ’n tweekantige hipotesetoets werk nie. Die toetsstatistiek, z-stat, se formule is:

z-stat =

̄ 6 7 √

waar: x̄ = die steekproefgemiddeld μ = die populasiegemiddeld soos deur die nulhipotese verwag σ = die populasie-standaardafwyking n = die steekproefgrootte Dus: z-stat =

222

< < < > ?@@ √AB@

Hoofstuk 8: Hipotesetoetsing van een veranderlike | ©akademia (MSW)


ElementĂŞre Kwantitatiewe Metodes

= 2.366 Stap 4: Besluit of die nulhipotese verwerp moet word Om te besluit of die nulhipotese verwerp moet word, moet die z-stat op die normaalverdeling geplaas word. Sodoende is dit maklik om met die blote oog te sien of die nulhipotese verwerp kan word: As die z-stat hier val, word H0 nie verwerp nie. As die z-stat in hierdie area val, word H0 verwerp.

2.5% z-crit = -1.96

As die z-stat in hierdie area val, word H0 verwerp.

95%

2.5% z-crit = 1.96

X z-stat = 2.366

Die z-stat van 2.366 is duidelik groter as die positiewe z-crit van 1.96. Die z-stat val dus in die area waar H0 verwerp word. Daar is voldoende statistiese bewys om H0 te verwerp ten gunste van H1. Stap 5: Gevolgtrekking Die navorser se vermoede word nie deur die statistiese data ondersteun nie: Die gemiddelde salaris is nie gelyk aan R25 000 nie. Let wel: hierdie hipotesetoets toets slegs of die gemiddelde salaris gelyk is aan R25 000. Dit is egter gevaarlik om aan te neem dat, omdat die gemiddelde salaris nie R25 000 is nie, die populasie se gemiddelde salaris groter as R25 500 sal wees. Dit is nie wat ons getoets het nie. ’n Nuwe, regskantige hipotesetoets sal eers hierdie aanname moet toets voordat dit aanvaar kan word.

Šakademia (MSW)| Hoofstuk 8: Hipotesetoetsing van een veranderlike

223


Elementêre Kwantitatiewe Metodes

8.4

Oefening: Hipotesetoets vir een veranderlike; populasiestandaardafwyking onbekend

Soos wat ons reeds met vertrouensintervalle gesien het, sal ons in praktyk dikwels nie die populasie se standaardafwyking tot ons beskikking hê nie. En aangesien die populasie se standaardafwyking ’n vereiste is om die z-toets te gebruik, sal ons, wanneer die populasiestandaardafwyking nie beskikbaar is nie, die t-toets as alternatief moet gebruik. Die stappe vir die hipotesetoets bly onveranderd in hierdie geval. Al wat aan die toets verander word, is: •

die kritiese waarde (Stap 2): ons gebruik t-crit in plaas van z-crit; en

die toetsstatistiek (Stap 3): ons gebruik die t-stat in plaas van die z-stat.

Die formule vir die t-stat, in hierdie geval, is: t-stat =

̄ 6 * √

waar: x̄ = steekproefgemiddeld μ = populasiegemiddeld soos deur die nulhipotese gestel s = die steekproef-standaardafwyking n = die steekproefgrootte Soos met vertrouensintervalle, sal ons ook die grade van vryheid (df) benodig om die t-tabel te gebruik. Onthou die formule vir grade van vryheid: df = n – 1 Die volgende voorbeelde illustreer die gebruik van ’n t-toets om ’n hipotese te toets.

Voorbeeld: Hipotesetoets vir een veranderlike indien die populasiestandaardafwyking nie bekend is nie Vraag 1: ’n Navorser vermoed dat kliënte van ’n sekere winkel gemiddeld meer as 5 minute per besoek in die winkel spandeer. Die navorser trek ’n steekproef van 81 kliënte en bepaal hoe lank elkeen van hierdie kliënte in die winkel spandeer. Die navorser vind ’n gemiddeld van 6.1 minute en ’n steekproef-standaardafwyking van 2.2 minute. Toets, teen ’n 95% vlak van sekerheid, of die navorser se vermoedens reg was.

224

Hoofstuk 8: Hipotesetoetsing van een veranderlike | ©akademia (MSW)


ElementĂŞre Kwantitatiewe Metodes

Antwoord: Stap 1: Vind die nul- en alternatiewe hipotese H0: Ο ≤ 5 H1: Ο > 5 Hierdie is ’n eenkantige (regskantige) hipotese. Stap 2: Vind die kritiese waarde Om die kritiese waarde te bereken benodig ons twee veranderlikes: ι en df df = n – 1 = 81 – 1 = 80 Uit die vlak van sekerheid van 95% kan ons ’n ι van 0.05 aflei. Omdat dit ’n eenkantige hipotese is wat getoets word, is dit nie nodig om hierdie waarde deur twee te deel nie. Ons vind nou in die t-tabel die waarde waar die 0.05-kolom en die 80-ry mekaar kruis. Dit is 1.664. Stap 3: Bereken die toetsstatistiek t-stat =

Ě„ 6 * √

waar: x̄ = steekproefgemiddeld Ο = populasiegemiddeld soos deur die nulhipotese gestel s = die steekproef-standaardafwyking n = die steekproefgrootte Dus: t-stat =

. . √

= 4.5 Stap 4: Besluit of die nulhipotese verwerp moet word Om hierdie besluit te neem is dit altyd nuttig (en nodig) om die normaalverdeling te teken. Die t-crit en t-stat moet beide op hierdie grafiek aangedui word. Šakademia (MSW)| Hoofstuk 8: Hipotesetoetsing van een veranderlike

225


Elementêre Kwantitatiewe Metodes

As die t-stat hier val, word H0 nie verwerp nie. As die t-stat in hierdie area val, word H0 verwerp.

95% 5% t-crit =1.664

X

t-stat =4.5

Uit die bogenoemde skets is dit duidelik dat die t-stat binne die verwerpingsgebied lê omdat 4.5 groter is as 1.664. Daar is dus voldoende bewyse om H0 te verwerp ten gunste van H1. Stap 5: Gevolgtrekking Daar is voldoende bewys om te kan aanneem dat kliënte wel meer as 5 minute per besoek in die winkel spandeer. Vraag 2: ’n Navorser vermoed dat ’n tipiese kliënt minder as R100 per besoek aan ’n winkel spandeer. Die navorser versamel ’n steekproef van 25 kliënte en bepaal hoeveel elkeen by die winkel spandeer het. Sy vind ’n steekproefgemiddeld van R96. Sy vind ook ’n steekproefstandaardafwyking van R15. Bepaal, teen ’n 95% vlak van sekerheid, of die navorser se vermoede bevestig kan word. Stap 1: Vind die nul- en alternatiewe hipotese H0: μ ≥ 100 H1: μ < 100 Hierdie is ’n eenkantige (linkskantige) hipotesetoets. Stap 2: Vind die kritiese waarde Die α-waarde is weereens 0.05 en, aangesien dit ’n eenkantige hipotesetoets is, hoef hierdie waarde nie in twee gedeel te word nie. Die grade van vryheid is:

226

Hoofstuk 8: Hipotesetoetsing van een veranderlike | ©akademia (MSW)


ElementĂŞre Kwantitatiewe Metodes

df = n – 1 = 25 – 1 = 24 Die t-waarde waar die 24-ry en die 0.05-kolom kruis, is 1.708. Omdat hierdie ’n linkskantige toets is, sal die t-waarde aan die linkerkant van die normaalverdeling voorkom en dus negatief wees. Die diagram hieronder verskaf meer duidelikheid: As die t-stat hier val, word H0 nie verwerp nie. As die t-stat in hierdie area val, word H0 verwerp.

5%

95%

t-crit = -1.708

Die t-crit is dus -1.708. Stap 3: Bereken die toetsstatistiek t-stat =

Ě„ 6 * √

waar: x̄ = steekproefgemiddeld Ο = populasiegemiddeld soos deur die nulhipotese gestel s = die steekproef-standaardafwyking n = die steekproefgrootte Dus: t-stat =

√

= -1.333 Šakademia (MSW)| Hoofstuk 8: Hipotesetoetsing van een veranderlike

227


Elementêre Kwantitatiewe Metodes

Stap 4: Besluit of die nulhipotese verwerp moet word As die t-stat hier val, word H0 nie verwerp nie. As die t-stat in hierdie area val, word H0 verwerp.

95%

5% t-crit = -1.708

X

t-stat = -1.333

Die t-stat van -1.333 val dus binne die area van aanvaarding. Daar is nie voldoende bewys om H0 te verwerp nie. Stap 5: Gevolgtrekking Daar is nie voldoende statistiese bewys om te kan sê dat die gemiddelde kliënt minder as R100 per besoek spandeer nie. Vraag 3: ’n Navorser lees ’n akademiese artikel oor demografiese kenmerke van personeel wat in ’n spesifieke bedryf in Amerika werksaam is. Hierdie artikel beweer dat die gemiddelde ouderdom van finansiële adviseurs in Amerika 49 jaar is. Sy wil bepaal of die SuidAfrikaanse finansiële bedryf soortgelyke resultate sal lewer. Sy onttrek dus ’n steekproef van 36 uit al die finansiële adviseurs in die land en vind ’n gemiddelde ouderdom van 46 jaar, met ’n steekproef-standaardafwyking van 9.4 jaar. Toets, teen ’n 95% vlak van sekerheid, of die populasiegemiddeld wel 49 is. Antwoord: Hierdie vraag demonstreer waarom ’n hipotesetoets altyd gedoen moet word wanneer ’n gevolgtrekking oor die populasie op die steekproef van toepassing gemaak word. ’n Mens se eerste instink is om na die 46 te kyk en onmiddellik tot die gevolgtrekking te kom dat die populasiegemiddeld nie 49 is nie. Dit is egter ’n gevaarlike gevolgtrekking as dit sonder die

228

Hoofstuk 8: Hipotesetoetsing van een veranderlike | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes nodige hipotesetoets gedoen word, omdat die invloed van die steekproefmetode, die hoë standaardafwyking en die klein steekproefgrootte nie in ag geneem word nie. Stap 1: Vind die nul- en alternatiewe hipotese H0: μ = 49 H1: μ ≠ 49 Hierdie is ’n tweekantige hipotese. Stap 2: Vind die kritiese waarde Die grade van vryheid is: df = n – 1 = 36 – 1 = 35 Die α-waarde is 0.05, maar omdat dit ’n tweekantige hipotesetoets is, moet hierdie waarde in twee gedeel word. Ons gebruik dus ’n α-waarde van 0.025 om die t-crit te bereken. Die plek in die t-tabel waar die 0.025-kolom en die 35-ry kruis, bevat ’n t-waarde van 2.030. Omdat dit ’n tweekantige toets is, is die t-waarde ± 2.030. Die diagram hieronder stel dit grafies voor. As die t-stat hier val, word H0 nie verwerp nie. As die t-stat in hierdie area val, word H0 verwerp.

2.5% t-crit = -2.030

As die t-stat in hierdie area val, word H0 verwerp.

95%

2.5% t-crit = 2.030

©akademia (MSW)| Hoofstuk 8: Hipotesetoetsing van een veranderlike

229


ElementĂŞre Kwantitatiewe Metodes

Stap 3: Bereken die toetsstatistiek t-stat =

Ě„ 6 * √

waar: x̄ = steekproefgemiddeld Ο = populasiegemiddeld soos deur die nulhipotese gestel s = die steekproef-standaardafwyking n = die steekproefgrootte Dus: t-stat =

. √

= -1.915 Stap 4: Besluit of die nulhipotese verwerp moet word Om hierdie stap te voltooi is dit nodig om die t-stat met die t-crit te vergelyk. Die beste wyse om dit te doen is op die normaalverdeling: As die t-stat hier val, word H0 nie verwerp nie. As die t-stat in hierdie area val, word H0 verwerp.

As die t-stat in hierdie area val, word H0 verwerp.

95%

2.5% t-crit = -2.030

X

2.5% t-crit = 2.030

t-stat = -1.915

Die t-stat lĂŞ dus binne die aanvaardingsgebied. Daar is nie voldoende bewyse om H0 te verwerp nie.

230

Hoofstuk 8: Hipotesetoetsing van een veranderlike | Šakademia (MSW)


Elementêre Kwantitatiewe Metodes

Stap 5: Gevolgtrekking Die gemiddelde ouderdom van Suid-Afrikaanse finansiële adviseurs is 49 jaar. Hierdie gevolgtrekking mag as ’n verrassing kom. Die steekproef se gemiddeld was dan nie 49 nie! Wat hier gebeur het, is dat ons nie voldoende statistiese ondersteuning gevind het om die nulhipotese te verwerp nie. Hoewel daar steeds ’n moontlikheid is dat populasiegemiddeld nie 49 is nie, is hierdie moontlikheid nie 95% of groter nie. Ons sal egter eerder veilig speel en by die nulhipotese bly. Hierdie ingesteldheid word later in hierdie hoofstuk bespreek.

8.5

Terug by Sonja se hipotese

Aan die begin van hierdie hoofstuk het Sonja vir Michael gevra om ’n hipotesetoets te doen. Kyk of jy die hipotesetoets self kan doen voordat jy na die oplossing hieronder kyk! (Jy kan ’n 95% vlak van sekerheid hiervoor gebruik.) Michael se antwoord: Kyk weer na die waardes wat Michael tot sy beskikking gehad het: Steekproefgrootte(n): 201 Steekproefgemiddeld: 4.874 Steekproef-standaardafwyking: 1.25 Die hipotese kan afgelei word uit iets wat Sonja oor vorige navorsing gesê het: “Die navorsers het na ’n aantal ontwikkelende lande gekyk en gevind dat die medium en groot sakeondernemings in daardie lande, minder as vyf persent van hul jaarlikse uitgawes aan navorsing toeken. Ek wou kyk of ons dieselfde resultate in Suid-Afrika sou vind.” Wat ons dus wil toets is of die Suid-Afrikaanse populasie van ondernemings ook ’n gemiddeld van minder as 5% van hul uitgawes aan navorsing spandeer. Sonja het nie aangedui teen watter vlak van sekerheid sy haar hipotese wou toets nie. Ons gaan vir die doel van hierdie bespreking ’n 95% vlak van sekerheid gebruik. Ons kan nou die vyf stappe van hipotesetoetsing op Sonja se probleem van toepassing maak: Stap 1: Vind die nul- en alternatiewe hipotese H0: μ ≥ 5 H1: μ < 5 ©akademia (MSW)| Hoofstuk 8: Hipotesetoetsing van een veranderlike

231


ElementĂŞre Kwantitatiewe Metodes Hierdie is ’n eenkantige (linkskantige) hipotesetoets. Stap 2: Vind die kritiese waarde Ons moet die t-tabel gebruik omdat die populasie se standaardafwyking nie bekend is nie. Ons benodig die grade van vryheid en die Îą-waarde hiervoor. df = n – 1 = 201 – 1 = 200 Îą = 0.05 en, omdat ons met ’n eenkantige hipotesetoets werk, hoef ons nie die 0.05 in twee te deel nie. Die plek waar die 0.05-kolom en die 200-ry kruis, is by ’n t-waarde van 1.653. Hierdie is egter ’n linkskantige hipotesetoets, wat beteken dat die t-crit negatief moet wees: t-crit = -1.653 Stap 3: Bereken die toetsstatistiek Ě„ 6 * √

t-stat = waar:

x̄ = steekproefgemiddeld Ο = populasiegemiddeld soos deur die nulhipotese gestel s = die steekproef-standaardafwyking n = die steekproefgrootte Dus: t-stat =

. . √

= -1.429 Stap 4: Besluit of die nulhipotese verwerp moet word Die t-crit en t-stat kan soos volg op die normaalverdeling aangedui word:

232

Hoofstuk 8: Hipotesetoetsing van een veranderlike | Šakademia (MSW)


Elementêre Kwantitatiewe Metodes

As die t-stat hier val, word H0 nie verwerp nie. As die t-stat in hierdie area val, word H0 verwerp.

95%

5% t-crit = -1.653

X

t-stat = -1.429

Die t-stat lê dus nie binne die verwerpingsarea nie. Daar is nie voldoende bewyse om H0 te verwerp nie. Stap 5: Gevolgtrekking Die populasiegemiddeld is nie minder as 5% nie. Dus, hoewel Sonja se steekproefgemiddeld wel minder as 5 was, was die verskil nie groot genoeg om vir moontlike foutiewe aannames voorsiening te maak nie.

’n Hipotesetoets: Die hofsaak ’n Maklike manier om na ’n hipotesetoets te verwys is om dit met ’n hofsaak te vergelyk. Jy sal oplet dat ons nooit sê “die alternatiewe hipotese word aanvaar” nie. Die rede hiervoor is omdat ons streng gesproke nooit die alternatiewe hipotese direk toets nie. Ons kyk na die moontlikheid dat die nulhipotese nie waar is nie – die waarskynlikheid dat dit verwerp kan word. En as ons die nulhipotese verwerp (en dit dus vals is), is daar geen alternatief behalwe die feit dat die alternatiewe hipotese waar is nie. Gestel jy is ’n regter. Die hipotesetoets is ’n hofsaak. Die wet wat jy gebruik is die kritiese waarde (z-crit of t-crit). Die beskuldigde is die nulhipotese. Die nulhipotese word daarvan beskuldig dat hy vals is. Indien die nulhipotese skuldig bevind word, word hy verwerp (na ’n donker tronksel vir die res van sy lewe gestuur). Omdat die straf baie swaar is, wil ons egter voldoende bewyse hê voordat ons besluit dat die nulhipotese verwerp word. Elke hofsaak is anders: sommige hofsake vereis ’n 95% sekerheid, ander 99% en ander 90%.

©akademia (MSW)| Hoofstuk 8: Hipotesetoetsing van een veranderlike

233


Elementêre Kwantitatiewe Metodes

As jy besluit om die nulhipotese te verwerp (en in ’n donker tronksel se sit), los jy ’n gaping in die plek waar hierdie nulhipotese eens was (voordat hy weggeneem is na die tronksel toe). Die enigste beskikbare persoon om hierdie gaping te vul, is die alternatiewe hipotese. Die rede waarom ons die alternatiewe hipotese as die waarheid aanvaar, is dus nie omdat ons die alternatiewe hipotese getoets het nie. Dit is omdat die nulhipotese net eenvoudig nie kan waar wees nie en die alternatiewe hipotese die enigste ander moontlike antwoord is.

8.6

Ten slotte

’n Hipotesetoets is baie nuttig om meer akkurate gevolgtrekkings ten opsigte van ’n populasie te maak. Hierdie hoofstuk het slegs na een tipe hipotesetoets gekyk: een veranderlike (’n gemiddeld) en een steekproef. Daar is egter ’n verskeidenheid van hipotesetoetse. Die res van hierdie gids word toegewy aan hipotesetoetse. Dit is belangrik dat jy hierdie hoofstuk onder die knie het voordat jy na ander hipotesetoetse gaan kyk. Al die toetse volg dieselfde stappe, maar elkeen het ’n ander benadering. Hoofstuk 9 gaan jou bekendstel aan ’n hipotesetoets vir twee steekproewe (en dus twee populasies). Daar gaan steeds slegs een veranderlike (’n gemiddeld) wees, maar ons gaan na die volgende kyk: •

Die verskil tussen die gemiddelde van twee populasies: Hier sal ons weer onderskei tussen ’n t-toets en z-toets, afhangende van of die populasie se standaardafwyking bekend is. Ons gaan toets of een populasie se gemiddeld groter as, kleiner as of gelyk aan die gemiddeld van ’n ander populasie is.

Die verandering van ’n veranderlike, gemeet by dieselfde populasie op twee verskillende tye.

234

Hoofstuk 8: Hipotesetoetsing van een veranderlike | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

HOOFSTUK 9: HIPOTESETOETS VIR TWEE STEEKPROEWE

Onderwerpe 9.1

Hipotesetoets vir een veranderlike, twee populasies; populasie-standaardafwyking is bekend

9.2

Hipotesetoets vir twee steekproewe indien σ nie bekend is nie

9.3

Die gepaarde t-toets (matched pair t-test)

©akademia (MSW)| Hoofstuk 9: Hipotesetoets vir twee steekproewe

235


Elementêre Kwantitatiewe Metodes

Gevallestudie… “Ek hoor die Bemarkingsdepartement is baie beïndruk met hulle nuwe statistikus.” Michael frons. Hy is nie bewus van enige iemand van hul departement wat by Bemarking werk nie. “Wie is dit?” Vanessa knip nie ’n oog nie. “Ek weet nie. Ek hoor net hy het hulle van totale ondergang gered deur vir Sonja te leer hoe om ’n hipotesetoets te doen.” Dan besef Michael dat Vanessa besig is om sy been te trek. Hy speel saam. “Ek hoop dat die statistikus genooi is om op ’n Europese vakansie te gaan, sou ’n sekere persoon in die Bemarkingsdepartement die kompetisie wen. Anders sal hy hulle moet faktureer en ek hoor sy fooie is onbekostigbaar.” Vanessa lag. “Ek het gehoop om dieselfde statistikus te gebruik vir ’n nuwe uitdaging.” “Fooie is onderhandelbaar,” sê Michael vinnig. “Mooi. Want ons het ’n paar hipotesetoetse om uit te voer.” “Kan nie wag nie.” Michael maak ’n plek op die tafel skoon en Vanessa haal ’n paar dokumente uit haar tas. “Vasvat Versekeraars is steeds besig met ’n profiel van hul kliënte. Ongelukkig is daar nie voldoende data beskikbaar om sommige van hul vrae te beantwoord nie. Ons sal self hierdie data moet versamel en dit sal slegs deur ’n steekproef kan gebeur.” “Wat wil hulle weet?” “Vraag een: Hoe gereeld koop kliënte motors?” “Dit is ’n eenvoudige toets,” sê Michael. “Waarmee wil hulle dit vergelyk?” “Dit is die uitdaging. Vasvat wil kyk na verskillende profiele van kliënte en kyk of daar ’n verskil is tussen die frekwensies waarteen hulle motors koop.” “Watter tipe vraag sal ons vir die kliënte vra? Hoeveel motors het jy al gekoop?” “Daardie vraag sal problematies wees as ons kliënte van verskillende ouderdomme vra. Ek het gedink om te vra: ‘Hoeveel motors het jy in die laaste vyf jaar gekoop?’ En ons vra dit slegs vir kliënte wat vir vyf jaar of langer oud genoeg is om te bestuur.” “Ek stem saam,” antwoord Michael. “Wie is die verskillende groepe wat vergelyk moet word?” “Wel, terwyl jy die Bemarkingsdepartement van ondergang gered het, het ons veldwerkers

236

Hoofstuk 9: Hipotesetoets vir twee steekproewe | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes reeds inligting versamel vir ’n ander projek. Hulle het hierdie vraelys gestuur aan kliënte wat vir die Vat-dit-Kalm- en die Pasgemaakte pakkette ingeskryf is.” Michael kyk na die vraelys en sien, onder andere, die volgende vrae:

“Op die volgende bladsy is vrae oor die kliënt se pakket en inkomste,” beduie Vanessa. “Ek het die rou data aangevra en ’n paar beskrywende statistieke verkry.” Sy oorhandig nog ’n vel papier vir Michael. Hy sien die volgende: Vat-dit-kalm

Pasgemaak

1.32

1.89

Standaardafwyking (s)

0.45

0.76

Steekproefgrootte (n)

46

36

Gemiddelde motorkoopfrekwensie (motors per 5 jaar)

©akademia (MSW)| Hoofstuk 9: Hipotesetoets vir twee steekproewe

237


Elementêre Kwantitatiewe Metodes

Michael kyk vir ’n oomblik na die statistieke. “Ons kan ’n twee-steekproef t-toets doen om te kyk of daar ’n verskil tussen die gemiddelde is. Dit hang natuurlik af wat Vasvat wil weet. Wil hulle weet of daar ’n verskil is?” “Hulle glo dat Pasgemaak-kliënte meer gereeld motors koop as die Vat-dit-kalm-kliënte. Ek dink dus ons sal ’n regskantige hipotesetoets doen.” “Tjop-tjop,” sê Michael selfversekerd. “Wat is die tweede vraag?” “Vasvat het ’n opleidingsprogram vir hul bemarkingspersoneel aangebied. Hulle wil weet of dit suksesvol was.” “En hoe meet hulle sukses?” “Maklik. Hulle kyk of die personeel se verkope toegeneem het. In randwaarde.” “En het hulle daardie data beskikbaar? Dit sal makliker wees as ons nie ’n steekproef hoef te doen nie, maar al die data kan gebruik.” “Ongelukkig nie.” Vanessa het duidelik ook aan hierdie moontlikheid gedink. “Ons sal ’n steekproef moet neem. Die goeie nuus is dat al die personeel wat die opleiding bygewoon het, ’n bewys van hul laaste ses maande se verkope moes saambring. Ons het dus daardie inligting beskikbaar. Ons sal ’n steekproef neem van almal wat die kursus bygewoon het en hul laaste paar maande se verkoopsyfers aanvra.” “En dan kan ons die verkoopsyfers voor die opleiding en die verkoopsyfers ná die opleiding met mekaar vergelyk.” “Korrek.” Michael kyk weer na die inligting oor die frekwensie van motor-aankope. “Kan ek solank hiermee begin?” “Natuurlik,” antwoord Vanessa.

Om die vrae wat Vasvat Versekeraars hierbo vra te beantwoord, sal ons twee tipes hipotesetoetse nodig hê. Die eerste vraag vergelyk bloot die gemiddelde van twee populasies en bepaal of die een gemiddeld groter as die ander is. Die tweede vraag vergelyk ’n spesifieke veranderlike (verkope) by dieselfde populasie, maar die steekproef word twee keer (oor ’n spesifieke tydperk) geneem.

238

Hoofstuk 9: Hipotesetoets vir twee steekproewe | ©akademia (MSW)


ElementĂŞre Kwantitatiewe Metodes

9.1

Hipotesetoets vir een veranderlike, twee populasies; populasiestandaardafwyking is bekend

Soos wat die geval met vorige hipotesetoetse was, kan ons ’n z-toets en t-toets gebruik om die verskil tussen twee populasiegemiddelde te bepaal. Ons gebruik die t-toets as ons slegs die steekproef se standaardafwyking het en die populasie se standaardafwyking onbekend is. As die populasie se standaardafwyking bekend is, kan ons egter die z-toets gebruik. In laasgenoemde geval word die z-crit op presies dieselfde wyse bereken as wat ons met Hoofstuk 8 se hipotesetoetse gedoen het. Die z-stat se formule is egter anders: z-stat =

Ě„ Ě„ 6 6

7 7 C D

waar: xĚ„ 1 = die eerste steekproef se gemiddeld xĚ„ 2 = die tweede steekproef se gemiddeld xĚ„ 1 – xĚ„ 2 = die verskil tussen die steekproefgemiddelde Îź1 – Îź2 = die verskil tussen die populasiegemiddelde soos deur die nulhipotese verwag. (Dit behoort dus die meeste van die tyd 0 te wees omdat die nulhipotese verwag dat daar geen verskil tussen die twee populasies se gemiddelde is nie. Die alternatiewe hipotese sal die verskil aandui.) Ďƒ1 en Ďƒ2 = die populasie-standaardafwykings van die twee populasies n1 en n2 = die steekproefgroottes van die twee steekproewe Die normaalverdeling word steeds gebruik om die z-stat met die z-crit te vergelyk. Die volgende voorbeelde sal hierdie tipe hipotesetoets verduidelik: Voorbeeld: Hipotesetoets vir twee populasies; Ďƒ bekend Vraag 1: ’n Navorser vermoed dat ervare akteurs meer geld verdien as beginner-akteurs. Hy trek twee steekproewe: 81 ervare akteurs en 121 beginner-akteurs. Die gemiddelde inkomste van die ervare akteurs is R1 850 vir ’n dag se werk, terwyl die beginner-akteurs gemiddeld R1 650 per dag verdien. Jy kan aanneem dat die populasie-standaardafwykings vir ervare akteurs se vergoeding R255 is en dat die populasie-standaardafwyking vir beginner-akteurs se vergoeding R280 is.

Šakademia (MSW)| Hoofstuk 9: Hipotesetoets vir twee steekproewe

239


Elementêre Kwantitatiewe Metodes

Bepaal, teen ’n 95% vlak van sekerheid, of ervare akteurs wel meer as beginner-akteurs verdien het. Antwoord: Die verskillende veranderlikes en ooreenkomstige waardes mag verwarrend voorkom as dit in paragraaf-formaat verskaf word. Daarom is dit belangrik om eers die waardes op te som:

Veranderlike

Steekproefgemiddeld (x̄ ) Populasiestandaardafwyking (σ)

Steekproef/populasie 1

Steekproef/populasie 2

(Ervare akteurs)

(Beginner-akteurs)

R1 850

R1 650

R255

R280

81

121

Steekproefgrootte (n)

Nou kan ons dieselfde stappe volg wat ons in Hoofstuk 8 se hipotesetoetse gevolg het: Stap 1: Vind die nul- en alternatiewe hipotese Die nulhipotese sal beweer dat daar geen verskil tussen die twee populasiegemiddelde is nie. Die alternatiewe hipotese sal die besigheidsprobleem – dit wat die navorser vermoed – toets: H0: μ1 – μ2 ≤ 0 H1: μ1 – μ2 > 0 Die alternatiewe hipotese beweer dat daar wel ’n verskil is en dat die ervare akteurs (populasie 1) se gemiddelde inkomste hoër sal wees as dié van beginner-akteurs. Hierdie is ’n eenkantige (regskantige) hipotesetoets. Stap 2: Vind die kritiese waarde Omdat die populasie se standaardafwyking bekend is, kan ons die z-tabel gebruik. Ons gebruik dieselfde metode as wat ons in Hoofstuk 8 gebruik het. Die vlak van sekerheid is 95%, wat beteken dat ons α-waarde 0.05 is. Omdat dit ’n eenkantige hipotesetoets is, hoef die 0.05 nie in twee gedeel te word nie. Die z-crit is dus 1.645. Die z-crit word weereens soos volg op die normaalverdeling aangedui:

240

Hoofstuk 9: Hipotesetoets vir twee steekproewe | ©akademia (MSW)


ElementĂŞre Kwantitatiewe Metodes

As die z-stat hier val, word H0 nie verwerp nie. As die z-stat in hierdie area val, word H0 verwerp.

95% 5% z-crit =1.645

Stap 3: Bereken die toetsstatistiek Die formule vir die z-stat is anders as wat die geval van een populasie was. Die formule vir die z-stat is: z-stat =

Ě„ Ě„ 6 6

7 7 C D

waar: xĚ„ 1 = die eerste steekproef se gemiddeld xĚ„ 2 = die tweede steekproef se gemiddeld Îź1 – Îź2 = die verskil tussen die populasiegemiddelde soos deur die nulhipotese verwag Ďƒ1 en Ďƒ2 = die populasie-standaardafwykings van die twee populasies n1 en n2 = die steekproefgroottes van die twee steekproewe Ons kan nou die waardes in die formule invervang: z-stat =

& D

= 5.251 Stap 4: Besluit of die nulhipotese verwerp moet word Om hierdie besluit te neem word die z-stat weer met die z-crit vergelyk. Onthou om altyd ’n normaalverdeling te teken voordat hierdie vergelyking gedoen word:

Šakademia (MSW)| Hoofstuk 9: Hipotesetoets vir twee steekproewe

241


Elementêre Kwantitatiewe Metodes

As die z-stat hier val, word H0 nie verwerp nie. As die z-stat in hierdie area val, word H0 verwerp.

95% 5% X

z-crit =1.645

z-stat =5.251

Die z-stat val binne die verwerpingsgebied. Dus: Daar is voldoende statistiese ondersteuning om H0 te verwerp ten gunste van H1. Stap 5: Gevolgtrekking Ervare akteurs verdien inderdaad ’n hoër inkomste per dag as beginner-akteurs. Vraag 2: ’n Navorser is geïnteresseerd in die hoeveelheid aanhangers wat sepiesterre op hul Facebook-blaaie het. Die navorser kyk na twee gewilde sepies, wat vir die doel van hierdie navorsing slegs Sepie 1 en Sepie 2 genoem sal word. Gebaseer op die kykergetalle van die sepies, het die navorser rede om te glo dat akteurs wat in Sepie 1 speel, gemiddeld minder Facebook-aanhangers sal hê as akteurs wat in Sepie 2 speel. Die navorser trek twee steekproewe van alle akteurs wat in die laaste vyf jaar op die sepie verskyn het en vind die volgende data: Veranderlike

Steekproefgemiddeld (x̄ ) Populasiestandaardafwyking (σ) Steekproefgrootte (n)

Steekproef/populasie 1

Steekproef/populasie 2

(Sepie 1)

(Sepie 2)

41 600 aanhangers

43 100 aanhangers

11 000

8 500

80

90

Toets die navorser se vermoede (dat die gemiddelde hoeveelheid aanhangers van ’n Sepie

242

Hoofstuk 9: Hipotesetoets vir twee steekproewe | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes 1-akteur minder sal wees as die gemiddelde hoeveelheid aanhangers van ’n Sepie 2-akteur) teen ’n 95% vlak van sekerheid. Antwoord: Stap 1: Vind die nul- en alternatiewe hipotese H0: Ο1 – Ο2 ≼ 0 H1: Ο1 – Ο2 < 0 Hierdie is ’n eenkantige (linkskantige) hipotesetoets. Stap 2: Vind die kritiese waarde Die kritiese waarde is gebaseer op die ι van 0.05. Omdat dit ’n eenkantige hipotesetoets is, hoef hierdie waarde nie deur twee gedeel te word nie. Ons weet uit die vorige vraag die ooreenkomstige z-waarde vir ι = 0.05 is 1.645. Omdat hierdie egter ’n linkskantige hipotesetoets is, sal die z-waarde negatief wees. Dus: z-crit = -1.645 Stap 3: Bereken die toetsstatistiek Dieselfde formule word vir die z-stat gebruik: z-stat =

Ě„ Ě„ 6 6

7 7 C D

waar: xĚ„ 1 = die eerste steekproef se gemiddeld xĚ„ 2 = die tweede steekproef se gemiddeld Îź1 – Îź2 = die verskil tussen die populasiegemiddelde soos deur die nulhipotese verwag Ďƒ1 en Ďƒ2 = die populasie-standaardafwykings van die twee populasies n1 en n2 = die steekproefgroottes van die twee steekproewe Ons kan nou die waardes in die formule invervang: z-stat =

$ % & D

= -0.986

Šakademia (MSW)| Hoofstuk 9: Hipotesetoets vir twee steekproewe

243


Elementêre Kwantitatiewe Metodes

Stap 4: Besluit of die nulhipotese verwerp moet word Die z-stat word met die z-crit vergelyk. Die normaalverdeling word weereens hiervoor gebruik: As die z-stat hier val, word H0 nie verwerp nie. As die z-stat in hierdie area val, word H0 verwerp.

95%

5% z-crit = -1.645

X

z-stat = -0.986

Die z-stat is nie binne die verwerpingsgebied nie. Dus: Daar is nie voldoende bewyse om H0 te verwerp nie. Stap 5: Gevolgtrekking Die gemiddelde Sepie 1-akteur het nie minder aanhangers as die gemiddelde Sepie 2akteur nie. Vraag 3: ’n Vervaardiger van ’n sepie wil seker maak dat daar nie teen akteurs gediskrimineer word op grond van geslag nie. Die produksiemaatskappy het reeds ’n baie regverdige vergoedingstelsel ontwikkel. Daar is egter sommige akteurs wat beweer dat daar nie gelykheid is ten opsigte van die hoeveelheid woorde wat manlike en vroulike akteurs moet leer nie. Die vervaardiger verskil van hierdie akteurs: hy glo dat die hoeveelheid woorde wat manlike en vroulike akteurs moet leer, gelyk is. Hy neem ’n steekproef van 100 tekste en tel die hoeveelheid woorde wat manlike en vroulike akteurs moet sê. Hy vind die volgende:

244

Hoofstuk 9: Hipotesetoets vir twee steekproewe | ©akademia (MSW)


ElementĂŞre Kwantitatiewe Metodes

Veranderlike

Steekproef/populasie 1

Steekproef/populasie 2

(Manlike akteurs)

(Vroulike akteurs)

2 205 woorde

2 295 woorde

450

510

100

100

Steekproefgemiddeld (xĚ„ ) Populasiestandaardafwyking (Ďƒ) Steekproefgrootte (n)

Toets die vervaardiger se aanname – dat manlike akteurs en vroulike akteurs dieselfde hoeveelheid woorde moet leer – teen ’n 95% vlak van sekerheid. Antwoord: Stap 1: Vind die nul- en alternatiewe hipotese Die nulhipotese sal die =-teken bevat: H0: Ο1 – Ο2 = 0 H1: Ο1 – Ο2 ≠0 Hierdie is ’n tweekantige hipotesetoets. Stap 2: Vind die kritiese waarde Die ι-waarde is 0.05. Omdat ons egter ’n tweekantige hipotese toets, moet hierdie 0.05 in twee gedeel word. Die z-waarde vir ’n ι-waarde van 0.025 (dus 0.05 gedeel deur twee) is ¹1.96. Stap 3: Bereken die toetsstatistiek Die toetsstatistiek se berekening word nie deur die aard van die hipotese beïnvloed nie. Ons gebruik dus dieselfde formule: z-stat =

Ě„ Ě„ 6 6

7 7 C D

waar: xĚ„ 1 = die eerste steekproef se gemiddeld xĚ„ 2 = die tweede steekproef se gemiddeld Îź1 – Îź2 = die verskil tussen die populasiegemiddelde soos deur die nulhipotese verwag Ďƒ1 en Ďƒ2 = die populasie-standaardafwykings van die twee populasies

Šakademia (MSW)| Hoofstuk 9: Hipotesetoets vir twee steekproewe

245


ElementĂŞre Kwantitatiewe Metodes

n1 en n2 = die steekproefgroottes van die twee steekproewe z-stat =

$ %

& D

= -1.323 Stap 4: Besluit of die nulhipotese verwerp moet word Om hierdie besluit te neem moet die z-stat met die z-crit vergelyk word: As die z-stat hier val, word H0 nie verwerp nie. As die z-stat in hierdie area val, word H0 verwerp.

As die z-stat in hierdie area val, word H0 verwerp.

95%

2.5% z-crit = -1.96

X

2.5% z-crit = 1.96

z-stat = -1.323

Die z-stat val dus nie in die gebied van verwerping nie: Daar is nie voldoende bewyse om H0 te verwerp nie. Stap 5: Gevolgtrekking Daar is geen verskil tussen die gemiddelde hoeveelheid woorde wat manlike en vroulike akteurs moet leer nie.

9.2

Hipotesetoets vir twee steekproewe indien Ďƒ nie bekend is nie

Wanneer die populasie se standaardafwyking nie bekend is nie, kan ons nie die z-crit en z-stat gebruik nie. In hierdie geval moet ons ’n t-toets (met ’n t-crit en t-stat) gebruik. Die

246

Hoofstuk 9: Hipotesetoets vir twee steekproewe | Šakademia (MSW)


Elementêre Kwantitatiewe Metodes t-toets vir twee steekproewe werk op dieselfde beginsel as vir een steekproef, maar die volgende veranderings word aangetref: •

Die grade van vryheid wat vir die berekening van die t-crit benodig word, verskil van diĂŠ van een steekproef.

•

Die t-stat se formule verskil redelik baie van die z-stat wanneer ’n hipotesetoets vir twee steekproewe gedoen word.

Grade van vryheid: Die grade van vryheid vir een steekproef is maklik om te bereken. Ons gebruik die formule: df = n – 1 In hierdie geval werk ons egter nie met slegs een steekproef nie, en die grade van vryheid benodig ’n formule wat beide steekproewe in ag neem. Die formule vir die grade van vryheid in hierdie geval is: df = n1 + n2 – 2 Formule vir t-stat: Die formule vir die t-stat lyk soos volg: t-stat =

Ě„ Ě„ 6 6

&E F D

waar: x̄ 1 = die gemiddeld van die eerste steekproef x̄ 2 = die gemiddeld van die tweede steekproef Ο1 – Ο2 = die verskil tussen die populasiegemiddelde soos deur die nulhipotese verwag (hierdie sal in al die voorbeelde in hierdie hoofstuk 0 wees) n1 = die steekproefgrootte van die eerste steekproef n2 = die steekproefgrootte van die tweede steekproef Sp2: Hierdie veranderlike is ’n gesamentlike standaardafwyking wat bereken moet word. Sp2 het ’n aparte formule: Sp2 =

* D * D

waar: n1 = die steekproefgrootte van Steekproef 1

Šakademia (MSW)| Hoofstuk 9: Hipotesetoets vir twee steekproewe

247


Elementêre Kwantitatiewe Metodes n2 = die steekproefgrootte van Steekproef 2 s1 = die standaardafwyking van Steekproef 1 s2 = die standaardafwyking van Steekproef 2

Wenk: Die formule(s) vir die t-stat in hierdie geval mag intimiderend voorkom. Hierdie formule is egter niks om voor bang te wees nie. Wanneer jy ’n hipotesetoets soos hierdie doen, bereken eers met Sp2. As jy hierdie waarde in die t-stat se formule invervang, is die t-stat formule selfs minder gekompliseerd as die z-stat!

Die volgende voorbeelde sal gebruik word om 'n t-toets te demonstreer: Voorbeeld: Hipotesetoets vir twee steekproewe as σ onbekend is Vraag 1: Die bestuurder van ’n oproepsentrum bied ’n werkswinkel in produktiwiteit aan personeel wat by die oproepsentrum werk. Die werkswinkel is nie verpligtend nie en daar is ’n groot hoeveelheid personeel wat nie die werkswinkel bywoon nie. Die bestuurder vermoed egter dat personeel wat die werkswinkel bygewoon het, gemiddeld meer kliënte per dag help as personeel wat nie die werkswinkel bygewoon het nie. Die bestuurder trek ’n steekproef uit elk van die twee populasies en vind die volgende: Steekproef/populasie 1

Steekproef/populasie 2

Veranderlike

(Personeel wat die werkswinkel bygewoon het)

(Personeel wat nie die werkswinkel bygewoon het nie)

Steekproefgemiddeld (x̄ )

16.7 kliënte per dag gehelp

14.5 kliënte per dag gehelp

2.1

3.3

40

32

Steekproefstandaardafwyking (s) Steekproefgrootte (n)

Bepaal, teen ’n 95% vlak van sekerheid, of die bestuurder se vermoede – dat personeel wat die werkswinkel bygewoon het meer kliënte op ’n dag help as dié wat nie die werkswinkel bygewoon het nie – waar is.

248

Hoofstuk 9: Hipotesetoets vir twee steekproewe | ©akademia (MSW)


ElementĂŞre Kwantitatiewe Metodes

Antwoord: Ons volg dieselfde stappe vir die toets van ’n hipotese: Stap 1: Vind die nul- en alternatiewe hipotese Die hipotesestellings verskil nie van die voorbeelde wat ons vroeÍr in hierdie hoofstuk gedoen het nie. H0: Ο1 – Ο2 ≤ 0 H1: Ο1 – Ο2 > 0 Hierdie is ’n eenkantige (regskantige) hipotesetoets. Stap 2: Vind die kritiese waarde Om die kritiese waarde te bereken benodig ons die vlak van sekerheid en die grade van vryheid. Ons gaan die t-tabel hiervoor gebruik. Die vlak van sekerheid is 95%, wat vir ons ’n ι-waarde van 0.05 gee. Omdat dit ’n eenkantige hipotesetoets is, hoef die 0.05 nie in twee gedeel te word nie. Die grade van vryheid vir twee steekproewe se formule is: df = n1 + n2 – 2 Waar n1 en n2 die groottes van die twee steekproewe voorstel, dus: df = 40 + 32 – 2 = 70 Ons kan dus nou die t-tabel gebruik. Die plek waar die 0.05-kolom en die 70-ry kruis, verskaf ’n t-waarde van 1.667. Dus: t-crit = 1.667 Stap 3: Bereken die toetsstatistiek Om die toetsstatistiek (t-stat) te bereken benodig ons eerstens Sp2. Die formule is:

S p2 =

* D * D

waar: n1 = die steekproefgrootte van Steekproef 1 n2 = die steekproefgrootte van Steekproef 2 s1 = die standaardafwyking van Steekproef 1 Šakademia (MSW)| Hoofstuk 9: Hipotesetoets vir twee steekproewe

249


ElementĂŞre Kwantitatiewe Metodes

s2 = die standaardafwyking van Steekproef 2 Dus:

S p2 =

. D . D

= 7.2979 Sodra ons hierdie waarde het, kan ons die t-stat bereken. Die formule vir die t-stat is: t-stat =

Ě„ Ě„ 6 6

&E F D

waar: x̄ 1 = die gemiddeld van die eerste steekproef x̄ 2 = die gemiddeld van die tweede steekproef Ο1 – Ο2 = die verskil tussen die populasiegemiddelde soos deur die nulhipotese verwag n1 = die steekproefgrootte van die eerste steekproef n2 = die steekproefgrootte van die tweede steekproef Dus: t-stat =

. .

& .

D

= 3.438 Stap 4: Besluit of die nulhipotese verwerp moet word Die t-crit word met die t-stat vergelyk:

250

Hoofstuk 9: Hipotesetoets vir twee steekproewe | Šakademia (MSW)


Elementêre Kwantitatiewe Metodes

As die t-stat hier val, word H0 nie verwerp nie. As die t-stat in hierdie area val, word H0 verwerp.

95% 5% t-crit =1.667

X

t-stat =3.438

Die t-stat lê dus in die gebied van verwerping. Dus: Daar is voldoende statistiese bewys om die H0 te verwerp ten gunste van H1. Stap 5: Gevolgtrekking Die bestuurder se vermoede is bevestig: Personeel wat die werkswinkel bygewoon het, help gemiddeld meer kliënte per dag as personeel wat nie die werkswinkel bygewoon het nie. Vraag 2: ’n Bestuurder van ’n internasionale 24-uur oproepsentrum glo dat personeel wat in die nag werk minder kliënte in ’n skof help as personeel wat in die dag werk. Die bestuurder glo dat nagskofpersoneel dus minder betaal moet word. Die bewering word deur die nagskofpersoneel bevraagteken en die bestuurder besluit om die stelling te toets. Sy neem twee steekproewe uit die dagskof- en nagskofpersoneel onderskeidelik en vind die volgende: Veranderlike Steekproefgemiddeld (x̄ ) Steekproef-

Steekproef/populasie 1

Steekproef/populasie 2

(Nagskofpersoneel)

(Dagskofpersoneel)

13.1 kliënte per skof gehelp

15.2 kliënte per skof gehelp

4.1

5.2

22

20

standaardafwyking (s) Steekproefgrootte (n)

Bepaal, teen ’n 95% vlak van sekerheid, of die bestuurder se aanname – dat ©akademia (MSW)| Hoofstuk 9: Hipotesetoets vir twee steekproewe

251


Elementêre Kwantitatiewe Metodes nagskofpersoneel minder kliÍnte per skof help as dagskofpersoneel – korrek is. Antwoord: Omdat ons nie die populasie se standaardafwyking tot ons beskikking het nie, moet ons die t-toets gebruik. Stap 1: Vind die nul- en alternatiewe hipotese H0: Ο1 – Ο2 ≼ 0 H1: Ο2 – Ο2 < 0 Hierdie is ’n eenkantige (linkskantige) hipotesetoets. Stap 2: Vind die kritiese waarde Om t-crit te vind benodig ons ’n waarde vir ι en die grade van vryheid: ι = 0.05. Omdat dit ’n eenkantige hipotesetoets is, hoef die 0.05 nie deur twee gedeel te word nie. df = n1 + n2 – 2 = 22 + 20 – 2 = 40 In die t-tabel, op die plek waar die 0.05-kolom en die 40-ry kruis, vind ons 'n waarde van 1.684. Omdat dit egter 'n linkskantige hipotesetoets is, sal die t-crit negatief wees. Dus: t-crit = -1.684 Stap 3: Bereken die toetsstatistiek Om die toetsstatistiek te bereken moet ons eers Sp2 bereken: Sp2 = =

* D * D

4. > D <. > D

= 21.6693 Ons kan nou die t-stat bereken: t-stat =

Ě„ Ě„ 6 6

&E F D

waar: x̄ 1 = die gemiddeld van die eerste steekproef

252

Hoofstuk 9: Hipotesetoets vir twee steekproewe | Šakademia (MSW)


ElementĂŞre Kwantitatiewe Metodes

x̄ 2 = die gemiddeld van die tweede steekproef Ο1 – Ο2 = die verskil tussen die populasiegemiddelde soos deur die nulhipotese verwag n1 = die steekproefgrootte van die eerste steekproef n2 = die steekproefgrootte van die tweede steekproef Dus: t-stat =

. .

& .

D

= -1.460 Stap 4: Besluit of die nulhipotese verwerp moet word Om hierdie besluit te neem moet die t-stat met die t-crit vergelyk word: As die t-stat hier val, word H0 nie verwerp nie. As die t-stat in hierdie area val, word H0 verwerp.

95%

5% t-crit = -1.684

X

t-stat = -1.460

Die t-stat val dus nie in die area van verwerping nie. Dus: Daar is nie voldoende bewyse om H0 te verwerp nie. Stap 5: Gevolgtrekking Die bestuurder se aanname is foutief – daar is geen verskil tussen die hoeveelheid kliĂŤnte wat per skof deur die nag- en dagskofpersoneel bedien word nie. Vraag: Watter steekproef is Steekproef 1? Hoe weet ’n mens dat die nagskofpersoneel die eerste steekproef moes wees en die dagskofpersoneel die tweede? Die antwoord is dat dit nie werklik saak maak nie. Indien jy Šakademia (MSW)| Hoofstuk 9: Hipotesetoets vir twee steekproewe

253


Elementêre Kwantitatiewe Metodes sou besluit dat die dagskofpersoneel Steekproef 1 moes wees, sou die hipotese regskantig gewees het (dagskofpersoneel bedien meer kliënte as nagskofpersoneel), die t-crit sou positief gewees het, die t-stat sou positief gewees het, maar die nulhipotese sou steeds nie verwerp word nie. Dus, ongeag watter steekproef as Steekproef 1 geklassifiseer word, die gevolgtrekking sal dieselfde bly. Onthou egter: as jy ’n groep as Steekproef 1 geklassifiseer het, moet jy by daardie klassifisering bly vir die hele hipotesetoets. Probeer dieselfde voorbeeld hierbo, maar stel Steekproef 1 as die dagskofwerkers en Steekproef 2 as die nagskofwerkers. Kyk of jy tot dieselfde gevolgtrekking sal kom. Vraag 3: Die bestuurder van ’n oproepsentrum wil bepaal of daar ’n verskil is tussen die gemiddelde ouderdom van nagskof- en dagskofpersoneel. Die bestuurder onttrek ’n steekproef uit die twee groepe en vind die volgende: Veranderlike

Steekproef/populasie 1

Steekproef/populasie 2

(Nagskofpersoneel)

(Dagskofpersoneel)

26.9 jaar

31.8 jaar

3.1

5.5

18

22

Steekproefgemiddeld (x̄ ) Steekproefstandaardafwyking (s) Steekproefgrootte (n)

Bepaal, teen ’n 95% vlak van sekerheid, of daar ’n verskil tussen die gemiddelde ouderdom van die nagskof- en dagskofpersoneel is. Antwoord: Stap 1: Vind die nul- en alternatiewe hipotese H0: μ1 – μ2 = 0 H1: μ1 – μ2 ≠ 0 Hierdie is ’n tweekantige hipotesetoets. Stap 2: Vind die kritiese waarde Die α-waarde is 0.05. Omdat dit ’n tweekantige hipotesetoets is, moet die α-waarde deur twee gedeel word. Ons gebruik dus α = 0.025. Die grade van vryheid is:

254

Hoofstuk 9: Hipotesetoets vir twee steekproewe | ©akademia (MSW)


ElementĂŞre Kwantitatiewe Metodes

df = n1 + n2 – 2 = 18 + 22 – 2 = 38 Die plek in die t-tabel waar die 0.025-kolom en die 38-ry kruis, verskaf ’n t-waarde van 2.024. Omdat dit ’n tweekantige hipotesetoets is, kom die t-crit aan beide kante van die normaalverdeling voor. Dus: t-crit = ¹2.204 Stap 3: Bereken die toetsstatistiek Om die toetsstatistiek te bereken moet ons eers Sp2 bereken:

S p2 = =

* D * D

. D . D

= 21.0163 Nou kan ons die t-stat bereken: t-stat =

=

Ě„ Ě„ 6 6

&E F D

. .

& .

D

= -3.363 Stap 4: Besluit of die nulhipotese verwerp moet word Om hierdie besluit te neem moet die t-stat met die t-crit vergelyk word:

Šakademia (MSW)| Hoofstuk 9: Hipotesetoets vir twee steekproewe

255


Elementêre Kwantitatiewe Metodes

As die t-stat hier val, word H0 nie verwerp nie. As die t-stat in hierdie area val, word H0 verwerp.

2.5% X

As die t-stat in hierdie area val, word H0 verwerp.

95% t-crit = -2.204

2.5% t-crit = 2.204

t-stat = -3.363

Die t-stat val in die verwerpingsgebied. Dus: Daar is voldoende bewys om H0 te verwerp ten gunste van H1. Stap 5: Gevolgtrekking Daar is wel ’n verskil tussen die gemiddelde ouderdom van dagskof- en nagskofpersoneel. Vraag 4: Vasvat Versekeraars Kyk weer na die probleem wat Vanessa aan die begin van hierdie hoofstuk met Michael gedeel het. Tydens ’n steekproef in twee verskillende populasies (Vat-dit-kalm-kliënte en Pasgemaak-kliënte) is die volgende data gevind:

Vat-dit-kalm

Pasgemaak

1.32

1.89

Standaardafwyking (s)

0.45

0.76

Steekproefgrootte (n)

46

36

Gemiddelde motorkoopfrekwensie (motors per 5 jaar)

Vasvat Versekeraars vermoed dat die Pasgemaak-kliënte meer gereeld motors koop as die Vat-dit-kalm-kliënte. Toets nou hierdie hipotese teen ’n 95% vlak van sekerheid. Antwoord: Jy kan self besluit watter steekproef jy as Steekproef 1 en Steekproef 2 wil klassifiseer. Vir

256

Hoofstuk 9: Hipotesetoets vir twee steekproewe | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes hierdie voorbeeld sal ons Vat-dit-kalm-kliÍnte in Steekproef 1 plaas, terwyl die PasgemaakkliÍnte Steekproef 2 sal wees. Die besigheidsvraag sal dan ook aangepas word: Ons wil toets of die Vat-dit-kalm-kliÍnte minder gereeld motors koop as die Pasgemaak-kliÍnte. Stap 1: Vind die nul- en alternatiewe hipotese H0: Ο1 – Ο2 ≼ 0 H1: Ο1 – Ο2 < 0 Hierdie is ’n eenkantige (linkskantige) hipotese. Stap 2: Vind die kritiese waarde Die ι-waarde is 0.05. Omdat dit ’n eenkantige hipotesetoets is, hoef hierdie waarde nie in twee gedeel te word nie. Die grade van vryheid word soos volg bereken: df = n1 + n2 – 2 = 46 + 36 – 2 = 80 Die plek in die t-tabel waar die 0.05-kolom en 80-ry kruis, verskaf ’n t-waarde van 1.664. Omdat hierdie ’n linkskantige hipotesetoets is, sal die t-crit negatief wees. Dus: t-crit = -1.664 Stap 3: Bereken die toetsstatistiek Om die t-stat te bereken moet ons eers Sp2 bereken:

S p2 = =

* D * D

. D . D

= 0.367 Ons kan nou die t-stat bereken: t-stat =

=

Ě„ Ě„ 6 6

&E F D

. . D

& .

= -4.228 Šakademia (MSW)| Hoofstuk 9: Hipotesetoets vir twee steekproewe

257


Elementêre Kwantitatiewe Metodes

Stap 4: Besluit of die nulhipotese verwerp moet word Vergelyk die t-stat met die t-crit: As die t-stat hier val, word H0 nie verwerp nie. As die t-stat in hierdie area val, word H0 verwerp.

5% X

95%

t-crit = -1.664

t-stat = -4.228

Die t-stat val in die area van verwerping. Dus: Daar is voldoende bewyse om H0 te verwerp ten gunste van H1. Stap 5: Gevolgtrekking Die Vat-dit-kalm-kliënte koop inderdaad minder gereeld motors as die Pasgemaak-kliënte. (Hierdie gevolgtrekking kan ook herfraseer word na: Die Pasgemaak-kliënte koop inderdaad meer gereeld motors as die Vat-dit-kalm-kliënte.)

9.3

Die gepaarde t-toets (matched pair t-test)

’n Tweede vraag wat deur Vasvat versekeraars gevra is, behels die verandering wat ’n spesifieke populasieverandering oor ’n sekere tydperk ondergaan het. In Vasvat se geval is dit die gemiddelde ses-maande verkoopsyfers, voor en na die opleiding. Ander vrae wat deur hierdie spesiale toets beantwoord kan word, is: •

Het studente beter punte behaal na die ekstra klas aangebied is?

Het pasiënte se witbloedsel-telling toegeneem/afgeneem nadat hulle behandeling ontvang het?

Het die voorkoms van padongelukke verminder nadat die bewusmakingsveldtog geloods is?

258

Hoofstuk 9: Hipotesetoets vir twee steekproewe | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes Hierdie hipotesetoets verskil van die vorige toetse in hierdie hoofstuk in die sin dat ons een populasie twee keer ondersoek om te bepaal of ’n sekere populasiegemiddeld toegeneem, afgeneem of dieselfde gebly het. Die stappe vir ’n hipotesetoets bly dieselfde. Hierdie toets word op dieselfde wyse benader as die t-toets wat ons in Hoofstuk 8 gedoen het. Die enigste verskil is dat ons steekproefgemiddeld nie x̄ is nie, maar x̄ d. En x̄ d moet eers bereken word voordat ons met die hipotesetoets kan begin. Sodra x̄ d gevind word, kan die hipotesetoets op dieselfde wyse as Hoofstuk 8 se t-toets voltooi word.

Belangrik: Soos jy uit die bogenoemde bespreking kan aflei, is dit belangrik dat jy Hoofstuk 8 onder die knie het voordat jy met hierdie hipotesetoets kan voortgaan. Die volgende voorbeelde verduidelik hoe die gepaarde t-toets gedoen word.

Voorbeeld: Die gepaarde t-toets Vraag 1: ’n Statistiekdosent wil bepaal of Winterskool ’n positiewe effek op studente se punte het. Die dosent laat studente ’n toets skryf voordat hulle die Winterskool bywoon. Na die Winterskool laat die dosent die studente ’n soortgelyke toets skryf. Die dosent wil bepaal of die studente se punte verbeter het na die Winterskool. Hy neem ’n steekproef van 15 studente en vind elk se punte voor en na die toets. Die punte word hieronder verskaf: Leerder

Toetspunt voor Winterskool

Toetspunt na Winterskool

1

75

79

2

70

74

3

50

55

4

40

45

5

66

62

6

67

65

7

65

68

8

68

74

©akademia (MSW)| Hoofstuk 9: Hipotesetoets vir twee steekproewe

259


Elementêre Kwantitatiewe Metodes

9

68

66

10

70

72

11

73

72

12

75

77

13

88

85

14

83

90

15

90

89

Bepaal, teen ’n 95% vlak van sekerheid, of die populasie se punte verbeter het na die Winterskool. Antwoord: Voordat ons met die hipotesetoets kan begin, moet ons eers die nodige steekproefstatistieke bereken. Hierdie is die gemiddeld en standaardafwyking van die verskil in punte. Om die gemiddeld en standaardafwyking te bereken moet ons dus eers gaan bepaal wat die verskil in punte vir elke student is. Ons kan dit in tabelvorm doen:

260

Studente

Toetspunt voor Winterskool

Toetspunt na Winterskool

Verskil in punte (Xd)

1

75

79

-4

2

70

74

-4

3

50

55

-5

4

40

45

-5

5

66

62

4

6

67

65

2

7

65

68

-3

8

68

74

-6

9

68

66

2

10

70

72

-2

11

73

72

1

Hoofstuk 9: Hipotesetoets vir twee steekproewe | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

12

75

77

-2

13

88

85

3

14

83

90

-7

15

90

89

1

Wanneer die Xd kolom se waardes bereken is, kan ons die oorblywende twee kolomme (toetspunt voor die Winterskool en toetspunt na die Winterskool) vir die res van die hipotesetoets ignoreer. Ons berekening word nou slegs met die Xd kolom se waardes gedoen. Toetspunt voor

Toetspunt na

Verskil in punte

Winterskool

Winterskool

(Xd)

1

75

79

-4

2

70

74

-4

3

50

55

-5

4

40

45

-5

5

66

62

4

6

67

65

2

7

65

68

-3

8

68

74

-6

9

68

66

2

10

70

72

-2

11

73

72

1

12

75

77

-2

13

88

85

3

14

83

90

-7

15

90

89

1

Studente

Gemiddeld van verskil in punte Hierdie veranderlike word as x̄ d voorgestel. Dit is die gemiddelde verskil in die punte, met ander woorde, die gemiddeld van die laaste kolom in die tabel hierbo: ©akademia (MSW)| Hoofstuk 9: Hipotesetoets vir twee steekproewe

261


Elementêre Kwantitatiewe Metodes

x̄ d = [(-4) + (-4) + (-5) + (-5) + 4 + 2 + (-3) + (-6) + 2 + (-2) + 1 + (-2) + 3 + (-7) + 1] / 15 = -1.667 Let daarop dat hierdie gemiddeld negatief is, wat beteken die gemiddelde verskil tussen die toetspunt voor die Winterskool en die toetspunt na die Winterskool, is negatief. Dit beteken dat, gemiddeld, die toetspunt na die Winterskool groter is as die toetspunt voor die Winterskool. Standaardafwyking Die standaardafwyking word bereken met die formule wat in Hoofstuk 3 verskaf word. Die waardes wat vir die standaardafwyking gebruik word, is ook slegs die Xd kolom se waardes. Jy kan self die standaardafwyking bereken. Hou in gedagte dat die gemiddeld ’n negatiewe waarde is. Byvoorbeeld: die eerste waarde in die Xd kolom is -4. Die gemiddeld is -1.667. Dus sal (xd – x̄ d)2 vir die eerste waarde soos volg bereken word: [-4 – (-1.667)]2 = (-4 + 1.667)2 = -2.3332 = 5.443 Jy sal hierdie berekening moet herhaal vir elke waarde in die xd kolom om by die standaardafwyking uit te kom. Die standaardafwyking is: sd = 3.559 Ons het nou al die nodige veranderlikes om ’n gewone t-toets uit te voer: Stap 1: Vind die nul- en alternatiewe hipotese H0: μd ≥ 0 H1: μd < 0 Die alternatiewe hipotese beweer dat die gemiddelde toetspunt meer is na die Winterskool as voor die Winterskool. Met ander woorde, die gemiddelde verskil (toetspunt voor die Winterskool minus toetspunt na die Winterskool) is negatief. Hierdie is ’n eenkantige (linkskantige) hipotesetoets. Stap 2: Vind die kritiese waarde Die α-waarde is 0.05. Omdat dit ’n eenkantige hipotesetoets is, hoef ons nie die 0.05 in twee te deel nie.

262

Hoofstuk 9: Hipotesetoets vir twee steekproewe | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

Die grade van vryheid is: df = n – 1 = 15 – 1 = 14 Die plek in die t-tabel waar die 0.05-kolom en die 14-ry kruis, gee aan ons ’n t-waarde van 1.761. Omdat dit ’n linkskantige hipotesetoets is, sal hierdie waarde egter negatief wees. Dus: t-crit = -1.761 Stap 3: Bereken die toetsstatistiek Die formule vir ’n gewone t-toets vir een steekproef kan gebruik word: t-stat =

̄G 6G *G √

waar: x̄ d = steekproefgemiddeld vir die verskil μd = populasiegemiddeld vir die verskil soos deur die nulhipotese gestel sd = die steekproef-standaardafwyking vir die verskil n = die steekproefgrootte Dus: t-stat =

. . √

= -1.814 Stap 4: Besluit of die nulhipotese verwerp moet word Die t-stat moet met die t-crit vergelyk word:

©akademia (MSW)| Hoofstuk 9: Hipotesetoets vir twee steekproewe

263


Elementêre Kwantitatiewe Metodes

As die t-stat hier val, word H0 nie verwerp nie. As die t-stat in hierdie area val, word H0 verwerp.

95%

5% X

t-crit = -1.761

t-stat = -1.814

Die t-stat lê in die area van verwerping. Dus: Daar is voldoende bewyse om H0 te verwerp ten gunste van H1. Stap 5: Gevolgtrekking Die verskil tussen die punte is inderdaad kleiner as nul. Dit beteken dat die punte wel toegeneem het na die Winterskool. Vraag 2: Terug by Vasvat Versekeraars Gestel Vanessa en Michael het die navorsing soos aan die begin van hierdie hoofstuk bespreek, uitgevoer. Onthou dat Vasvat Versekeraars wou weet of die werkswinkel wel personeel se verkoopsyfers beïnvloed het. Meer spesifiek, hulle wou weet of die personeel se verkope gemiddeld meer was na die werkswinkel as voor die werkswinkel. Die dataversamelingsproses het die volgende resultate van 20 werknemers gelewer:

Ses maande se verkoopsyfers Personeel Voor die werkswinkel

264

Na die werkswinkel

1

R120 000

R130 000

2

R120 500

R110 000

3

R90 500

R110 000

4

R170 000

R190 000

Hoofstuk 9: Hipotesetoets vir twee steekproewe | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

5

R220 000

R245 000

6

R77 800

R77 900

7

R230 000

R180 000

8

R330 000

R344 000

9

R176 900

R180 000

10

R580 000

R550 000

11

R150 000

R300 000

12

R160 500

R165 000

13

R155 100

R157 000

14

R322 000

R325 000

15

R221 000

R229 000

16

R276 500

R278 500

17

R113 800

R120 500

18

R167 500

R180 000

19

R340 500

R390 000

20

R75 500

R80 000

Bepaal nou, teen ’n 95% vlak van sekerheid, of die personeel by Vasvat Versekeraars wat die werkswinkel bygewoon het, se verkoopsyfers wel toegeneem het na die werkswinkel. Antwoord: Om die vraag te beantwoord benodig ons weereens die verskil tussen die verkoopsyfers voor en na die werkswinkel. Dan benodig ons die gemiddeld en die standaardafwyking van die verskil. Hierdie statistieke word in die onderstaande tabel voorgestel:

Ses maande se verskoopsyfers Personeel Voor die werkswinkel

Na die werkswinkel

xd

1

R120 000

R130 000

-R10 000

2

R120 500

R110 000

R10 500

©akademia (MSW)| Hoofstuk 9: Hipotesetoets vir twee steekproewe

265


Elementêre Kwantitatiewe Metodes

3

R90 500

R110 000

-R19 500

4

R170 000

R190 000

-R20 000

5

R220 000

R245 000

-R25 000

6

R77 800

R77 900

-R100

7

R230 000

R180 000

R50 000

8

R330 000

R344 000

-R14 000

9

R176 900

R180 000

-R3 100

10

R580 000

R550 000

R30 000

11

R150 000

R300 000

-R150 000

12

R160 500

R165 000

-R4 500

13

R155 100

R157 000

-R1 900

14

R322 000

R325 000

-R3 000

15

R221 000

R229 000

-R8 000

16

R276 500

R278 500

-R2 000

17

R113 800

R120 500

-R6 700

18

R167 500

R180 000

-R12 500

19

R340 500

R390 000

-R49 500

20

R75 500

R80 000

-R4 500

Gemiddeld (x̄ d) Standaardafwyking (sd)

-R12 190 R38 059.30

Met hierdie waardes tot ons beskikking, kan ons nou die hipotesetoets doen: Stap 1: Vind die nul- en alternatiewe hipotese H0: μd ≥ 0 H1: μd < 0 Hierdie is ’n eenkantige (linkskantige) hipotesetoets. Stap 2: Vind die kritiese waarde Die α-waarde is 0.05. Omdat dit ’n eenkantige hipotesetoets is, hoef ons nie die 0.05 in twee

266

Hoofstuk 9: Hipotesetoets vir twee steekproewe | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes te deel nie. df = n – 1 = 20 – 1 = 19 Die plek in die t-tabel waar die 0.05-kolom en die 19-ry kruis, verskaf ’n t-waarde van 1.729. Omdat dit ’n linkskantige hipotesetoets is, sal die t-crit ook negatief wees. Dus: t-crit = -1.729 Stap 3: Bereken die toetsstatistiek Die formule vir die toetsstatistiek is: t-stat =

Ě„G 6G *G √

waar: x̄ d = steekproefgemiddeld vir die verskil Οd = populasiegemiddeld vir die verskil soos deur die nulhipotese gestel sd = die steekproef-standaardafwyking vir die verskil n = die steekproefgrootte Dus: t-stat =

. √

= -1.432 Stap 4: Besluit of die nulhipotese verwerp moet word Die t-stat moet met die t-crit vergelyk word:

Šakademia (MSW)| Hoofstuk 9: Hipotesetoets vir twee steekproewe

267


Elementêre Kwantitatiewe Metodes

As die t-stat hier val, word H0 nie verwerp nie. As die t-stat in hierdie area val, word H0 verwerp.

95%

5% t-crit = -1.729

X

t-stat = -1.432

Die t-stat lê nie in die area van verwerping nie. Dus: Daar is nie voldoende bewys om H0 te verwerp nie. Stap 5: Gevolgtrekking Daar is geen verskil tussen die verkoopsyfers voor en na die werkswinkel nie.

9.4

Ten slotte

Ons het in hierdie hoofstuk na twee tipes hipotesetoetse gekyk. Die eerste toets of daar ’n verskil tussen die gemiddelde van ’n spesifieke veranderlike in twee populasies is. Die tweede toets of daar ’n toename of afname in ’n spesifieke veranderlike in ’n spesifieke populasie is. Al die hipotesetoetse in hierdie hoofstuk, asook in Hoofstuk 8, het egter net op een veranderlike gefokus. Die volgende hoofstuk bespreek ’n baie spesiale hipotesetoets: ’n toets wat bepaal of twee veranderlikes in een populasie statisties afhanklik is van mekaar. Hierdie is ’n belangrike toets: wanneer ’n verwantskap tussen twee veranderlikes ontdek word, is dit die eerste stap om te kan bepaal of een veranderlike ’n invloed op die ander het. Hoofstuk 10 sal hierdie hipotesetoets in meer besonderhede bespreek.

268

Hoofstuk 9: Hipotesetoets vir twee steekproewe | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

HOOFSTUK 10: HIPOTESETOETS VIR STATISTIESE AFHANKLIKHEID

Onderwerpe 10.1

Statistiese afhanklikheid

10.2

Die χ2-stat

©akademia (MSW)| Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid

269


Elementêre Kwantitatiewe Metodes

Gevallestudie… “Michael, ontmoet my suster, Nadia en haar verloofde, Werner. Werner snork.” Michael staar verward na Sonja. Michael kon aan ’n hele rits redes dink waarom Sonja hom na StatInc se koffiewinkel genooi het, maar nie een van daardie redes sluit ’n bekendstelling aan haar familie in nie. En die feit dat Werner snork is ’n stukkie inligting waarop hy nie voorbereid was nie. Onder normale omstandighede is Michael nie op die bek geval nie, maar al wat hy nou doen is om skaapagtig na Sonja te sit en staar. Sonja gaan egter onverpoosd voort. “Dit is ’n belangrike stukkie inligting vir jou, Michael. Veral omdat jy en Werner ’n kamer sal moet deel.” “Ek is bevrees jy het my lankal verloor,” is al wat Michael kan uitkry. “Ek haat dit om ’n kamer te deel met iemand wat snork. Ek het gedink jy sou dit wou weet voordat jy finaal besluit om saam te gaan.” “Saamgaan waarheen?” “Europa toe, natuurlik!” En dan tref dit Michael. “Jy’t gewen?” Sonja is in ekstase. “Natuurlik het ek gewen! En ek is iemand wat my woord hou, so jy is een van die reisigers wat Nederland, Frankryk en Engeland gaan besoek. Dit is nou as jy nie omgee om ’n kamer met ’n snorker te deel nie. Vir my sou dit ’n deal breaker wees.” “Haai,” protesteer Werner. “As jou suster enigsins geglo kan word, is jy ’n kampioen as dit by balke saag kom.” Nadia lag. “Werner! Dit is vertroulike inligting. Wat moet Michael van ons dink?” “Dis fantasties!” Michael sukkel om verhaal te kom. “Wat is?” skerts Sonja. “Die feit dat Werner dink ek snork of die vakansie?” “Hierdie is nie een of ander grap nie?” vra Michael. Werner trek ’n gepynigde gesig. “Ek is bevrees dit is die absolute, reine waarheid. Ek en jy gaan twee weke in die geselskap van die veeleisendste mense op die planeet deurbring.” “So ek het reg geraai?” Sonja knik. “Jy beter jou statistiese vaardighede aanwend om die weer te voorspel. Ek kan nie vir vier seisoene pak nie. Kom Nadia, ek wil my neus gaan poeier.”

270

Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

Sonja en Nadia staan op. “Mens gebruik nie meer daardie uitdrukking nie,” skerts Nadia terwyl hulle wegstap en vir Werner en Michael alleen los. “Ek hoor jy is ’n Statistiek-fundi,” sê Werner ’n paar oomblikke later. Michael bloos. “Ek sou nie so sê nie. Ek is ’n eerstejaarstudent.” “Volgens wat Sonja my vertel het, is jy een stappie onder Einstein. Dis nou as Einstein Statistiek kon doen.” “Ek is seker hy kon en ek het nog baie jare om te gaan voordat ek een stappie onder Einstein met enigiets sal wees.” Werner kry ’n idee. “Ek en Nadia stry nou al vir maande oor iets. Miskien kan jy ons help om finaal vrede te kry.” “Het dit iets met Statistiek te doen?” Michael is dadelik geïnteresseerd. “Absoluut,” antwoord Werner. “Wie weet, dalk sal jy ons huwelik red,” voeg hy gemaakernstig by. “Ek sal my bes probeer. Wat is die probleem?” “Dit is eintlik eenvoudig,” verduidelik Werner. “Ek glo dat die hoeveelheid geld wat ek op vakansie spandeer, nie altyd dieselfde is nie.” “Daar is duisende faktore wat jou uitgawes kan beïnvloed.” “Ek is geïnteresseerd in een van daardie faktore. Die verskil of jy alleen, of saam met vriende reis. Ek glo dat reisigers wat saam met hul vriende reis nie dieselfde geld spandeer as reisigers wat alleen reis nie.” Michael dink ’n oomblik. “Jy het ’n navorsingsprojek met ’n eksperimentele ontwerp nodig.” “Kan jy dit doen?” “Ongelukkig nie. Dit is baie gekompliseerd. As jy wil seker wees dat jou metgeselle, of die gebrek daaraan, jou uitgawes beïnvloed, moet jy alle ander moontlike faktore in ag neem. Dit is ’n komplekse proses.” Werner knik afgehaal. “Ek sien. Ek het so gehoop dat ek ’n antwoord op hierdie lewensbelangrike vraag kon kry.” Michael kry 'n idee. “Wat ek wel kan doen, is om te bepaal of die twee veranderlikes statisties afhanklik is. Ek kan kyk of reisuitgawes en of jy alleen of met vriende reis, aan

©akademia (MSW)| Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid

271


Elementêre Kwantitatiewe Metodes mekaar verwant is.” “Wat is die verskil tussen dit en die eksperimentele ontwerp?” “’n Eksperimentele ontwerp toets die invloed van een veranderlike op ’n ander een. Een veranderlike kan nie ’n invloed op ’n ander een hê as die veranderlikes nie statisties afhanklik is nie.” “So, as jy vind dat die hoeveelheid geld wat jy op vakansie spandeer wel... uhm... statisties afhanklik is van of jy alleen of met vriende reis, wat beteken dit?” wil Werner weet. “Wel, as ons statistiese afhanklikheid vind, is daar ’n moontlikheid dat die een veranderlike die ander beïnvloed. Dit is egter slegs ’n eerste stap in die toets vir invloed.” “Maar as ons vind dat die twee veranderlikes nié afhanklik is nie...” huiwer Werner “...dan kan ons aanneem dat daar geen invloed van die een veranderlike op die ander is nie,” voltooi Michael die sin. “Ek sien. So die uitslag sal óf beteken dat Nadia reg is, óf dat ek dalk, dalk miskien reg kan wees?” “So iets. Wil jy die kans waag om verkeerd te wees?” Werner lag en sê dan gemaak-vertroulik: “Ons maak dit ’n geheime navorsingsprojek.” “Ek begin dadelik,” lag Werner. Hy weet sommer dat die twee weke in Europa ’n vakansie sal wees wat hy nooit sal vergeet nie.

10.1 Statistiese afhanklikheid ’n Belangrike uitdaging waarmee navorsers gekonfronteer word, is om te bepaal of een veranderlike ’n invloed op ’n ander veranderlike het. Beïnvloed die wisselkoers SuidAfrikaners se besluit om in die buiteland vakansie te hou? Sal maklike krediet veroorsaak dat ’n kliënt meer geld spandeer? Het die kleur, uitleg en atmosfeer van ’n winkel ’n invloed op die hoeveelheid geld wat kliënte in die winkel spandeer? Hierdie vrae is nie maklik om te beantwoord nie. Navorsing wat poog om hierdie vrae te beantwoord volg ’n eksperimentele ontwerp, iets wat nie binne die raamwerk van hierdie gids val nie. Wat het hierdie tipe vrae dan met hierdie hoofstuk te doen? Een van die eerste vereistes (en dus toetse wat uitgevoer word) om te bepaal of een veranderlike ’n ander beïnvloed, is statistiese afhanklikheid. As daar gevind word dat twee veranderlikes statisties onafhanklik is, beteken dit dat die veranderlikes mekaar nie

272

Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes beïnvloed nie. Die toets vir statistiese afhanklikheid is dus ’n eerste stap om te bepaal of twee veranderlikes mekaar beïnvloed. Dit is belangrik om op die volgende te let: •

Indien twee veranderlikes statisties afhanklik is, is daar ’n moontlikheid dat een veranderlike die ander kan beïnvloed. Statistiese afhanklikheid is nie voldoende bewys dat een veranderlike ’n ander beïnvloed nie.

Indien twee veranderlikes statisties onafhanklik is, kan ons aanneem dat die een nie die ander sal beïnvloed nie.

Statistiese afhanklikheid is ’n vereiste wat nodig is, maar nie voldoende is om die invloed van een veranderlike op ’n ander te toets nie.

Voorbeeld: Die verskil tussen invloed en statistiese afhanklikheid ’n Navorser versamel die verkoopsyfers van ’n bakkery en ’n apteek op ’n vakansiedorpie by die see. Die navorser vind dat daar een of ander statistiese afhanklikheid tussen die verkoopsyfers van die bakkery en die apteek is. Wanneer die bakkery se verkoopsyfers verhoog, blyk dit dat die apteek se syfers ook verhoog, veral tydens Desember. Die verkoopsyfers van die bakkery en die apteek is dus statisties afhanklik. Kan die navorser dus tot die gevolgtrekking kom dat die bakkery se brood die mense siek maak? Natuurlik nie! Daar is wel ’n afhanklikheid tussen die veranderlikes – iets wat nodig is om die invloed van die een veranderlike op ’n ander veranderlike toe toets, maar statistiese afhanklikheid is nie voldoende bewys hiervoor nie. Die navorser moet eers alle ander moontlike veranderlikes (soos die tyd van die jaar, die hoeveelheid besoekers aan die vakansiedorpie, of advertensies in dieselfde publikasies) in ag neem voordat sy so ’n invloed kan vind. Hierdie hoofstuk sal nie die invloed van een veranderlike op ’n ander toets nie. Dit sal egter toets of daar een of ander statistiese afhanklikheid tussen die veranderlikes is. Die toetsstatistiek wat ons in hierdie geval gebruik, is die chi-kwadraatstatistiek of χ2-stat (chisquared stat).

10.2 Die χ2-stat Die berekening van die toetsstatistiek verskil van dié van ander hipotesetoetse. Voordat hierdie statistiek bereken kan word, moet die rasionaal onderliggend aan die toetsstatistiek eers verstaan word. Om die rasionaal te verduidelik sal die volgende voorbeeld gebruik word: ©akademia (MSW)| Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid

273


Elementêre Kwantitatiewe Metodes ’n Navorser wil bepaal of die geslag van ’n kliënt en die kleur motor wat deur daardie kliënt gekies word, statisties afhanklik is. Die navorser kyk na 350 transaksies en kyk spesifiek na die geslag van die kliënt en die kleur motor wat gekoop is. Die volgende data word verkry: Kliënt geslag Manlik

TOTAAL

Vroulik

Rooi motor

46

34

80

Silwer motor

90

120

210

Blou motor

33

27

60

169

181

350

TOTAAL

Die nulhipotese van hierdie tipe toets beweer dat daar geen statistiese afhanklikheid is nie. Dit beteken: •

Daar is ongeveer ewe veel rooi motors deur mans as vroue gekoop.

Daar is ongeveer ewe veel silwer motors deur mans as vroue gekoop.

Daar is ongeveer ewe veel blou motors deur mans as vroue gekoop.

Op die oog af lyk dit of die nulhipotese moontlik nie korrek is nie. Daar is veral ’n groot verskil by die silwer motor se verkope. “Op die oog af” is egter nie ’n akkurate wyse om ’n hipotese te toets nie. Ons moet steeds ’n toetsstatistiek bereken. Die χ2 (chi-kwadraat)-toets volg die volgende logika: •

Skep ’n tabel van ’n datastel wat eenhonderd persent statisties onafhanklik is, deur van die totale in die tabel hierbo gebruik te maak. Hierdie tabel se waardes word verwagte waardes genoem.

Vergelyk die data wat ons deur die steekproef verkry het (geobserveerde waardes) met hierdie verwagte waardes. Indien dit soortgelyk is, is die veranderlikes onafhanklik. Indien dit drasties verskil, is die veranderlikes afhanklik.

274

Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes Die skets hieronder poog om hierdie rasionaal grafies voor te stel: X X X X X X

<------- VERGELYK ------>

X X X X X X

X X X X X X

As hierdie twee dieselfde is,

X X X X X X

is die veranderlikes

X X X X X X

statisties onafhanklik.

Hierdie is hoe my data sou lyk as die veranderlikes

As hierdie twee drasties verskil, is die veranderlikes

statisties

statisties afhanklik.

ONAFHANKLIK

X X X X X X Hierdie is die data wat ek met my steekproef versamel het. Ons noem dit die

was.

geobserveerde waardes.

Ons noem dit die verwagte waardes.

Hierdie waardes

Jy moet hierdie

word in die vraag

waardes self gaan

vir jou gegee.

bereken. Figuur 10.1: Grafiese voorstelling van verwagte en geobserveerde waardes Vir die bogenoemde voorbeeld gaan ons nou die χ2-stat bereken. Die geobserveerde waardes: Hierdie waardes is reeds verskaf as deel van die vraag. Dit is die data wat vanaf die steekproef deur ons dataversameling verkry is. Vir maklike verwysing word hierdie waardes weer hieronder verskaf: Kliënt geslag

TOTAAL

Manlik

Vroulik

Rooi motor

46

34

80

Silwer motor

90

120

210

Blou motor

33

27

60

TOTAAL

169

181

350

©akademia (MSW)| Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid

275


Elementêre Kwantitatiewe Metodes Verwagte waardes: Ons moet nou ’n tabel opstel wat gaan aandui hoe die waardes sou lyk as die veranderlikes statisties onafhanklik sou wees. Om die verwagte waardes te bereken benodig ons die totale van die geobserveerde waardes (die tabel hierbo): Kliënt geslag TOTAAL Manlik

Vroulik

Rooi motor

80

Silwer motor

210

Blou motor

60

TOTAAL

169

181

350

Nou moet ons die verwagte waardes vir elk van die leë selle gaan bereken. Die formule om hierdie waardes te bereken, kan soos volg beskryf word: Verwagte waarde = (Rytotaal x Kolomtotaal) / Totaal Dus, om die verwagte waarde vir die hoeveelheid manlike kliënte wat rooi motors gekoop het te bereken, neem ons die rytotaal (80 vir rooi motors), vermenigvuldig dit met die kolomtotaal (169 vir manlike kliënte) en deel die antwoord deur die totale kliënte (350 kliënte): (80 x 169) / 350 = 38.629 Dus is die verwagte waarde vir manlike kliënte wat rooi motors koop: Kliënt geslag TOTAAL Manlik Rooi motor

80

38.629

Silwer motor

210

Blou motor

60

TOTAAL

276

Vroulik

169

181

350

Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid | ©akademia (MSW)


ElementĂŞre Kwantitatiewe Metodes Die verwagte waarde vir manlike kliĂŤnte wat silwer motors koop is: KliĂŤnt geslag Manlik

TOTAAL

Vroulik 80

Rooi motor Silwer motor

210

101.4

60

Blou motor TOTAAL

169

181

350

of (210 x 169) / 350 = 101.4 Herhaal hierdie proses totdat daar ’n verwagte waarde vir elke leÍ sel is. Jy kan toets of jy jou verwagte waardes korrek bereken het deur al die selle se waardes op te tel. Jou ry- en kolomtotale moet steeds dieselfde wees as die oorspronklike (geobserveerde) waardes. Vir hierdie voorbeeld sal die verwagte-waardes-tabel soos volg lyk. Verwagte waardes (indien statisties onafhanklik) KliÍnt geslag TOTAAL Manlik

Vroulik

Rooi motor

38.63

41.37

80

Silwer motor

101.40

108.60

210

Blou motor

28.97

31.03

60

169

181

350

TOTAAL

Die verwagte waardes word deur die simbool fe voorgestel (die “eâ€? staan vir “expectedâ€?). Die geobserveerde waardes sal dan deur fo voorgestel word. Bereken χ2-stat Om die verskil tussen die verwagte en geobserveerde waardes te bepaal, gaan die χ2-stat bereken word. Die formule is: χ2-stat = ∑

H

Dit egter makliker om hierdie statistiek met ’n tabel te bereken. Die tabel lyk soos volg: Šakademia (MSW)| Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid

277


ElementĂŞre Kwantitatiewe Metodes

Geslag

Kleur

Manlik

Rooi motor

(fo – fe)2

fe

fo

H −

Silwer motor Blou motor Vroulik

Rooi motor Silwer motor Blou motor χ2-stat

Hierdie tabel word dan nou van die linkerkant na die regterkant ingevul. Die eerste twee kolomme is maklik: ons het reeds die geobserveerde en verwagte waardes bereken. Ons kan dit net so uit die onderskeie tabelle oorskryf: Geslag

Kleur

Manlik

Rooi motor

46

38.63

Silwer motor

90

101.40

Blou motor

33

28.97

Rooi motor

34

41.37

120

108.60

27

31.03

Vroulik

Silwer motor Blou motor

fe

fo

(fo – fe)2

H −

χ2-stat Sodra hierdie waardes oorgedra is, kan ons met die berekeninge voortgaan. Om die berekeninge te vergemaklik word dit in twee kolomme ingedeel: •

(fo – fe)2: Neem elke waarde in die fo-kolom, trek die waarde in die fe-kolom daarvan af en kwadreer die antwoord.

•

H :

Neem nou die antwoord wat in die (fo – fe)2-kolom verkry is, en deel dit deur

die waarde in die fe-kolom.

278

Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid | Šakademia (MSW)


ElementĂŞre Kwantitatiewe Metodes

•

Tel die waardes in die

JK JL > JL

-kolom bymekaar. Die antwoord is die χ2-stat.

As ons hierdie berekeninge gedoen het, sal die finale tabel soos volg lyk: Geslag

Kleur

Manlik

Rooi motor

46

Silwer motor

90

Blou motor Rooi motor

Vroulik

fo

Silwer motor

fe

38.63 54.33796

1.406678 1.281657

33

28.97 16.22939

0.560186

34

41.37 54.33796

1.313418

27

101.40

H −

129.96

120

Blou motor

(f0 – fe)2

108.60

129.96

1.196685

31.03 16.22939

0.523047

χ2-stat

6.28167

Die χ2-stat is dus 6.282. Dit sal met die χ2-crit vergelyk word om te bepaal of H0 verwerp kan word. Die bogenoemde bespreking het slegs op die berekeninge van die χ2-stat gefokus. Die res van die hoofstuk sal die volledige hipotesetoets behandel. Ter opsomming: om ’n χ2-stat te bereken moet die volgende gedoen word: •

Die waardes wat deur die steekproefneming verkry word, word die geobserveerde waardes genoem en deur die simbool fo voorgestel.

•

Bereken die verwagte waardes. Die verwagte waardes is ’n beraming van die waardes wat verkry sou word indien daar geen afhanklikheid tussen die veranderlikes was nie. Verwagte waardes word met die simbool fe voorgestel.

•

In tabelformaat, bereken

•

Tel die waardes in die

JK JL > JL

JK JL > JL

vir elke verwagte en geobserveerde waarde.

-kolom bymekaar. Hierdie totaal is die χ2-stat.

Šakademia (MSW)| Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid

279


Elementêre Kwantitatiewe Metodes

Voorbeeld: Hipotesetoets vir statistiese afhanklikheid

Vraag 1: ’n Navorser wil bepaal of Suid-Afrikaners en buitelandse toeriste dieselfde besienswaardighede in Suid-Afrika besoek. Die navorser verdeel die besienswaardighede in drie kategorieë: •

Monumente en geboue

Nasionale parke (om wilde diere te sien)

Strande

Die navorser vra vir 450 vakansiegangers wat hul gunsteling vakansiebestemming in SuidAfrika is. Hy vra ook vir elkeen in watter land hulle gebore is en klassifiseer toeriste as SuidAfrikaans of internasionaal (indien hulle nie Suid-Afrikaans is nie). Die volgende frekwensies word vir elke kategorie verkry: Geobserveerde waardes Nasionaliteit TOTAAL Suid-Afrikaans

Internasionaal

Monumente en geboue

55

60

115

Nasionale parke

70

95

165

Strande

90

80

170

TOTAAL

215

235

450

Bepaal, teen ’n 95% vlak van sekerheid, of nasionaliteit en keuse van toeriste-aantreklikheid statisties afhanklik is.

280

Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

Antwoord: Die vyf stappe vir die toets van ’n hipotese word gevolg: Stap 1: Vind die nul- en alternatiewe hipotese Soos reeds vroeër genoem, sal die nulhipotese altyd beweer dat daar geen statistiese afhanklikheid is nie. Die alternatiewe hipotese sal dan beweer dat die twee veranderlikes wel statisties afhanklik is. H0: Nasionaliteit en keuse van toeriste-aantreklikheid is statisties onafhanklik H1: Nasionaliteit en keuse van toeriste-aantreklikheid is statisties afhanklik Stap 2: Vind die kritiese waarde Om die kritiese waarde te bereken benodig ons grade van vryheid en ’n α-waarde. Ons gebruik ook die χ2-tabel (aan die einde van hierdie gids). Hou in gedagte dat ’n χ2-hipotese altyd eenkantig sal wees. Gebaseer op ons vlak van sekerheid is die α-waarde 0.05. Omdat ons met verskillende groeperings van data werk, sal ons grade van vryheid ook anders bereken word. Vir ’n χ2-toets word die grade van vryheid met die volgende formule bereken: df = (hoeveelheid rye – 1) x (hoeveelheid kolomme – 1) In hierdie geval het ons drie rye (Monumente en geboue, Nasionale parke, en Strande) en twee kolomme (Suid-Afrikaans en Internasionaal). Daarom is ons grade van vryheid: df = (3 – 1) x (2 – 1) =2x1 =2 Om die χ2-crit te bepaal gebruik ons die χ2-tabel. Ons vind die 0.05-kolom en die 2-ry. Waar hierdie kolom en ry kruis, vind ons die χ2-crit. Die χ2-crit is positief. χ2-crit = 5.991 As die χ2-stat groter as 5.991 is, sal die nulhipotese verwerp word. Indien nie, sal die nulhipotese nie verwerp word nie. Die χ2-grafiek lyk soos volg:

©akademia (MSW)| Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid

281


ElementĂŞre Kwantitatiewe Metodes

2

As χ -stat in hierdie deel val, sal H0 nie verwerp word nie.

2

As χ -stat in hierdie deel val, sal H0 verwerp word

95%

5% 2

χ -crit = 5.991

Stap 3: Bereken die toetsstatistiek Hierdie stap is breedvoerig aan die begin van die hoofstuk bespreek. Ons moet eers die verwagte waardes (vir ’n statisties onafhanklike datastel) bereken. Dit word gedoen deur, vir elke sel, die kolomtotaal en rytotaal te vermeningvuldig en dan deur die totale steekproefgrootte te deel. Die volgende tabel sal gevind word:

Verwagte waardes (indien statisties onafhanklik) Nasionaliteit TOTAAL Suid-Afrikaans

Internasionaal

Monumente en geboue

54.94

60.06

115

Nasionale parke

78.83

86.17

165

Strande

81.22

88.78

170

TOTAAL

215

235

450

Nou kan ons die verwagte waardes en geobserveerde waardes saam in ’n tabel voeg om die χ2-stat te bereken:

Nasionaliteit

Besienswaardighede

fo

fe

(fo – fe)2

H −

Suid-Afrikaans

Monumente en geboue

55

54.94

0.003

0.000

Nasionale parke

70

78.83

78.028

0.990

282

Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid | Šakademia (MSW)


Elementêre Kwantitatiewe Metodes

Internasionaal

Strande

90

81.22

77.049

0.949

Monumente en geboue

60

60.06

0.003

0.000

Nasionale parke

95

86.17

78.028

0.906

Strande

80

88.78

77.049

0.868

χ2-stat

3.712

Dus: χ2-stat = 3.712 Stap 4: Besluit of die nulhipotese verwerp moet word Om hierdie besluit te neem moet die χ2-stat met die χ2-crit vergelyk word.

2

As χ -stat in hierdie deel val, sal H0 nie verwerp word nie.

2

As χ -stat in hierdie deel val, sal H0 verwerp word

95%

5% X

2

χ -crit = 5.991 2 χ -stat = 3.712

χ2-stat is kleiner as χ2-crit (5.991) en kan dus nie verwerp word nie. Daar is nie voldoende bewyse om H0 te verwerp nie. Stap 5: Gevolgtrekking Nasionaliteit en keuse van toeriste-aantreklikheid is statisties onafhanklik. Vraag 2: Werner se probleem Kom ons kyk weer na die vraag wat Werner gevra het. Hy wou weet of die hoeveelheid geld wat iemand op reis spandeer statisties afhanklik is van die feit dat hy alleen of saam met vriende reis. Michael het 200 reisigers genader en die volgende vrae gevra: •

Tydens u laaste vakansie, het u (1) alleen of (2) saam met vriende gereis?

Wat was die gemiddelde bedrag wat u daagliks tydens hierdie vakansie spandeer ©akademia (MSW)| Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid

283


Elementêre Kwantitatiewe Metodes het? Om die antwoorde te vergemaklik, kon respondente uit drie kategorieë kies: •

Minder as R250 per dag

R250 tot R1 000 per dag

Meer as R1 000 per dag

Respondente wat nie alleen of saam met vriende gereis het nie, is nie by die steekproef ingesluit nie. Die resultate wat Michael gevind het, word in die onderstaande tabel verskaf:

Geobserveerde waardes Metgeselle Reis met vriende

TOTAAL

Reis alleen < R250 per dag

30

40

70

R251 - R1000 per dag

29

35

64

34

32

66

93

107

200

Meer as R1000 per dag TOTAAL

Bepaal, teen ’n 90% vlak van sekerheid, of die twee veranderlikes statisties afhanklik is. Antwoord: Stap 1: Vind die nul- en alternatiewe hipotese H0: Die hoeveelheid geld spandeer en die feit dat ’n reisiger alleen of saam met vriende reis, is statisties onafhanklik. H1: Die hoeveelheid geld spandeer en die feit dat ’n reisiger alleen of saam met vriende reis, is statisties afhanklik. Stap 2: Vind die kritiese waarde Die α-waarde vir ’n 90% vlak van sekerheid is 0.1. Die grade van vryheid vir drie rye en twee kolomme is: df = (hoeveelheid rye – 1) x (hoeveelheid kolomme – 1) = (3 – 1) x (2 – 1) =2x1

284

Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid | ©akademia (MSW)


ElementĂŞre Kwantitatiewe Metodes

=2 Die χ2-crit vir waar die 0.1-kolom en die 2-ry kruis, is 4.605. χ2-crit = 4.605

2

As χ -stat in hierdie deel val, sal H0 nie verwerp word nie.

2

As χ -stat in hierdie deel val, sal H0 verwerp word

90%

10% 2

χ -crit = 4.605

Stap 3: Bereken die toetsstatistiek Ons moet eerstens die verwagte waardes bereken: Verwagte waardes (indien statisties onafhanklik) Metgeselle TOTAAL

Reis alleen

Reis met vriende

< R250 per dag

32.55

37.45

70

R251 - R1000 per dag

29.76

34.24

64

30.69

35.31

66

93

107

200

Meer as R1000 per dag TOTAAL

Nou kan ons ’n tabel skep waarop die χ2-stat bereken gaan word: Metgeselle

Reis alleen

Geld spandeer

fo

fe

(f0 – fe)2

H −

< R250 per dag

30

32.55

6.5025

0.19977

R251 - R1000 per

29

29.76

0.5776

0.019409

Šakademia (MSW)| Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid

285


Elementêre Kwantitatiewe Metodes dag Meer as R1000 per dag Reis met vriende

< R250 per dag R251 - R1000 per dag Meer as R1000 per dag

34

30.69

10.9561

0.356993

40

37.45

6.5025

0.173632

35

34.24

0.5776

0.016869

32

35.31

10.9561

0.310283

χ2-stat

1.076955

χ2-stat = 1.077 Stap 4: Besluit of die nulhipotese verwerp moet word

2

As χ -stat in hierdie deel val, sal H0 nie verwerp word nie.

2

As χ -stat in hierdie deel val, sal H0 verwerp word

90% X 2

10% 2

χ -crit = 4.605

χ -stat = 1.077

χ2-stat is kleiner as die χ2-crit van 4.605. Dus: Daar is nie voldoende bewyse om H0 te verwerp nie. Stap 5: Gevolgtrekking Die bedrag wat ’n reisiger spandeer is statisties onafhanklik van die feit dat hy/sy alleen of met vriende reis. Nadia is dus korrek.

286

Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

10.3 Ten slotte Die χ2-toets is in hierdie hoofstuk gebruik om te bepaal of twee veranderlikes statisties afhanklik is. Hou egter in gedagte dat dit nie die enigste toets is wat met χ2 gedoen kan word nie. Daar is ander gebruike vir hierdie statistiek wat nie deel van die omvang van hierdie gids uitmaak nie. Dit sal ’n goeie idee wees om ’n bietjie selfstudie te doen en meer oor χ2 uit te vind. Ons het tot op hede die volgende hipotesetoetse gedoen: •

’n Hipotesetoets vir een steekproef en een veranderlike: Ons het getoets of ’n populasiegemiddeld groter as, kleiner as of gelyk aan ’n spesifieke getal was.

’n Hipotesetoets vir twee steekproewe met een veranderlike: Ons het gekyk of een populasiegemiddeld groter as, kleiner as of gelyk aan ’n ander populasiegemiddeld is.

Die gepaarde t-toets (matched-pair t-test): Hier het ons getoets of ’n sekere veranderlike verhoog, verlaag of dieselfde gebly het wanneer dit voor en na ’n spesifieke insident by die populasie gemeet word.

Die χ2-toets: Hierdie toets bepaal, onder andere, of twee veranderlikes statisties afhanklik is.

Die volgende hoofstuk gaan die F-toets, of ANOVA-toets bespreek. Hierdie hipotesetoets kyk na een veranderlike by meer as twee steekproewe en bepaal of daar ’n verskil tussen die gemiddelde waardes van hierdie veranderlike is.

©akademia (MSW)| Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid

287


ElementĂŞre Kwantitatiewe Metodes Notas

288

Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid | Šakademia (MSW)


Elementêre Kwantitatiewe Metodes

HOOFSTUK 11: ANOVA

Onderwerpe 11.1

Wat is ANOVA? Die hipotese Die F-tabel Die F-stat SST SSE MST

©akademia (MSW)| Hoofstuk 11: ANOVA

289


Elementêre Kwantitatiewe Metodes

Gevallestudie… Daar heers doodse stilte in Vanessa se kantoor. Iemand wat verby die kantoor stap sonder om in te kyk, mag dink dat die kantoor, soos ’n groot deel van StatInc se gebou, verlate is. Die maatskappy se jaareindfunksie is twee weke gelede gehou. Kort daarna het die hoeveelheid personeel op die perseel vinnig begin afneem. Dié wat nie kinders op skool gehad het nie, het ’n paar dae vroeër op vakansie gegaan om die groot vakansieverkeer te mis. Die dag nadat die rapporte by die skole uitgedeel is, het die gebou egter in ’n spookhuis verander. Die meeste personeel is weg om ’n welverdiende Desembervakansie te geniet. Hier en daar kan daar nog personeel gesien word wat tot die laaste dag bly, hoofsaaklik om telefone te beantwoord tot StatInc amptelik vir die vakansie sluit. Die atmosfeer in die gebou is lui en verveeld. Personeel wat gelukkig genoeg is om nie alleen ’n hele kantoor te beman nie, probeer die tyd met geselsies met kollegas verwyl. Dié wat alleen op ’n vloer sit, hou hulself besig met boeklees of kaartspeletjies. Almal wag vir die laaste uur van die laaste dag van die werkjaar. En daardie dag is vandag. Iemand wat die moeite doen om wel by Vanessa se kantoor in te loer, sal verras wees. Anders as die res van die gebou, is Vanessa se kantoor ’n miernes van bedrywighede. Vanessa, Michael en Sonja sit elk voor ’n skootrekenaar en werk dat dit klap. Min woorde word gewissel – elkeen weet wat hy of sy moet doen. En hulle moet dit voor die einde van die dag doen. StatInc het ’n laat versoek van Vasvat Versekeraars ontvang. ’n E-pos met ’n paar statistiese vrae is aan Vanessa gestuur. Niemand sou Vanessa kwalik neem indien sy die e-pos geïgnoreer het en eers die volgende jaar beantwoord het nie. Almal weet dat die einde van die jaar aangebreek het en dat dienste-ondernemings soos StatInc sluit. Dit is egter nie in Vanessa se aard om e-posse te ignoreer nie. Die vrae wat Vasvat gevra het, is nie moeilik om te beantwoord nie. Die data wat daarvoor versamel moet word, is reeds beskikbaar. Al wat nodig is, is ’n paar statistiese berekeninge. Vir die meeste mense behoort dit nie ’n probleem te wees nie. Maar die meeste mense moet nie oor vier ure by die lughawe wees nie! Michael en Sonja het nie beplan om teen hierdie tyd nog te werk nie. Sonja het haar werk by die Bemarkingsdepartement afgehandel en vir Michael kom haal. Hulle sou saam met Sonja se ouers na Michael se huis toe ry om sy bagasie op te laai en dan rustig na die lughawe vertrek. Sonja het egter net die kantoor binnegekom toe Vanessa brommend op die e-pos reageer.

290

Hoofstuk 11: ANOVA | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

“Is dit nou die tyd om so ’n e-pos te stuur?” het sy gesê. “Dit klink nie goed nie.” Michael en Sonja het ’n bekommerde kyk gedeel. Vanessa het gesug. “Nie doodsake nie. Ek gaan net drie ure langer moet werk vandag.” Sy het opgekyk en vasgekyk in die gesigte van ’n bekommerde Michael en Sonja. Sy kon nie help om te lag nie. “Ontspan! Dit is net slegte tydsberekening. Vasvat het vir my ’n lys met vyf vrae gestuur. Hulle sê dit is nie dringend nie, hoewel dit wonderlik sou wees om die antwoorde te hê voordat die feesseisoen begin.” “Met ander woorde, hulle soek die antwoorde nou.” “Presies. Maar dit behoort nie te lank te neem nie.” “Drie ure,” sê Sonja. “Dalk minder.” “En as drie mense daaraan werk? Sal dit dan een uur neem?” Vanessa het Sonja ’n kwaai kyk gegee. “Onder geen omstandighede nie. As julle jul vliegtuig mis sal ek myself nooit vergewe... Wat doen julle?” Sonder om vir ’n uitnodiging te wag het Michael en Sonja hulself elk by ’n tafel tuisgemaak. Sonja het haar skootrekenaar uitgehaal en aangeskakel. Vanessa het besef dat sy nie eens moet probeer protesteer nie. Michael en Sonja het duidelik besluit om te bly tot die werk klaar is. En nou is daardie uur amper verby. “Hoe lyk die beskrywende statistiek?” vra Vanessa. Sonja het dit duidelik gemaak dat, ten spyte van Michael se hipotesetoets-les, sy nie ’n ekspert met inferensiële statistiek is nie. Sy het egter aangebied om al die beskrywende statistiek in Microsoft Excel te doen. “Klaar. Ek stuur vir jou.” “Vraag 4 se hipotesetoets is gedoen,” voeg Michael by. “Ek stuur vir jou die resultate. Ek dink Vasvat moet nog ’n paar werknemers by die oproepsentrums aanstel.” “Fantasties,” antwoord Vanessa. “Wat is Vraag 5? Ek kan solank daarmee begin.” Michael geniet die opwinding van ’n sperdatum, veral as hy in ’n groep met sulke hoogs-gemotiveerde kollegas kan werk. Vanessa kyk na die e-pos. “Is daar ’n verskil tussen die gemiddelde hoeveelheid oproepe wat deur die drie verskillende

©akademia (MSW)| Hoofstuk 11: ANOVA

291


Elementêre Kwantitatiewe Metodes oproepsentrums hanteer word?” “Watter data het ons?” vra Michael. “Vyf dae se totale hoeveelheid oproepe vir Oproepsentrum A en C. Vier dae vir Oproepsentrum B.” “Dis maar min.” Vanessa knik. “Dit is net om ’n herverdeling van personeel vir die feesseisoen te beplan.” Vanessa stuur ’n e-pos met die data aan vir Michael. Hy sien die volgende: Oproepsentrum A

Oproepsentrum B

Oproepsentrum C

350

280

330

250

220

320

200

250

100

90

180

150

310

400

“Watter toets gaan jy doen?” vra Sonja. “Die t-toets?” “Nee,” antwoord Michael, “die t-toets kan gebruik word om die verskil tussen twee gemiddelde te toets. Ons het hier te doen met drie steekproewe en dus drie populasies.” Hy kyk vir Vanessa. “ANOVA?” “Jip,” antwoord Vanessa sonder op om te kyk. “A wat?” vra Sonja.

11.1 Wat is ANOVA? ANOVA is ’n akroniem vir Analysis of Variance. Die toets word gebruik om te bepaal of die gemiddeld van ’n spesifieke veranderlike dieselfde is oor meer as twee populasies. Met ANOVA is daar dus: •

een veranderlike (byvoorbeeld gemiddelde hoeveelheid oproepe per dag ontvang); en

meer as twee steekproewe (byvoorbeeld, oproepsentrum A, Oproepsentrum B en Oproepsentrum C).

ANOVA toets bloot of daar ’n verskil tussen die gemiddelde is. Die toets dui nie aan watter gemiddelde verskil nie. Byvoorbeeld, as daar ’n groot verskil tussen Oproepsentrum A en

292

Hoofstuk 11: ANOVA | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes Oproepsentrum B se gemiddelde hoeveelheid daaglikse oproepe is, sal die ANOVA slegs aandui dat die gemiddelde nie dieselfde is nie. Die navorser sal dan verdere toetse moet doen om te bepaal watter gemiddelde van mekaar verskil. ANOVA is veral nuttig indien daar ’n hele paar steekproewe is. Dink aan ’n geval waar ons met, byvoorbeeld, 10 steekproewe werk. Ons stel slegs belang om te weet of die gemiddelde dieselfde is. Met ’n t-toets sou ons elke moontlike paar gemiddelde moes toets – iets wat 45 hipotesetoetse sou vereis. Een ANOVA-toets kan egter vir ons aandui of hierdie gemiddelde almal gelyk is. Die toets is ontwerp om enige groot variansie in die gemiddelde op te merk en dan aan te dui.

Die hipotese Die nulhipotese van ’n ANOVA-toets stel dat al die steekproewe se gemiddelde gelyk is aan mekaar. Die alternatiewe hipotese beweer dat ten minste een gemiddeld van die ander verskil.

Die F-tabel Die kritiese en toetsstatistiek wat ons gebruik, is die F-crit en F-stat. Die F-tabelle word ook aan die einde van die hierdie gids verskaf. Om ’n F-crit van die F-tabel af te lees, benodig ons drie waardes: die hoeveelheid steekproewe (voorgestel deur k); die totale hoeveelheid waardes in al die steekproewe (voorgestel deur N); en die α-waarde. Ons benodig twee tipes grade van vryheid vir hierdie toets: •

dfn: Die n staan vir numerator. Hierdie grade van vryheid word gevind deur die berekening k – 1. As daar dus 3 steekproewe is, sal dfn = 3 – 1 = 2.

dfd: Die d staan vir denominator. Hierdie grade van vryheid word gevind deur die berekening N – k. As daar dus 14 waardes in drie steekproewe voorkom (soos in die geval van Vasvat se vraag), is dfd = 14 – 3 = 11.

Omdat ons egter drie waardes moet gebruik, sou ons ’n driedimensionele F-tabel benodig: die F-waarde is op die plek waar dfn en dfd en α kruis. Dit is egter nie moontlik om so ’n tabel op ’n tweedimensionele bladsy in ’n boek te skep nie. Daarom word daar twee verskillende F-tabelle in hierdie gids verskaf: •

’n F-tabel waar α = 0.05 (vir ’n ANOVA-toets teen 95% sekerheid)

’n F-tabel waar α = 0.01 (vir ’n ANOVA-toets teen 99% sekerheid)

©akademia (MSW)| Hoofstuk 11: ANOVA

293


Elementêre Kwantitatiewe Metodes Dit is natuurlik ook moontlik om F-toetse vir 90% vlak van sekerheid te doen.

Die F-stat Die F-stat is nie moeilik om te bereken nie, maar behels ’n groot hoeveelheid berekeninge en neem tyd in beslag. Ons benodig die volgende om die F-stat te bereken:

SST SST staan vir Sum of squares. Om SST te bereken, word die verskil tussen elke steekproefgemiddeld en die totale gemiddeld (al die waardes in al die steekproewe bymekaargetel en gedeel deur N) bepaal en afsonderlik gekwadreer. SST poog dus om te bepaal tot watter mate elke steekproef se gemiddeld van die totale gemiddeld verskil. Hoe groter SST is, hoe groter is die verskil tussen die verskillende steekproefgemiddelde en totale gemiddeld. Op ’n meer grafiese wyse kan die doel van SST soos volg beskryf word: Oproepsentrum A

Oproepsentrum B

Oproepsentrum C

350

280

330

250

220

320

200

250

100

90

180

150

310 GEMIDDELD

x̄ 1 = 240

400 x̄ 2 = 232.5

x̄ 3 = 260

SST toets tot watter mate hierdie drie waardes van hierdie totale gemiddeld verskil

Totale gemiddeld:

294

Hoofstuk 11: ANOVA | ©akademia (MSW)

= 245


ElementĂŞre Kwantitatiewe Metodes Die formule vir SST is: SST = ∑NM M Ě„M −

Wat beteken hierdie formule? •

Trek die totale gemiddeld ( ) van elke steekproef se gemiddeld af (bv. 240 – 245 vir die eerste steekproef).

•

Kwadreer die antwoord.

•

Vermenigvuldig die antwoord met die grootte van die steekproef: in die Vasvatvoorbeeld is dit 5 vir die eerste steekproef (n1), 4 vir die tweede steekproef (n2) en 5 vir die derde steekproef (n3).

•

Tel hierdie drie antwoorde bymekaar om SST te vind.

Vir die Vasvat-voorbeeld Ons kan nou die SST vir die Vasvat-voorbeeld hierbo bereken: SST = ∑NM M Ě„M −

= 5(240 – 245)2 + 4(232.5 – 245)2 + 5(260 – 245)2 = 5(-5)2 + 4(-12.5)2 + 5(15)2 = 125 + 625 + 375 = 1 875

SSE SSE staan vir Error Sum of Squares. Hierdie berekening bepaal die variansie tussen elke waarde en die gemiddeld van die steekproef waarin hierdie waarde voorkom. Vir Steekproef 1 (Oproepsentrum A), sal daar dus gekyk word in watter mate die waardes 350, 250, 200, 90 en 310 van die gemiddeld van 240 afwyk. Dieselfde sal vir Steekproef 2 en 3 gedoen word. Hierdie individuele afwykings word dan gekwadreer en bymekaargetel. Die formule vir SSE is:

SSE = ∑M ∑ M − Ě„M Hierdie formule kan intimiderend voorkom. Die formule sĂŞ egter die volgende: •

Neem die eerste steekproef. Trek die steekproefgemiddeld af van die eerste waarde in die steekproef. Kwadreer die antwoord. Herhaal nou vir elke waarde in hierdie steekproef. Šakademia (MSW)| Hoofstuk 11: ANOVA

295


Elementêre Kwantitatiewe Metodes •

Herhaal die vorige stap vir die oorblywende steekproewe.

Vir die Vasvat-voorbeeld Ons kan nou die SSE vir die Vasvat-voorbeeld hierbo bereken: SSE = ∑M ∑ M − Ě„M Steekproef 1 (Oproepsentrum A) Steekproefgemiddeld = 240 (350 – 240)2 + (250 – 240)2 + (200 – 240)2 + (90 – 240)2 + (310 – 240)2 = (110)2 + (10)2 + (-40)2 + (-150)2 + (70)2 = 12 100 + 100 + 1 600 + 22 500 + 4 900 = 41 200 Steekproef 2 (Oproepsentrum B): Steekproefgemiddeld = 232.5 (280 – 232.5)2 + (220 – 232.5)2 + (250 – 232.5)2 + (180 – 232.5)2 = (47.5)2 + (-12.5)2 + (17.5)2 + (52.5)2 = 2 256.25 + 156.25 + 306.25 + 2 756.25 = 5 475 Steekproef 3 (Oproepsentrum C): Steekproefgemiddeld = 260 (330 – 260)2 + (320 – 260)2 + (100 – 260)2 + (150 – 260)2 + (400 – 260)2 = (70)2 + (60)2 + (-160)2 + (-110)2 + (140)2 = 4 900 + 3 600 + 25 600 + 12 100 + 19 600 = 65 800 SSE = 41 200 + 5 475 + 65 800 = 112 475

296

Hoofstuk 11: ANOVA | Šakademia (MSW)


Elementêre Kwantitatiewe Metodes

MST MST staan vir Mean Square Treatment. Hierdie berekening neem die SST en pas dit aan om vir die hoeveelheid steekproewe wat daar is, voorsiening te maak. Ons gebruik dus k in hierdie formule. Die formule vir MST is: EEO

MST = N waar k die hoeveelheid steekproewe voorstel. MST is, inderwaarheid, ’n variansie, soos wat ons in Hoofstuk 3 bereken het. Vir die Vasvat-voorbeeld EEO

MST = N =

3P<

= 937.5

MSE MSE staan vir Mean Square Error. Hierdie is ’n variansie wat ons bereken deur die totale hoeveelheid waardes in al die steekproewe (N), asook die hoeveelheid steekproewe (k) in ag te neem. Die formule vir MSE is: EEQ

MSE = R N

Vir die Vasvat-voorbeeld SST

MSE = U V =

4P<

= 10 225

F-stat Die laaste stap in die berekening is die F-stat. Die F-stat word bereken deur MST deur MSE te deel. Die formule vir die F-stat is dus: F-stat =

WEO WEQ

©akademia (MSW)| Hoofstuk 11: ANOVA

297


Elementêre Kwantitatiewe Metodes Hierdie F-stat sal dan met die F-crit vergelyk word om te bepaal of die nulhipotese verwerp moet word. Vir die Vasvat-voorbeeld F-stat = =

=8P.< <

WEO WEQ

= 0.0916 Die bespreking hierbo het slegs beskryf hoe ’n F-stat bereken sal word. Die Vasvatvoorbeeld gaan nou gebruik word om die ANOVA-hipotesetoets te doen. Voorbeeld: ANOVA Michael het die volgende data tot sy beskikking: Oproepsentrum A

Oproepsentrum B

Oproepsentrum C

350

280

330

250

220

320

200

250

100

90

180

150

310

400

Bepaal, teen ’n 95% vlak van sekerheid, of daar ’n verskil tussen die gemiddelde oproepe is wat deur elke oproepsentrum hanteer moes word. Antwoord: Dieselfde stappe vir die toets van 'n hipotese word uitgevoer: Stap 1: Vind die nul- en alternatiewe hipotese H0: μ1 = μ2 = μ3 H1: Ten minste een μ verskil van die res Stap 2: Vind die kritiese waarde Om die kritiese waarde te vind benodig ons: •

298

α-waarde: In hierdie geval is dit 0.05. Hoofstuk 11: ANOVA | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

dfn: Dit word verkry deur k – 1, waar k = die hoeveelheid steekproewe. Daar is 3 steekproewe, dus is dfn = 3 – 1 = 2.

dfd: Dit word verkry deur N – k, waar k = die hoeveelheid steekproewe en N = die totale steekproefgrootte. Daar is 3 steekproewe en ’n totaal van 14 waardes in die steekproef. Dus is dfd = 14 – 3 = 11.

Om F-crit te vind, gebruik ons die F-tabel waar α = 0.05. In hierdie tabel vind ons die 2kolom en die 11-ry. Waar hierdie kolom en ry kruis, vind ons ’n waarde van 3.98. Dus: F-crit = 3.98 Hierdie waarde kan soos volg op die F-grafiek voorgestel word:

As F-stat in hierdie area val, word H0 nie verwerp nie.

As F-stat in hierdie area val, word H0 verwerp.

95%

5%

F-crit = 3.98

Stap 3: Bereken die toetsstatistiek Ons het die toetsstatistiek reeds vroeër bereken: F-stat = 0.0916 Stap 4: Besluit of die nulhipotese verwerp moet word Hiervoor sal ons F-stat en F-crit moet vergelyk. Ons kan ’n grafiek hiervoor gebruik:

©akademia (MSW)| Hoofstuk 11: ANOVA

299


Elementêre Kwantitatiewe Metodes

As F-stat in hierdie area val, word H0 nie verwerp nie.

As F-stat in hierdie area val, word H0 verwerp.

95%

5%

X F-crit = 3.98

F-stat = 0.092

Die F-stat val dus duidelik nie in die area van verwerping nie. Dus: Daar is nie voldoende bewyse om H0 te verwerp nie. Stap 5: Gevolgtrekking Daar is geen verskil tussen die gemiddelde hoeveelheid oproepe wat ’n oproepsentrum op ’n dag hanteer nie.

11.2 Ten slotte ANOVA is ’n toets wat bepaal of daar ’n verskil tussen die gemiddelde van ’n spesifieke veranderlike oor meer as twee steekproewe bestaan. Die F-toets word hiervoor gebruik. ANOVA is die laaste hipotesetoets wat in hierdie gids bespreek gaan word. Die diagram hieronder verskaf ’n oorsig van al die hipotesetoetse wat ons behandel het.

300

Hoofstuk 11: ANOVA | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

Hipotesetoetse

Twee veranderlikes (Hoofstuk 10)

Een veranderlike

Een steekproef (Hoofstuk 8)

Twee steekproewe (Hoofstuk 9)

σ bekend: z-toets

σ bekend: z-toets

σ onbekend: t-toets

σ onbekend: t-toets

Meer as twee steekproewe (Hoofstuk 11)

χ2 toets vir afhanklikheid

ANOVA en F-toets

Gepaarde t-toets

Figuur 11.1: Grafiese voorstelling van hipotesetoetse wat in die gids bespreek is

Die einde en die begin London Heathrow is ’n besige lughawe. Dit is een van die groot lughawens wat passasiersgetalle en hoeveelheid betref. Daar is altyd mense wat haastig op pad is na ’n hek wat op die punt is om te sluit. Dan is daar ook mense wat te vroeg is vir ’n vlug en hulself moet besig hou tot dit tyd is om na die hek te beweeg. By ’n tafel van ’n koffiewinkel sit vier jongmense wat deel van die laaste groep uitmaak. Daar word nie veel gesê nie – elkeen is besig met sy of haar eie gedagtes. Michael sit en dink terug aan ’n ongelooflike jaar. Hy het soveel geleer. Hy het ’n inkomste verdien wat meer is as wat enige van sy studentevriende maak. Hy het Europa besoek. Hy het nuwe vriende gemaak. En nou is hy op pad terug huis toe. “Wie sou aan die begin van die jaar kon dink dat ons vandag hier sou sit,” onderbreek Sonja sy gedagtes. Michael dink terug aan die begin van die jaar. Hy het nog nie geweet dat StatInc bestaan nie – hy het eers in Februarie van hulle gehoor. Hy het nie vir Sonja, Werner, Nadia of Vanessa geken nie. Hy het ’n droom gehad om eendag Europa te besoek. Die begin van die jaar is ’n leeftyd gelede. “Nie ek nie,” erken Werner. “Maar ek is nie goed met voorspellings nie.” Hy kyk na Michael. ©akademia (MSW)| Hoofstuk 11: ANOVA

301


Elementêre Kwantitatiewe Metodes “Meneer die Statistikus, hoeveel van die dinge wat hierdie jaar gebeur het, het jy voorspel?” Michael glimlag. “Dalk vyf persent.” Sonja bars uit van die lag. “Jy moet jou universiteitsgelde terugvra.” Michael kan net glimlag. Statistiek voorspel gemiddelde. Die vervelige voortsetting van dinge wat reeds gebeur het. Die uitsonderlike, dink Michael, die wonderwerke van die lewe, dit sal ’n mens altyd onkant betrap. Ons het aan die einde van hierdie gids gekom. Die doel van hierdie gids was om jou te help om ’n paar basiese konsepte ten opsigte van Statistiek te verstaan deur ’n eenjaarreis saam met Michael te onderneem. Ons het geleer wat Statistiek is en waarom dit nodig is. Ons het gekyk na dataversameling, asook grafiese en numeriese beskrywende statistiek. Ons het waarskynlikhede behandel, vertrouensintervalle bereken en ’n verskeidenheid van hipotesetoetse gedoen. Die belangrikste doelwit van hierdie gids was egter om die “waarom” van elke statistiese metode te verduidelik. Waarom het ons beskrywende statistiek nodig? Waarom kan ons nie sonder meer ’n steekproefgemiddeld op die populasie se gemiddeld van toepassing maak nie? Waarom moet ons ’n verteenwoordigende steekproef hê? Ons het ook die beperkings van Statistiek gesien. ’n Swak steekproefmetode maak enige statistiese berekeninge onbruikbaar. Voorspellings oor die toekoms kan slegs op historiese data gebaseer word. Statistiek is oral. Dit is deel van ons lewens. Ons maak statistiese gevolgtrekkings op ’n daaglikse basis, dikwels sonder om die proses of die oorsprong van ons data te bevraagteken. Met hierdie gids is gepoog om jou meer attend te maak op die dikwels foutiewe aannames wat ons maak. Elke persoon het ’n ander rede waarom hy of sy hierdie gids gebruik. Dalk is dit jou eerste stap om ’n volwaardige statistikus te word. Dalk wil jy dit gebruik as ’n inleiding om jou eie navorsing vir studies te doen. Dalk gebruik jy hierdie gids bloot om eerstejaar-Statistiek te slaag. Mag Michael se storie jou inspireer om Statistiek in al sy vorme te gebruik. Maar onthou: die beste dinge in die lewe kan nie voorspel word nie.

302

Hoofstuk 11: ANOVA | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

AANHANGSELS

Die z-tabel z 0.0 0.1 0.2 0.3 0.4 0.5

0.00 0.0000 0.0398 0.0793 0.1179 0.1554 0.1915

0.01 0.0040 0.0438 0.0832 0.1217 0.1591 0.1950

0.02 0.0080 0.0478 0.0871 0.1255 0.1628 0.1985

0.03 0.0120 0.0517 0.0910 0.1293 0.1664 0.2019

0.04 0.0160 0.0557 0.0948 0.1331 0.1700 0.2054

0.05 0.0199 0.0596 0.0987 0.1368 0.1736 0.2088

0.06 0.0239 0.0636 0.1026 0.1406 0.1772 0.2123

0.07 0.0279 0.0675 0.1064 0.1443 0.1808 0.2157

0.08 0.0319 0.0714 0.1103 0.1480 0.1844 0.2190

0.09 0.0359 0.0753 0.1141 0.1517 0.1879 0.2224

0.6 0.7 0.8 0.9 1.0

0.2257 0.2580 0.2881 0.3159 0.3413

0.2291 0.2611 0.2910 0.3186 0.3438

0.2324 0.2642 0.2939 0.3212 0.3461

0.2357 0.2673 0.2967 0.3238 0.3485

0.2389 0.2703 0.2995 0.3264 0.3508

0.2422 0.2734 0.3023 0.3289 0.3531

0.2454 0.2764 0.3051 0.3315 0.3554

0.2486 0.2793 0.3078 0.3340 0.3557

0.2517 0.2823 0.3106 0.3365 0.3599

0.2549 0.2852 0.3133 0.3389 0.3621

1.1 1.2 1.3 1.4 1.5

0.3643 0.3849 0.4032 0.4192 0.4332

0.3665 0.3869 0.4049 0.4207 0.4345

0.3686 0.3888 0.4066 0.4222 0.4357

0.3708 0.3907 0.4082 0.4236 0.4370

0.3729 0.3925 0.4099 0.4251 0.4382

0.3749 0.3944 0.4115 0.4265 0.4394

0.3770 0.3962 0.4131 0.4279 0.4406

0.3790 0.3980 0.4147 0.4292 0.4418

0.3810 0.3997 0.4162 0.4306 0.4429

0.3830 0.4015 0.4177 0.4319 0.4441

1.6 1.7 1.8 1.9 2.0

0.4452 0.4554 0.4641 0.4713 0.4772

0.4463 0.4564 0.4649 0.4719 0.4778

0.4474 0.4573 0.4656 0.4726 0.4783

0.4484 0.4582 0.4664 0.4732 0.4788

0.4495 0.4591 0.4671 0.4738 0.4793

0.4505 0.4599 0.4678 0.4744 0.4798

0.4515 0.4608 0.4686 0.4750 0.4803

0.4525 0.4616 0.4693 0.4756 0.4808

0.4535 0.4625 0.4699 0.4761 0.4812

0.4545 0.4633 0.4706 0.4767 0.4817

2.1 2.2 2.3 2.4 2.5

0.4821 0.4861 0.48928 0.49180 0.49379

0.4826 0.4864 0.48956 0.49202 0.49396

0.4830 0.4868 0.48983 0.49224 0.49413

0.4834 0.4871 0.49010 0.49245 0.49430

0.4838 0.4875 0.49036 0.49266 0.49446

0.4842 0.4878 0.49061 0.49286 0.49461

0.4846 0.4881 0.49086 0.49305 0.49477

0.4850 0.4884 0.49111 0.49324 0.49492

0.4854 0.4887 0.49134 0.49343 0.49506

0.4857 0.4890 0.49158 0.49361 0.49520

2.6 2.7 2.8 2.9 3.0

0.49534 0.49653 0.49744 0.49813 0.49865

0.49547 0.49664 0.49752 0.49819 0.49869

0.49560 0.49674 0.49760 0.49825 0.49874

0.49573 0.49683 0.49767 0.49831 0.49878

0.49585 0.49693 0.49774 0.49836 0.49882

0.49598 0.49702 0.49781 0.49841 0.49886

0.49609 0.49711 0.49788 0.49846 0.49889

0.49621 0.49720 0.49795 0.49851 0.49893

0.49632 0.49728 0.49801 0.49856 0.49897

0.49643 0.49736 0.49807 0.49861 0.49900

3.1 3.2 3.3 3.4 3.5

0.49903 0.49931 0.49952 0.49966 0.49977

0.49906 0.49934 0.49953 0.49968 0.49978

0.49910 0.49936 0.49955 0.49969 0.49978

0.49913 0.49938 0.49957 0.49970 0.49979

0.49916 0.49940 0.49958 0.49971 0.49980

0.49918 0.49942 0.49960 0.49972 0.49981

0.49921 0.49944 0.49961 0.49973 0.49981

0.49924 0.49946 0.49962 0.49974 0.49982

0.49926 0.49948 0.49964 0.49975 0.49983

0.49929 0.49950 0.49965 0.49976 0.49983

3.6 3.7 3.8 3.9 4.0

0.49984 0.49989 0.49993 0.49995 0.49997

0.49985 0.49990 0.49993 0.49995 0.49997

0.49985 0.49990 0.49993 0.49996 0.49997

0.49986 0.49990 0.49994 0.49996 0.49997

0.49986 0.49991 0.49994 0.49996 0.49997

0.49987 0.49991 0.49994 0.49996 0.49997

0.49987 0.49991 0.49994 0.49996 0.49998

0.49988 0.49992 0.49995 0.49996 0.49998

0.49988 0.49992 0.49995 0.49997 0.49998

0.49989 0.49992 0.49995 0.49997 0.49998

©akademia (MSW)| Aanhangsels

303


ElementĂŞre Kwantitatiewe Metodes

Die t-tabel

304

0.100

0.050

0.025

0.010

0.005

0.0025

df 1 2 3 4 5

3.078 1.886 1.638 1.533 1.476

6.314 2.920 2.353 2.132 2.015

12.706 4.303 3.182 2.776 2.571

31.821 6.965 4.541 3.747 3.365

63.657 9.925 5.841 4.604 4.032

127.322 14.089 7.453 5.598 4.773

6 7 8 9 10

1.440 1.415 1.397 1.383 1.372

1.943 1.895 1.860 1.833 1.812

2.447 2.365 2.306 2.262 2.228

3.143 2.998 2.896 2.821 2.764

3.707 3.499 3.355 3.250 3.169

4.317 4.029 3.833 3.690 3.581

11 12 13 14 15

1.363 1.356 1.350 1.345 1.341

1.796 1.782 1.771 1.761 1.753

2.201 2.179 2.160 2.145 2.131

2.718 2.681 2.650 2.624 2.602

3.106 3.055 3.012 2.977 2.947

3.497 3.428 3.372 3.326 3.286

16 17 18 19 20

1.337 1.333 1.330 1.328 1.325

1.746 1.740 1.734 1.729 1.725

2.120 2.110 2.101 2.093 2.086

2.583 2.567 2.552 2.539 2.528

2.921 2.898 2.878 2.861 2.845

3.252 3.222 3.197 3.174 3.153

21 22 23 24 25

1.323 1.321 1.319 1.318 1.316

1.721 1.717 1.714 1.711 1.708

2.080 2.074 2.069 2.064 2.060

2.518 2.508 2.500 2.492 2.485

2.831 2.819 2.807 2.797 2.787

3.135 3.119 3.104 3.091 3.078

26 27 28 29 30

1.315 1.314 1.313 1.311 1.310

1.706 1.703 1.701 1.699 1.697

2.056 2.052 2.048 2.045 2.042

2.479 2.473 2.467 2.462 2.457

2.779 2.771 2.763 2.756 2.750

3.067 3.057 3.047 3.038 3.030

31 32 33 34 35

1.309 1.309 1.308 1.307 1.306

1.696 1.694 1.692 1.691 1.690

2.040 2.037 2.035 2.032 2.030

2.453 2.449 2.445 2.441 2.438

2.744 2.738 2.733 2.728 2.724

3.022 3.015 3.008 3.002 2.996

36 37 38 39 40

1.306 1.305 1.304 1.304 1.303

1.688 1.687 1.686 1.685 1.684

2.028 2.026 2.024 2.023 2.021

2.434 2.431 2.429 2.426 2.423

2.719 2.715 2.712 2.708 2.704

2.990 2.985 2.980 2.976 2.971

Aanhangsels | Šakademia (MSW)


ElementĂŞre Kwantitatiewe Metodes 0.100

0.050

0.025

0.010

0.005

0.0025

45 50 60 70 80

1.301 1.299 1.296 1.294 1.292

1.679 1.676 1.671 1.667 1.664

2.014 2.009 2.000 1.994 1.990

2.412 2.403 2.390 2.381 2.374

2.690 2.678 2.660 2.648 2.639

2.952 2.937 2.915 2.899 2.887

90 100 110 120 140

1.291 1.290 1.289 1.289 1.288

1.662 1.660 1.659 1.658 1.656

1.987 1.984 1.982 1.980 1.977

2.369 2.364 2.361 2.358 2.353

2.632 2.626 2.621 2.617 2.611

2.878 2.871 2.865 2.860 2.852

160 180 200

1.287 1.286 1.286 1.282

1.654 1.653 1.653 1.645

1.975 1.973 1.972 1.960

2.350 2.347 2.345 2.327

2.607 2.603 2.601 2.576

2.847 2.842 2.839 2.807

df

Šakademia (MSW)| Aanhangsels

305


Elementêre Kwantitatiewe Metodes

χ2 – tabel 0.100

0.050

0.025

0.010

0.005

0.0025

df 1 2 3 4 5

2.707 4.605 6.251 7.779 9.236

3.843 5.991 7.815 9.488 11.071

5.026 7.378 9.348 11.143 12.833

6.637 9.210 11.345 13.277 15.086

7.881 10.597 12.838 14.860 16.750

9.142 11.983 14.321 16.424 18.386

6 7 8 9 10

10.645 12.017 13.362 14.684 15.987

12.592 14.067 15.507 16.919 18.307

14.449 16.013 17.535 19.023 20.483

16.812 18.475 20.090 21.666 23.209

18.548 20.278 21.955 23.589 25.188

20.249 22.040 23.774 25.462 27.112

11 12 13 14 15

17.275 18.549 19.812 21.064 22.307

19.675 21.026 22.362 23.685 24.996

21.920 23.337 24.736 26.119 27.488

24.725 26.217 27.688 29.141 30.578

26.757 28.300 29.819 31.319 32.801

28.729 30.318 31.883 33.426 34.950

16 17 18 19 20

23.542 24.769 25.989 27.204 28.412

26.296 27.587 28.869 30.144 31.410

28.845 30.191 31.526 32.852 34.170

32.000 33.409 34.805 36.191 37.566

34.267 35.718 37.156 38.582 39.997

36.456 37.946 39.422 40.885 42.336

21 22 23 24 25

29.615 30.813 32.007 33.196 34.382

32.671 33.924 35.172 36.415 37.652

35.479 36.781 38.076 39.364 40.646

38.932 40.289 41.638 42.980 44.314

41.401 42.796 44.181 45.558 46.928

43.775 45.204 46.623 48.034 49.435

26 27 28 29 30

35.563 36.741 37.916 39.087 40.256

38.885 40.113 41.337 42.557 43.773

41.923 43.195 44.461 45.722 46.979

45.642 46.963 48.278 49.588 50.892

48.290 49.645 50.993 52.336 53.672

50.829 52.215 53.594 54.967 56.332

31 32 33 34 35

44.422 42.585 43.745 44.903 46.059

44.985 46.194 47.400 48.602 49.802

48.232 49.480 50.725 51.966 53.203

52.191 53.486 54.776 56.061 57.342

55.003 56.328 57.648 58.964 60.275

57.692 59.046 60.395 61.738 63.076

36

47.212

50.998

54.437

58.619

61.581

64.410

306

Aanhangsels | ©akademia (MSW)


ElementĂŞre Kwantitatiewe Metodes 0.100

0.050

0.025

0.010

0.005

0.0025

df 37 38 39 40

48.363 49.513 50.660 51.805

52.192 53.384 54.572 55.758

55.668 56.896 58.120 59.342

59.892 61.162 62.428 63.691

62.883 64.181 65.476 66.766

65.739 67.063 68.383 69.699

45 50 60 70 80

57.505 63.167 74.399 85.529 96.581

61.656 67.505 79.087 90.537 101.885

65.410 71.420 83.305 95.031 106.636

69.957 76.154 88.386 100.432 112.336

73.166 79.490 91.957 104.222 116.329

76.233 82.664 95.357 107.812 120.107

90 100 110 120 140

107.568 118.501 129.388 146.571 168.618

113.151 124.348 135.487 152.222 174.659

118.144 129.570 140.925 157.389 180.174

124.125 135.815 147.423 163.678 186.875

128. 307 140.178 151.958 168.122 191.604

132.262 144.300 156.238 172.351 196.099

160 180

190.522 212.310

196.926 219.056

202.766 225.200

209.852 232.647

214.845 237.890

219.588 242.866

Šakademia (MSW)| Aanhangsels

307


Elementêre Kwantitatiewe Metodes

Degrees of freedom for denominator

Die f-tabel (α = 0.05)

308

Degrees of freedom for numerator 4 5 6 7 224.6 230.2 234 236.8 19.2 19.3 19.3 19.4 9.12 9.01 8.94 8.89 6.39 6.26 6.16 6.09 5.19 5.05 4.95 4.88

1 2 3 4 5

1 161.14 18.5 10.1 7.71 6.61

2 199.5 19.0 9.55 6.94 5.79

3 215.7 19.2 9.28 6.59 5.41

8 238.9 19.4 8.85 6.04 4.82

9 240.5 19.4 8.81 6.00 4.77

10 241.9 19.4 8.79 5.96 4.74

6 7 8 9 10

5.99 5.59 5.32 5.12 4.96

5.14 4.74 4.46 4.26 4.10

4.76 4.35 4.07 3.86 3.71

4.53 4.12 3.84 3.63 3.48

4.39 3.97 3.69 3.48 3.33

4.28 3.87 3.58 3.37 3.22

4.21 3.79 3.50 3.29 3.14

4.15 3.73 3.44 3.23 3.07

4.10 3.68 3.39 3.18 3.02

4.06 3.64 3.35 3.14 2.98

11 12 13 14 15

4.84 4.75 4.67 4.60 4.54

3.98 3.89 3.81 3.74 3.68

3.59 3.49 3.41 3.34 3.29

3.36 3.26 3.18 3.11 3.06

3.20 3.11 3.03 2.96 2.90

3.09 3.00 2.92 2.85 2.79

3.01 2.91 2.83 2.76 2.71

2.95 2.85 2.77 2.70 2.64

2.90 2.80 2.71 2.65 2.59

2.85 2.75 2.67 2.60 2.54

16 17 18 19 20

4.49 4.45 4.41 4.38 4.35

3.63 3.59 3.55 3.52 3.49

3.24 3.20 3.16 3.13 3.10

3.01 2.96 2.93 2.90 2.87

2.85 2.81 2.77 2.74 2.71

2.74 2.70 2.66 2.63 2.60

2.66 2.61 2.58 2.54 2.51

2.59 2.55 2.51 2.48 2.45

2.54 2.49 2.46 2.42 2.39

2.49 2.45 2.41 2.38 2.35

21 22 23 24 25

4.32 4.30 4.28 4.26 4.24

3.47 3.44 3.42 3.40 3.39

3.07 3.05 3.03 3.01 2.99

2.84 2.82 2.80 2.78 2.76

2.68 2.66 2.64 2.62 2.60

2.57 2.55 2.53 2.51 2.49

2.49 2.46 2.44 2.42 2.40

2.42 2.40 2.37 2.36 2.34

2.37 2.34 2.32 2.30 2.28

2.32 2.30 2.27 2.25 2.24

30 40 60 120

4.17 4.08 4.00 3.92 3.84

3.32 3.23 3.15 3.07 3.00

2.92 2.84 2.76 2.68 2.60

2.69 2.61 2.53 2.45 2.37

2.53 2.45 2.37 2.29 2.21

2.42 2.34 2.25 2.18 2.10

2.33 2.25 2.17 2.09 2.01

2.27 2.18 2.10 2.02 1.94

2.21 2.12 2.04 1.96 1.88

2.16 2.08 1.99 1.91 1.83

Aanhangsels | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

Degrees of freedom for denominator

Die F-tabel (α = 0.05) [VERVOLG] Degrees of freedom for numerator 24 30 40

12

15

20

60

120

1 2 3 4 5

243.9 19.4 8.74 5.91 4.68

245.9 19.4 8.70 5.86 4.62

248 19.4 8.66 5.80 4.56

249.1 19.5 8.64 5.77 4.53

250.1 19.5 8.62 5.75 4.50

251.1 19.5 8.59 5.72 4.46

252.2 19.5 8.57 5.69 4.43

253.3 19.5 8.55 5.66 4.40

254.3 19.5 8.53 5.63 4.37

6 7 8 9 10

4.00 3.57 3.28 3.07 2.91

3.94 3.51 3.22 3.01 2.85

3.87 3.44 3.15 2.94 2.77

3.84 3.41 3.12 2.90 2.74

3.81 3.38 3.08 2.86 2.70

3.77 3.34 3.04 2.83 2.66

3.74 3.30 3.01 2.79 2.62

3.70 3.27 2.97 2.75 2.58

3.67 3.23 2.93 2.71 2.54

11 12 13 14 15

2.79 2.69 2.60 2.53 2.48

2.72 2.62 2.53 2.46 2.40

2.65 2.54 2.46 2.39 2.33

2.61 2.51 2.42 2.35 2.29

2.57 2.47 2.38 2.31 2.25

2.53 2.43 2.34 2.27 2.20

2.49 2.38 2.30 2.22 2.16

2.45 2.34 2.25 2.18 2.11

2.40 2.30 2.21 2.13 2.07

16 17 18 19 20

2.42 2.38 2.34 2.31 2.28

2.35 2.31 2.27 2.23 2.20

2.28 2.23 2.19 2.16 2.12

2.24 2.19 2.15 2.11 2.08

2.19 2.15 2.11 2.07 2.04

2.15 2.10 2.06 2.03 1.99

2.11 2.06 2.02 1.98 1.95

2.06 2.01 1.97 1.93 1.90

2.01 1.96 1.92 1.88 1.84

21 22 23 24 25

2.25 2.23 2.20 2.18 2.16

2.18 2.15 2.13 2.11 2.09

2.10 2.07 2.05 2.03 2.01

2.05 2.03 2.01 1.98 1.96

2.01 1.98 1.96 1.94 1.92

1.96 1.94 1.91 1.89 1.87

1.92 1.89 1.86 1.84 1.82

1.87 1.84 1.81 1.79 1.77

1.81 1.78 1.76 1.73 1.71

30 40 60 120

2.09 2.00 1.92 1.83 1.75

2.01 1.92 1.84 1.75 1.67

1.93 1.84 1.75 1.66 1.57

1.89 1.79 1.70 1.61 1.52

1.84 1.74 1.65 1.55 1.46

1.79 1.69 1.59 1.50 1.39

1.74 1.64 1.53 1.43 1.32

1.68 1.58 1.47 1.35 1.22

1.62 1.51 1.39 1.25 1.00

©akademia (MSW)| Aanhangsels

309


Elementêre Kwantitatiewe Metodes

Degrees of freedom for denominator

Die f-tabel (α = 0.01)

310

Degrees of freedom for numerator 4 5 6 7 5625 5764 5859 5928 99.2 99.3 99.3 99.4 28.7 28.2 27.9 27.7 16.0 15.5 15.2 15.0 11.4 11.0 10.7 10.5

1 2 3 4 5

1 4052 98.5 34.1 21.2 16.3

2 4999.5 99.0 30.8 18.0 13.3

3 5403 99.2 29.5 16.7 12.1

8 5982 99.4 27.5 14.8 10.3

9 6022 99.4 27.3 14.7 10.2

10 6056 99.4 27.2 14.5 10.1

6 7 8 9 10

13.7 12.2 11.3 10.6 10.0

10.9 9.55 8.65 8.02 7.56

9.78 8.45 7.59 6.99 6.55

9.15 7.85 7.01 6.42 5.99

8.75 7.46 6.63 6.06 5.64

8.47 7.19 6.37 5.80 5.39

8.26 6.99 6.18 5.61 5.20

8.10 6.84 6.03 5.47 5.06

7.98 6.72 5.91 5.35 4.94

7.87 6.62 5.81 5.26 4.85

11 12 13 14 15

9.65 9.33 9.07 8.86 8.68

7.21 6.93 6.70 6.51 6.36

6.22 5.95 5.74 5.56 5.42

5.67 5.41 5.21 5.04 4.89

5.32 5.06 4.86 4.70 4.56

5.07 4.82 4.62 4.46 4.32

4.89 4.64 4.44 4.28 4.14

4.74 4.50 4.30 4.14 4.00

4.63 4.39 4.19 4.03 3.89

4.54 4.30 4.10 3.94 3.80

16 17 18 19 20

8.53 8.40 8.29 8.19 8.10

6.23 6.11 6.01 5.93 5.85

5.29 5.19 5.09 5.01 4.94

4.77 4.67 4.58 4.50 4.43

4.44 4.34 4.25 4.17 4.10

4.20 4.10 4.01 3.94 3.87

4.03 3.93 3.84 3.77 3.70

3.89 3.79 3.71 3.63 3.56

3.78 3.68 3.60 3.52 3.46

3.69 3.59 3.51 3.43 3.37

21 22 23 24 25

8.02 7.95 7.88 7.82 7.77

5.78 5.72 5.66 5.61 5.57

4.87 4.82 4.76 4.72 4.68

4.37 4.31 4.26 4.22 4.18

4.04 3.99 3.94 3.90 3.86

3.81 3.76 3.71 3.67 3.63

3.64 3.59 3.54 3.50 3.46

3.51 3.45 3.41 3.36 3.32

3.40 3.35 3.30 3.26 3.22

3.31 3.26 3.21 3.17 3.13

30 40 60 120

7.56 7.31 7.08 6.85 6.63

5.39 5.18 4.98 4.79 4.61

4.51 4.31 4.13 3.95 3.78

4.02 3.83 3.65 3.48 3.32

3.70 3.51 3.34 3.17 3.02

3.47 3.29 3.12 2.96 2.80

3.30 3.12 2.95 2.79 2.64

3.17 2.99 2.82 2.66 2.51

3.07 2.89 2.72 2.56 2.41

2.98 2.80 2.63 2.47 2.32

Aanhangsels | ©akademia (MSW)


Elementêre Kwantitatiewe Metodes

Degrees of freedom for denominator

Die F-tabel (α = 0.01) Degrees of freedom for numerator 24 30 40

12

15

20

60

120

1 2 3 4 5

6106 99.4 27.1 14.4 9.89

6157 99.4 26.9 14.2 9.72

6209 99.4 26.7 14.0 9.55

6235 99.5 26.6 13.9 9.47

6261 99.5 26.5 13.8 9.38

6287 99.5 26.4 13.7 9.29

6313 99.5 26.3 13.7 9.20

6339 99.5 26.2 13.6 9.11

6366 99.5 26.1 13.5 9.02

6 7 8 9 10

7.72 6.47 5.67 5.11 4.71

7.56 6.31 5.52 4.96 4.56

7.40 6.16 5.36 4.81 4.41

7.31 6.07 5.28 4.73 4.33

7.23 5.99 5.20 4.65 4.25

7.14 5.91 5.12 4.57 4.17

7.06 5.82 5.03 4.48 4.08

6.97 5.74 4.95 4.40 4.00

6.88 5.65 4.86 4.31 3.91

11 12 13 14 15

4.40 4.16 3.96 3.80 3.67

4.25 4.01 3.82 3.66 3.52

4.10 3.86 3.66 3.51 3.37

4.02 3.78 3.59 3.43 3.29

3.94 3.70 3.51 3.35 3.21

3.86 3.62 3.43 3.27 3.13

3.78 3.54 3.34 3.18 3.05

3.69 3.45 3.25 3.09 2.96

3.60 3.36 3.17 3.00 2.87

16 17 18 19 20

3.55 3.46 3.37 3.30 3.23

3.41 3.31 3.23 3.15 3.09

3.26 3.16 3.08 3.00 2.94

3.18 3.08 3.00 2.92 2.86

3.10 3.00 2.92 2.84 2.78

3.02 2.92 2.84 2.76 2.69

2.93 2.83 2.75 2.67 2.61

2.84 2.75 2.66 2.58 2.52

2.75 2.65 2.57 2.49 2.42

21 22 23 24 25

3.17 3.12 3.07 3.03 2.99

3.03 2.98 2.93 2.89 2.85

2.88 2.83 2.78 2.74 2.70

2.80 2.75 2.70 2.66 2.62

2.72 2.67 2.62 2.58 2.53

2.64 2.58 2.54 2.49 2.45

2.55 2.50 2.45 2.40 2.36

2.46 2.40 2.35 2.31 2.27

2.36 2.31 2.26 2.21 2.17

30 40 60 120

2.84 2.66 2.50 2.34 2.18

2.70 2.52 2.35 2.19 2.04

2.55 2.37 2.20 2.03 1.88

2.47 2.29 2.12 1.95 1.79

2.39 2.20 2.03 1.86 1.70

2.30 2.11 1.94 1.76 1.59

2.21 2.02 1.84 1.66 1.47

2.11 1.92 1.73 1.53 1.32

2.01 1.80 1.60 1.38 1.00

©akademia (MSW)| Aanhangsels

311


Johann Smith beskik oor ‘n BCom-graad (Informatika) (Hons) en ‘n MComgraad in Kommunikasiebestuur. Hy is vir die afgelope 13 jaar in die onderwys betrokke en het, onder andere, Statistiek vir eerstejaarstudente aangebied. Hierdie is sy vierde handleiding. Johann is ook ‘n skrywer van toneelstukke en draaiboeke. Hy het reeds twee maal die ATKV CR Swartprys vir toneeltekste ontvang en het draaiboeke vir twee gewilde Suid-Afrikaanse sepies geskryf. Dr Daleen van Niekerk is ‘n opvoedkundige konsultant wat reeds meer as 20 jaar betrokke is by die ondersteuning van akademici in die ontwikkeling van studiemateriaal. Haar spesialisveld behels leerontwerp, akademiese redigering asook bladuitleg om leermateriaal so toeganklik as moontlik vir studente te maak. In hierdie hoedanigheid was sy betrokke by projekte aan Unisa, Milpark Business School, Law Society of South Africa, Lyceum College en Centurion Akademie. Vir die afgelope vyf jaar is sy betrokke by projekontwikkeling aan Akademia.

www.akademia.ac.za


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.