Pi enter STATISTIEK
aa
r
Derde graad TSO
pl
Etienne Goemaere
Stephan Wellecomme MET MEDEWERKING VAN
In
kij
ke x
Guy Gijbels
em
Dirk Taecke
1
2
3
4
5
6
aa
r
Statistiek
In
kij
ke x
em
pl
Derde graad TSO
Etienne Goemaere Dirk Taecke Stephan Wellecomme MET MEDEWERKING VAN Guy Gijbels
Inhoudsopgave Hoe werk je met Pienter?
4
Hoofdstuk 1
5
Verzamelen van gegevens
Hoofdstuk 2 Verwerken van gegevens
27
Hoofdstuk 3 Statistische kentallen
59
Hoofdstuk 4 De normale verdeling
97 117
In
kij
ke x
em
pl
aa
r
Hoofdstuk 5 Regressie
Hoe werk je met Pienter? REEKS B
Elk hoofdstuk start met een leuke cartoon en een realistische inleiding of kort onderzoek.
1.5 3 De onderzoeksvragen In een school wordt een steekproef gedaan bij 80 leerlingen van de derde graad. Hun boekentas wordt gewogen op 10 gram nauwkeurig.
1.5.1 Voorbeelden 7 930 6 620 9 180
6 960
8 340 10 080 5 800
7 740
8 060
7 560
8 290
7 810
9 360
7 860
7 990
9 580
6 290
7 200
8 470
9 800
7 990
6 010
6 030
7 970
7 180
8 070
8 110
7 990
7 030
5 320
8 610
7 770
Alternatieve 6 570 7 050 8 860geneeskunde, 9 970 7 660 9 370
7 910
7 330
8 710
6 240
7 510
8 950
6 150
8 950
7 830
9 460
8 600 71 020 Voorbeeld 7 430 8 010 9 860
Stap voor stap kom je meer te weten over wiskunde in het dagelijks leven. Je leert formuleren in definities, eigenschappen, rekenregels of besluiten. Je leert ook eigenschappen bewijzen.
6 230
wat8vindt ervan? 8 140 730 8u220 8 860
5 390
9 330
8 600
8 720
6 730
7 340
8 030
7 470
5 650
8 350
9 120
7 960
8 100
8 010
8 520 8 110 8 090 6 280 5 480 8 790 Geef 3 redenen waarom het resultaat van 6 800 deze 7 190 enquête waardeloos is.
16%
a) Bereken het gemiddelde en geef de betekenis.
b) De helft van de boekentassen weegt 84% minstens
Het (rekenkundig) gemiddelde
2.1
3.2.1 Definitie
Verwerken van kwalitatieve tegen gegevens
d) Bespreek de ligging van het gemiddelde en de mediaan ten opzichte van elkaar en de modale klasse.
2.1.1 Voorbeeld Frequentietabel Wat kun2 je hieruit besluiten?
Rekenkundig gemiddelde
Definitie
voor van § 2.3.1: c) Bepaal de modale klasse uit de frequentietabel
_ Het rekenkundig gemiddelde x van een rij numerieke gegevens is gelijk aan de som van die gegevens, gedeeld door het aantal gegevens. n
∑ xi _ x 1 + x 2 + ... + x n i=1 Als een steekproef n gegevens oplevert, dan is het gemiddelde x = _____________ = _____ n n
Opmerkingen
• H et gemiddelde heeft dezelfde eenheid als de waarnemingsgetallen (cm, kg ...).
3.2.2 Voorbeeld
Definitie
1
• Bereken het gemiddeld aantal nieuwe personenwagens per jaar.
1
3.2.3 Berekening van het gemiddelde met ICT REEKS C verdiepingsniveau
3 4
4 5
Met de grafische rekenmachine
5
Voer deper gegevens in de werklijst L in en Open het bestand Oefeningen zijn‘AUTO.xlsx’. genummerd hoofdstuk (of open AUTO.8xl). Je berekent het gemiddelde met Je berekent het gemiddelde in cel B4: B4: =GEMIDDELDE(B2:I2) aangeduid met een verticale streep. • ofwel Stat 1-Var • ofwel gemiddelde( 1
list
stat
L3
e
3
list
stat
(gemiddelde L 1 of
L1
74
HOOFDSTUK 3 I
18
HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS
561402_04_PIE_H3.indd 74
Y
561402_04_PIE_H1.indd 18
1
12/05/2020 12:07
• Van hoeveel mensen van jouw klas mag je verwachten dat ze bloedgroep A hebben?
ke x
kij
HOOFDSTUK 3 I STATISTISCHE KENTALLEN
bloedgroep
antigeen antigeen antilichamen antilichamen A B A B
O A B AB 61
28
Je bloedgroep wordt bepaald door het al dan niet aanwezig zijn van bepaalde moleculen (‘antigenen’ en ‘antilichamen’) op de rode bloedcellen in je bloed. Er zijn 4 bloedgroepen: A, B, O en AB. Je hebt een positieve resusfactor als het D-antigeen aanwezig is of een negatieve resusfactor indien dit antigeen er niet is. Het D-antigeen werd in 1940 ontdekt bij resusapen, vandaar de naam.
HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS
12/05/2020 12:07 561402_04_PIE_H2.indd 28
In
Dit icoon en de groene achtergrond geven aan waar uitbreidingsleerstof of -oefeningen aangeboden worden.
STUDIEWIJZER Verwerken van gegevens 2.1 Verwerken van kwalitatieve gegevens KENNEN
De absolute frequentie n i van een gegeven is het aantal keer dat het gegeven voorkomt. De relatieve frequentie f i is het quotiënt van de absolute frequentie en de omvang van ni . de steekproef: f i = _ n
KUNNEN
Grafische voorstellingen maken van de frequentieverdeling: staafdiagram en schijfdiagram.
2.2 Verwerken van niet-gegroepeerde kwantitatieve gegevens KENNEN De absolute frequentie n i van het waarnemingsgetal x i is het aantal keren dat dit gegeven voorkomt. De relatieve frequentie f i is het quotiënt van de absolute frequentie en de omvang ni . van de steekproef: f i = _ n
Wil je nog meer? Verken dan ons onlineleerplatform De cumulatieve absolute frequentie cn i van het waarnemingsgetal x i is het aantal keer
dat een getal voorkomt dat kleiner dan of gelijk is aan x i : cn i = n 1 + n 2 + ... + n i .
De cumulatieve relatieve frequentie cf i is het quotiënt van de cumulatieve absolute frequentie cn i . en de omvang van de steekproef: cf i = ____ n
.
Je kunt er digitaal oefenen op jouw maat zodat je de leerstof helemaal onder de knie krijgt. KUNNEN
Bij het lesmateriaal ontdek je onder meer: • extra uitbreidingsleerstof en -oefeningen, • instructiefilmpjes als je iets uitgelegd wilt zien.
Een frequentietabel voor een niet-gegroepeerd kwantitatief kenmerk opstellen en interpreteren. Grafische voorstellingen maken van de frequentieverdeling: staafdiagram, lijndiagram, cumulatief staafdiagram en cumulatief lijndiagram.
2.3 Verwerken van gegroepeerde kwantitatieve gegevens KENNEN
De variatiebreedte R is het verschil tussen het grootste en het kleinste gegeven. ai + bi Het klassenmidden van de i-de klasse is m i = _ . 2
De klassenfrequentie n i van de i-de klasse is het aantal waarnemingsgetallen dat tot die klasse behoort.
KUNNEN Een frequentietabel voor een gegroepeerd kwantitatief kenmerk opstellen en interpreteren. Grafische voorstellingen maken van de frequentieverdeling: histogram, frequentiepolygoon en ogief. Een stengel- en bladdiagram opstellen van een tabel ruwe gegevens.
12/05/2020 12:08
Op het einde van elk hoofdstuk vind je alles wat je moet kennen en kunnen bijeengebracht in een handige studiewijzer. Dat is een ideale leidraad om je samenvatting te maken. Ook het contractwerk helpt je bij het studeren.
Een frequentietabel voor een kwalitatief kenmerk opstellen en interpreteren.
12/05/2020 11:45
(Stat 1-Var L 1 of
Bereken het gemiddeld aantal pogingen dat iemand nodig had om te slagen voor het rijexamen (§ 2.2.1).
561402_04_PIE_H3.indd 61
A O 997
de kwart verschillende onderdelen. b) Een van de blikjes heeft een inhoud van minstens • DEen e som van de absolute frequenties is gelijk aansociaal-wetenschappelijk de omvang van de steekproef. Bron: samenleving onderzocht - Methoden voor onderzoek, • M eestal wordt de relatieve procent uitgedrukt. door Jaak Billiet en Hans Waege -frequentie StandaardinUitgeverij. STATISTISCHE KENTALLEN • Mag men de 60 elementen van de steekproef willekeurig kiezen?
gemiddelde LAUTO) Stat 1-Var LAUTO) Interessante weetjes of achtergrond herken je aan een kader met vraagteken.
Voorbeeld
A 1 005
• Je M aak gebruik van hetbeeld werk door van ervaren mensen. 999 1 000 991op te981 1 003 1 015 1 001 krijgt een duidelijker een frequentietabel stellen. 982 bloedgroep ni fi Het raadplegen van bestaande vragenlijsten en databestanden kan veel werk besparen. 998 1 012 1 023 997 996 1 015 1 027 1 011 • De Deerste e vragen moeten kort, eenvoudig, duidelijk en van begrijpelijk zijn. kolom bevat de verschillende gegevens de variabele A 24 40,00 994 981 1 005 977 988 1 000 987 % • ‘bloedgroep’. Elke vraag mag maar 1 onderwerp bevatten. De volgorde speelt geen rol. 1 020 Samengestelde vragen zijn moeilijk beantwoorden om te998 beoordelen. 990om te999 1 013 en 988 1 009 1 003 992% B 5 8,33 • Absolute De eventuele antwoordmogelijkheden moeten op een overzichtelijke wijze worden voorgesteld. en relatieve frequentie • Bekijk goed de plaats van elke vraag in het geheel. AB 2 3,33 % a) Onderzoek met 2 centrummaten ofgegeven de klachten gegrond zijn dat of niet. n i van een aantal keer • De Deabsolute opmaak frequentie van de vragenlijst in zijn geheelisishet belangrijk. gegeven voorkomt. tussen feiten en opinies. O 29 48,33 % • het Maak een onderscheid • De Geef uitleg over de begrippen in de vragen relatieve frequentie f i is hetdie quotiënt van voorkomen. n i waarover het gaat. 60 100,00 % Een respondent kan niet antwoorden als hij niet weet _ de absolute frequentie en objectief de omvang van de steekproef: fi = . n • Geef een algemene inleiding om de situatie uit te leggen en eventueel de nodige inleidingen bij
em
2
2
3
2nd
O
A O
pl
490 711 486 065 482 939 501 066 539 519 546 558 550 384
REEKS A eenvoudige toepassingen
Met Excel
O
DaaromB laat hij een A steekproef O uitvoeren. B O B O A Bij 40 van de lopende band blikjes de inhoud, in ml, bepaald. Algemene aanbevelingen bijgenomen het opstellen vanwordt de vragenlijst A O A B A O A O 990 1 004 1 003 1 006 • Stel niet te veel vragen. Beperk je985 tot het 996 essentiële.
De tabel bevat het aantal tot het verkeer nieuwe personenauto’s voor de periode 2011-2018. Na elk stukje theorie kuntoegelaten je meteen oefenen. jaar 2011 2012 2013 2014 2015 2016 2017 2018 Er zijn drie reeksen oefeningen:
REEKS B basisniveau
Een conservenfabrikant krijgt O A O klachtenA over de netto-inhoud O A van zijn ABblikken met O erwtjes, O
die volgens de verpakking 1 liter zou moeten bedragen. 1.5.2 De vraagstelling
• J e rondt het gemiddelde af op 1 cijfer meer na de komma dan de oorspronkelijke gegevens.
aantal nieuwe 577 382 personenwagens
O
aa
4
Een de onderzoek naarbepaald. de verspreiding van een virus kan Bij een steekproef wordt van 60 mensen bloedgroep verschillende onderzoeksvragen hebben. resultaten zie je in de ruwe gegevens. e) De Bepaal de kwartielen en tabel geef de betekenis. • Hoeveel procent van de mensen is besmet? • Is de besmetting leeftijdsgebonden? A O O A B O A O A • In welke streken komt het virus het meest voor? manieren wordtOhet virus Aovergedragen? O A O O • Op welke A O O • Wat is de kans op besmetting? ziek? A A A O • Wordt ABiedereenOdie besmet A is ook werkelijk O A
r
3.2
HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS
1.1
Statistiek en statistieken
6 9
1.2 Opdrachten
12
1.4 Populatie en steekproef
14
1.5 De onderzoeksvragen
18
1.6 Misleidende statistieken
20
1.7
aa
r
1.3 Soorten gegevens
Opdrachten: deel 1 20 26
In
kij
ke x
em
pl
Studiewijzer
nieuwe cartoon wordt aangeleverd bij correcties op eerste proef
HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS
5
1.1
Statistiek en statistieken
1.1.1 Inleiding
In
kij
ke x
em
pl
aa
r
Bij het woord ‘statistiek’ denk je aan enquêtes, tabellen met cijfers, grafieken, ... Meestal spreekt men in dit geval van ‘statistieken’. Er zijn heel wat voorbeelden te vinden in kranten, weekbladen, op het internet, ...
De wiskundige discipline ‘statistiek’ heeft een ruimere betekenis.
1 2 3 4
Definitie
Statistiek Statistiek is de wetenschap die zich bezighoudt met het verzamelen, ordenen, verwerken, ontleden en verklaren van gegevens (‘data’) en dit met de bedoeling om een inzicht te krijgen in verschijnselen in de samenleving, de natuur, ...
5
6 HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS
1.1.2 Statistiek beschrijvende statistiek
verklarende statistiek
• v erzamelen van informatie • v erwerken en voorstellen van informatie (ordenen in tabellen, voorstellen in grafieken) • a nalyseren van informatie (kenmerkende maten bepalen zoals gemiddelde, mediaan, spreiding van de gegevens ...)
• v erdere analyse • n agaan van de betrouwbaarheid van de informatie • f ormuleren van conclusies
In de statistiek worden veel numerieke berekeningen gemaakt. Dit rekenwerk is echter een hulpmiddel en geen doel. Het doel van de statistiek is het verwerven van inzicht vanuit getallen.
em
pl
aa
r
Als je in de wiskundelessen bezig bent met algebra, dan werk je met getallen. In de statistiek wordt ook met getallen gewerkt, maar die staan in een context. Het getal 176 heeft op zich geen betekenis als je niet weet dat het bijvoorbeeld om de lengte van een volwassen man gaat en dat deze lengte in centimeter is. De context geeft met andere woorden betekenis aan getallen. Het gemiddelde berekenen van 10 getallen is een puur algebraïsche bewerking. De uitkomst interpreteren en een context meegeven is statistiek.
ke x
Statistiek is overal aanwezig in het dagelijks leven en is voor de maatschappij van groot belang. De economie, de politiek, de wetenschappen, de sport ... zijn ondenkbaar zonder gebruik te maken van statistische gegevens. Hoe zouden families hun budget beheren, hoe zou een land bestuurd worden, hoe zou je verschillende prestaties op gebied van school, sport, ... met elkaar vergelijken zonder gebruik te maken van statistiek?
kij
In België publiceert de Algemene Directie Statistiek (Statbel) bijna dagelijks nieuwe cijfergegevens over bevolking, samenleving, economie en financiën, industrie, diensten, handel en vervoer, landbouw, ...
In
Zoek op de site van Statbel het antwoord op de volgende vragen. • W at is de meest recente consumptieprijsindex? • W at is de populairste voornaam bij de geboorte van een meisje in het Vlaams Gewest?
• H oeveel bedroeg de gemiddelde jaartemperatuur in Ukkel tijdens het voorbije jaar? • H oeveel procent van de Belgische bevolking leeft in het Brussels Hoofdstedelijk Gewest?
Ook de Vlaamse overheid levert heel wat cijfermateriaal.
De geschiedenis van de statistiek vind je op diddit.
HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS
7
Oefeningen REEKS A
De Europese Unie heeft ook haar eigen statistisch bureau: Eurostat. Het bureau werd opgericht in 1959 en heeft zijn zetel in Luxemburg.
Zoek op het internet het antwoord op de volgende vragen.
r
1
b) Wat was het natste jaar in België na 2000?
Hoeveel neerslag viel er in Ukkel tijdens dat jaar?
c) Hoeveel 60-plussers telt Vlaanderen?
Hoeveel procent is dat van de totale bevolking?
em
pl
aa
a) Wat is de gemiddelde levensverwachting van een Belgische vrouw?
d) Wat is het aantal inwoners in de Europese Unie?
ke x
e) Wie was de zwaarste mens ooit? Wat was zijn gewicht?
f) Hoeveel procent van de Brusselse bevolking is van buitenlandse oorsprong?
kij
g) Hoeveel procent van de huishoudens in Vlaanderen heeft een computer?
In welk Europees land is dit aandeel het grootst?
In
h) Hoeveel procent orthodoxe christenen zijn er in Bulgarije?
Hoeveel orthodoxe christenen zijn er dan?
i) Hoe groot was de stijging van het aantal ingeschreven elektrische fietsen in Vlaanderen tussen 2015 en 2019? j) Wat was de procentuele groei van het aantal gevangenen in Spanje tussen 2010 en 2019? 1 2
k) In welk land is de CO 2-uitstoot door het gebruik van fossiele brandstoffen het hoogst?
3
Hoeveel bedraagt de uitstoot per jaar?
4 5
8 HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS
1.2
Opdrachten
1.2.1 Opdracht 1 Op www.klasse.be kon je enkele jaren geleden het volgende artikel lezen.
Amerikaanse scholen schaffen speeltijd af
r
door meer lees- en rekenlessen, de twee vakken waar de federale overheid het meeste testen voor uitvoert. Voorstanders beweren ook dat de speeltijd afschaffen geweld, vandalisme en pesterijen vermijdt. Maar volgens Amerikaanse universiteiten zijn studenten als kind zo beschermd dat ze bij de minste tegenwind omwaaien. Ze kennen alle nabijgelegen zonnestelsels, maar kunnen geen ruzies oplossen.
aa
(VERENIGDE STATEN) In één op vier Amerikaanse scholen krijgen de leerlingen (bijna) geen speeltijd meer. Scholen korten de speeltijd in of schaffen hem af. Daar zijn verschillende redenen voor: ouders klagen de school aan als hun kind gewond raakt op de speelplaats, andere scholen hebben geen plaats. De meeste scholen zijn bekommerd om de resultaten van hun leerlingen. De speeltijd wordt dikwijls vervangen
em
pl
• G eef de 3 voornaamste redenen voor de (gedeeltelijke) afschaffing van de speeltijd.
ke x
• O p welke manier heeft men naar de opinie van de betrokkenen gepeild?
• I s dit een goede manier van werken? Waarom (niet)?
kij
• E nkele vragen die je jezelf kunt stellen: Hoe zouden de leerlingen, ouders en leerkrachten van jouw school tegenover een afschaffing of inkorting van de speeltijd staan?
Welke motivaties spelen daarbij een rol?
Zullen de beweegredenen anders zijn bij leerlingen dan bij ouders en leerkrachten?
Zijn de leeftijd en het geslacht van de ondervraagde leerlingen belangrijk?
Is een beperking van de middagpauze misschien een optie?
Gaan er stemmen op om de pauzes langer te maken in plaats van ze te verkorten?
In
• O m op deze vragen een antwoord te vinden, zul je eerst en vooral moeten overleggen. De klas kan daarvoor verdeeld worden in groepjes van 3 of 4 leerlingen.
Welke vragen worden er gesteld?
Moet er eerst een situatieschets gebeuren?
Wie wordt er ondervraagd? Moeten alle leerlingen, ouders en leerkrachten worden gepolst?
Hoe wordt het werk verdeeld? Er zijn mensen nodig om de enquête op te stellen, om de gegevens te verzamelen en om die te verwerken.
In een statistisch onderzoek moet je verschillende fases doorlopen, die nauw met elkaar verbonden zijn. Ga nog niet meteen aan de slag. Eerst moet je nog heel wat statistische kennis opdoen.
HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS
9
1.2.2 Opdracht 2
aa
r
Het volgende artikel komt uit De Standaard.
pl
Vormt het eten van junkfood een probleem bij de laatstejaars van het middelbaar onderwijs? In een eerste deel van je onderzoek probeer je te weten te komen hoeveel keer per week junkfood een andere maaltijd vervangt.
ke x
W at is junkfood? H oeveel mensen ga je betrekken bij het onderzoek? Houd je het bij leerlingen van je eigen school? M oet je rekening houden met geslacht, afkomst, woonplaats, gezinssituatie, ...? H oe formuleer je de vragen? Hoe zorg je ervoor dat de antwoorden correct zijn? Welke periode moet je voorzien waarin de onderzochte jongeren hun eetgedrag moeten nagaan? Zal men in die periode niet speciaal op zijn voeding letten?
In
kij
• • • •
em
De klas wordt in groepjes van 3 of 4 personen verdeeld. Vragen die beantwoord zullen moeten worden:
In een tweede deel van het onderzoek ga je na wat het favoriete junkfood is van de laatstejaars. • Welke soorten junkfood bestaan er? Hoeveel ervan betrek je in het onderzoek? • Maak je een onderscheid tussen het eten van junkfood thuis of in een restaurant? • Betrek je dezelfde mensen van het eerste deel ook in dit tweede deel en hoe kun je beide delen van het onderzoek combineren? • Welke vragen stel je en wat zijn de mogelijke antwoorden die voorzien worden? • Hoe zul je de antwoorden ‘meten’?
1
• Hoe zul je de taken verdelen: opstellen van de vragenlijst(en), uitvoeren van de enquête, verzamelen van de gegevens, verwerken van de gegevens?
2 3 4 5
10
HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS
1.2.3 Opdracht 3 De Belgische mannen zijn de tweede langste ter wereld, na de Nederlandse. De mannen in ons land zijn in een eeuw tijd met maar liefst 14 cm gegroeid. Ze worden nu gemiddeld 181,7 cm.
Bron: Knack.be De grafiek toont de evolutie van de gemiddelde lengte van de Belgische man sinds 1881. gemiddelde lengte van een volwassen man in België 184
182
r
180
aa
178
174
pl
lengte in cm
176
172
em
170
168
164 1881
ke x
166
1902
1909
1926
1938
1947
1963
1979
2004
2019
jaartal
kij
Is die spectaculaire toename van de gemiddelde lengte van een volwassene ook zichtbaar bij de mensen die nu leven? Het onderzoek dat je zult verrichten speelt zich voornamelijk buiten de schoolmuren af.
In
Er wordt aan 100 mannen van de leeftijdsklasse 20-30 jaar, 100 mannen van de leeftijdsklasse 30-50 jaar en 100 mannen van de leeftijdsklasse 50-70 jaar gevraagd naar hun lichaamslengte in cm. Doe hetzelfde voor de vrouwen. Verdeel het werk zodat elke leerling ongeveer evenveel mensen moet ondervragen en maak goede afspraken zodat bepaalde personen niet meerdere malen in het onderzoek betrokken worden. De gegevens zullen later verwerkt worden per leeftijdsklasse en per geslacht en daarna besproken. Ook hier zal overleg met de rest van de klas noodzakelijk zijn.
HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS
11
1.3
Soorten gegevens
1.3.1 Elementen, veranderlijken en gegevens stappen in een statistisch proces
benamingen
Je wenst informatie in te winnen over een, door het toeval bepaald, verschijnsel.
De objecten (personen, dieren, goederen, ...) waarover je informatie wenst, zijn de elementen van het onderzoek.
↓ De verzameling elementen die wordt onderzocht is de steekproef.
r
Er wordt een verzameling elementen samengesteld die aan het onderzoek zullen deelnemen.
aa
↓
Een kenmerk of eigenschap van een element noem je een veranderlijke of variabele.
In een statistisch onderzoek worden eigenschappen van elementen nagegaan.
pl
↓
↓
De hoedanigheden of getallen die je verkrijgt na een statistisch onderzoek zijn de gegevens of data. Die vormen een gegevensverzameling.
em
Bij het onderzoek worden hoedanigheden of getallen verzameld.
Om de gegevens te verwerken gebruik je frequentietabellen, grafieken, centrummaten en spreidingsmaten.
ke x
De gegevens worden verwerkt in tabellen en diagrammen. Je berekent statistische kentallen.
Voorbeeld
schoenmaat
kleur ogen
lengte
vrouwelijk
39
groen
168 cm
Peter Janssens
mannelijk
43
blauw
185 cm
Tom De Blauwe
mannelijk
41
blauw
179 cm
Sarah Vandenberghe
vrouwelijk
40
bruin
175 cm
In
Els Peeters
1 2 3 4 5
12
geslacht
kij
leerling
HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS
1.3.2 Soorten gegevens kwalitatieve gegevens
kwantitatieve gegevens
Beschrijven hoedanigheden en eigenschappen die niet met getallen beschreven kunnen worden. Niet-numerieke gegevens worden ook categorische gegevens genoemd.
Nemen numerieke waarden aan en worden bepaald door metingen, tellingen, ...
Nominale kwalitatieve Ordinale kwalitatieve gegevens hebben geen gegevens hebben een natuurlijke ordening. natuurlijke ordening.
Discrete kwantitatieve gegevens beperken zich tot een aantal waarden.
Continue kwantitatieve gegevens zijn reële waarden tussen bepaalde grenzen.
Voorbeeld: Voorbeeld: Veranderlijke: geslacht; Veranderlijke: appreciatie van een restaurant; Gegevens: mannelijk, Gegevens: ++, ..., –– vrouwelijk.
Voorbeeld: Veranderlijke: aantal kinderen in een gezin; Gegevens: 0,1, ...
Voorbeeld: Veranderlijke: lengte van een vrouw, in cm; Gegevens: 152, 176, ...
r
aa
pl
Voorbeelden
Numerieke gegevens worden ook waarnemingsgetallen genoemd.
veranderlijke
em
Vink het soort gegevens aan in de volgende voorbeelden. gegevens
kwalitatief nominaal
kwalitatief kwantitatief kwantitatief ordinaal discreet continu
ke x
aantal ogen bij het gooien van een dobbelsteen verkiezingsuitslag
massa van een man
kij
aantal verkeersongevallen per jaar in een stad
In
favoriete kleur
onderwijsniveau van het Vlaamse overheidspersoneel levensduur, in uren, van lampen
Opmerking Soms worden kwalitatieve gegevens gekwantificeerd, zoals in onderstaand voorbeeld. Ik heb voldoende inspraak in de werking van de school. helemaal niet akkoord = 1
eerder niet akkoord = 2
1
eerder akkoord = 3
2
3
4
volledig akkoord = 4
In dit geval zijn de getallen niet meer dan codes voor ordinaal kwalitatieve gegevens.
HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS
13
1.4
Populatie en steekproef
pl
aa
r
1.4.1 Kijkcijferonderzoek
In
kij
ke x
em
Bij het kijkcijferonderzoek wenst men informatie in te winnen over alle kijkers van 4 jaar en ouder in Vlaanderen en Nederlandstalig Brussel. Die volledige groep noemt men de populatie. Om de kijkcijfers te bepalen, worden uiteraard niet alle tv-kijkers ondervraagd. Dat is onmogelijk. Men trekt een steekproef. Het Centrum voor Informatie over de Media (het CIM) is een Belgische instelling die gegevens verzamelt en levert voor de reclamemarkt. De CIM-studie doet een beroep op een panel van 1 500 gezinnen, dat representatief is voor alle gezinnen van de populatie. Het panel is namelijk samengesteld op basis van leeftijd, opleiding, beroepsactiviteit, woonplaats …. Bij elk van die gezinnen is een kijkmeter geïnstalleerd die het kijkgedrag van de leden van het gezin en eventuele gasten registreert. Sinds 2016 bepaalt men het totaal van het rechtstreeks tv-kijken en het uitgesteld tv-kijken tot 7 dagen na de uitzending.
1.4.2 Populatie en steekproef
Definitie
Populatie en steekproef De volledige verzameling elementen waarover je informatie wilt verkrijgen, is de populatie. Een steekproef is een deelverzameling van de populatie die feitelijk wordt onderzocht.
1 2 3 4 5
14
Men zegt dat een steekproef uit de populatie wordt getrokken. Het is de bedoeling dat vanuit de steekproef een zo volledig mogelijk, representatief beeld wordt verkregen voor de volledige populatie. Daarom moet je een goede kijk hebben op de samenstelling van de populatie zelf en die goed definiëren. HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS
1.4.3 Het trekken van een steekproef Om gegevens te verzamelen worden enquêtes afgenomen. De ondervraagde mensen noemt men de respondenten van de enquête. De 3 meest voorkomende vormen van enquêtes zijn: • de schriftelijke enquête (in een moderne variant kan dit ook via internet); • het persoonlijk interview, eventueel via de telefoon; • de panelmethode: hierbij wordt een vaste groep mensen ondervraagd over allerlei onderwerpen (kijkgewoonten, gezinsbudget, ...).
persoonlijk interview
pl
panelmethode
nadeel
aa
schriftelijke enquête
voordeel
r
soort enquête
em
ke x
Opdat de gegevens die verkregen zijn uit een steekproef op een verantwoorde manier zouden kunnen worden veralgemeend naar de volledige populatie, moet de steekproef: • e en voldoende omvang hebben; • r epresentatief zijn voor de volledige populatie. Wat is ‘voldoende’? Dat hangt af van de aard van de populatie en van het onderzoek zelf. aantal ondervraagden aantal rokers
kij
aantal rokers in procent
20
50
70
90
120
150
7
15
22
25
34
42
35,0 %
30,0 %
31,4 %
27,8 %
28,3 %
28,0 %
In
In het voorbeeld zie je het resultaat van een enquête waarbij aan 18-jarigen werd gevraagd of ze roken. Vanaf welk aantal ondervraagden zie je een stabilisering van de percentages? Voor deze enquête is een steekproef bij jongeren van 18 jaar dus voldoende.
Kun je de 18-jarigen die je ondervraagt zomaar lukraak uitkiezen? Waarom (niet)? Geef 3 vragen die jij zou stellen om een goed zicht te krijgen op het rookgedrag bij jongeren.
HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS
15
Soorten steekproef aselecte (lukrake) steekproef
gerichte steekproef
systematische steekproef
Elk element van de steekproef wordt bij toeval gekozen.
De populatie wordt verdeeld in deelgroepen, verhoudingsgewijs samengesteld vanuit die populatie. Vervolgens wordt binnen elke deelgroep een aselecte steekproef gehouden.
De steekproefelementen worden ‘systematisch’ uit de populatie gekozen. Bijvoorbeeld: elke 5 minuten wordt een product van de montageband genomen voor onderzoek.
pl
aa
r
Tijdens de verkiezingscampagnes van Roosevelt en zijn tegenstander Landon in 1936 in de VS, deed het tijdschrift Literary Digest een poging om de uitslag van de verkiezingen te voorspellen. Ze stuurden 10 miljoen formulieren naar de autobezitters en kregen er ruim 2 miljoen terug. Een grote telefonische enquête op basis van de telefoongids moest het onderzoek verder aanvullen. De voorspelling dat 57 % van de stemmen naar Landon zou gaan en 43 % naar Roosevelt was compleet verkeerd, want Roosevelt won de verkiezingen met maar liefst 61 % van de stemmen. Bedenk de reden(en) voor het falen van deze steekproef.
em
ke x
De respons
Het aantal mensen dat antwoordt op een enquête noemt men de respons. Het aantal mensen dat wel gevraagd wordt om aan een onderzoek of enquête deel te nemen, maar weigert of niet antwoordt, is de non-respons. Beide waarden worden meestal uitgedrukt in procent.
kij
Non-respons kan de waarde van een onderzoek in belangrijke mate verminderen of zelfs geheel tenietdoen.
In
Geef 5 mogelijkheden om mensen te stimuleren aan een onderzoek of enquête mee te werken.
1
2 3 4 5
16
HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS
1.4.4 Voorbeelden Een krant doet een enquête bij haar lezers over de kiesintenties bij de volgende verkiezingen. • P opulatie: • S teekproef:
Soort steekproef:
• S oort gegevens:
pl
aa
r
• H oe zou een goede steekproef er volgens jou moeten uitzien?
Vrouwen zijn slechtste chauffeurs
Het is nu officieel: vrouwen zijn de beste chauffeurs. Een studie van de Weense verkeersveiligheid heeft vastgesteld dat slechts 35 % van de ongelukken op de weg door vrouwen worden veroorzaakt.
ke x
em
Uit onderzoek door psychologen van de Queen Mary University of London, is gebleken dat vrouwen slechter presteren in taken waarbij navigatie en ruimtelijk inzicht vereist zijn. De computergebaseerde tests werden uitgevoerd op 140 vrijwilligers (70 mannen en 70 vrouwen). In deze test moest men virtueel zwemmen door een onderwaterdoolhof naar een verborgen platform. Vrouwen deden er veel langer over om de bestemming te bereiken.
Vrouwen zijn beste chauffeurs
• Wat is in beide gevallen de populatie?
kij
• Welk soort steekproef is er in beide gevallen getrokken? Omschrijf telkens de steekproef.
In
• Geef voor beide onderzoeken 2 redenen waarom de conclusie voorbarig is. •
•
•
•
• Hoe zou je zelf te werk gaan in een statistisch onderzoek naar de veiligste chauffeur?
HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS
17
1.5
De onderzoeksvragen
1.5.1 Voorbeelden Voorbeeld 1
Alternatieve geneeskunde, wat vindt u ervan? 16%
Geef 3 redenen waarom het resultaat van deze enquête waardeloos is.
84%
aa
r
pl
voor tegen
Voorbeeld 2
em
ke x
Een onderzoek naar de verspreiding van een virus kan verschillende onderzoeksvragen hebben. • Hoeveel procent van de mensen is besmet? • Is de besmetting leeftijdsgebonden? • In welke streken komt het virus het meest voor? • Op welke manieren wordt het virus overgedragen? • Wat is de kans op besmetting? • Wordt iedereen die besmet is ook werkelijk ziek?
kij
1.5.2 De vraagstelling
Algemene aanbevelingen bij het opstellen van de vragenlijst S tel niet te veel vragen. Beperk je tot het essentiële. M aak gebruik van het werk van ervaren mensen. Het raadplegen van bestaande vragenlijsten en databestanden kan veel werk besparen. D e vragen moeten kort, eenvoudig, duidelijk en begrijpelijk zijn. E lke vraag mag maar 1 onderwerp bevatten. Samengestelde vragen zijn moeilijk om te beantwoorden en om te beoordelen. D e eventuele antwoordmogelijkheden moeten op een overzichtelijke wijze worden voorgesteld. B ekijk goed de plaats van elke vraag in het geheel. D e opmaak van de vragenlijst in zijn geheel is belangrijk. M aak een onderscheid tussen feiten en opinies. G eef uitleg over de begrippen die in de vragen voorkomen. Een respondent kan niet objectief antwoorden als hij niet weet waarover het gaat. G eef een algemene inleiding om de situatie uit te leggen en eventueel de nodige inleidingen bij de verschillende onderdelen.
In
• • • • • • • • • •
1 2 3 4 5
18
Bron: Een samenleving onderzocht - Methoden voor sociaal-wetenschappelijk onderzoek, door Jaak Billiet en Hans Waege - Standaard Uitgeverij. HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS
Open vragen Bij open vragen heeft de respondent de mogelijkheid het antwoord op de vraag zelf te formuleren. Geef een voordeel van open vragen: Een nadeel is dat de antwoorden moeilijk te beoordelen zijn en dat een oppervlakkige vraagstelling tot verkeerde conclusies kan leiden. Geef aan in welke mate je de vraagstelling zou kunnen verbeteren in de volgende voorbeelden.
aa
pl
r
• F unctioneert het openbaar vervoer goed in Vlaanderen?
ke x
em
• B ent u voor of tegen plastische chirurgie?
Gesloten vragen
alternatieve antwoordmogelijkheden
kij
Wat is uw geslacht?
In
r man r vrouw
niet-alternatieve antwoordmogelijkheden
Welke 3 kenmerken passen het best bij jou?
r sociaal r ambitieus r verantwoordelijk r materieel ingesteld r handig r creatief r stil r sportief
r zelfstandig r rustig r ondernemend r dromer r theoreticus r communicatief r zenuwachtig r afwachtend
Hoe vaak doet u aan sport per week?
r nooit r 1 dag per week r enkele dagen per week r elke dag numerieke antwoordschalen Geef voor de volgende vragen een score van 1 tot 5. (1 = helemaal mee oneens, 2 = mee oneens, 3 = neutraal, 4 = mee eens; 5 = helemaal mee eens) Huiswerk moet afgeschaft worden.
Restaurants moeten huisdieren weigeren. Frankrijk is het ideale vakantieland. Er is te veel sport op tv.
HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS
19
1.6
Misleidende statistieken
1.6.1 Voorbeeld 1
GAZET VAN GISTEREN
1 april 2019
België doet het veel minder slecht dan wordt beweerd BRUSSEL - Doemdenkers vinden dat ons land te weinig doet om de luchtverontreiniging tegen te gaan. De grafiek toont echter dat we helemaal onderaan bengelen op het gebied van CO 2- uitstoot.
aa
r
(Staf Tistiek)
• Waarmee heeft Staf Tistiek geen rekening gehouden?
• Bekijk de volgende tabel.
CO 2-uitstoot in miljoenen ton
China
100
5 260
9 839
11,4 miljoen
326,6 miljoen
1 379,3 miljoen
ke x
bevolkingsaantal (op 1 jan. 2019)
VS
em
België
pl
• Wat kun je besluiten?
kij
In
1.6.2 Voorbeeld 2 gewicht in kg
115 110
Welke grafische ingrepen hebben ervoor gezorgd dat het effect van het dieet spectaculairder lijkt dan het in werkelijkheid is?
105 100 95
1 2
90 85
aantal maanden 1
6
3
15
4 5
20
Paragraaf 1.7 (Opdrachten: deel 1) vind je op diddit. HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS
Oefeningen REEKS A 2
Geef van de volgende onderzoeken mogelijke gegevens. Over welk soort gegevens gaat het? Geef telkens een omschrijving van de populatie. Welk soort steekproef is aangewezen? a) Het geboortegewicht van baby’s in Vlaanderen. • g egevens: • s oort gegevens:
r
• p opulatie:
aa
• s oort steekproef:
b) De tevredenheid van de leerlingen van de school over het nieuwe schoolreglement. • g egevens:
pl
• s oort gegevens: • s oort steekproef:
em
• p opulatie:
c) Het aantal kinderen van de gezinnen die in België wonen. • g egevens:
ke x
• s oort gegevens: • p opulatie:
• s oort steekproef:
d) De inhoud van een flesje bier dat van een automatische vulmachine komt.
kij
• g egevens:
• s oort gegevens:
In
• p opulatie:
• s oort steekproef:
e) Het favoriete merk van smartphone van de Vlamingen. • g egevens: • s oort gegevens: • p opulatie: • s oort steekproef: f) De bloedgroep van mensen. • g egevens: • s oort gegevens: • p opulatie: • s oort steekproef:
HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS
21
3
In elk van de onderzoeken is een gerichte steekproef aangewezen. Geef 5 criteria die de representativiteit bevorderen. a) Het aantal uren per week dat een scholier aan sport doet. • • • • •
•
•
•
•
aa
pl
•
em
r
b) De tevredenheid over het openbaar vervoer in Vlaanderen.
•
•
•
•
•
ke x
c) De slaagkans in het hoger onderwijs.
kij
d) De vrijetijdsbesteding van mensen.
In
Eindelijk eens wat vrije tijd gekregen van het baasje!
• • • • •
e) Het aantal kinderen per gezin in België.
•
•
•
4
•
5
•
1 2 3
22
HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS
REEKS B 4
Om de vraag te beantwoorden of ouders, indien ze zouden mogen kiezen, nog kinderen zouden willen, houdt een dagblad een enquête. Er komen 180 reacties waaruit blijkt dat 30 % geen kinderen meer zou willen. Waarom is het verkregen percentage niet betrouwbaar? • • •
Een lokale radiozender beweert dat 1 op de 2 mensen dagelijks naar hun programma’s luistert. Waarom neem je die bewering het best met een flinke korrel zout?
r
5
aa
•
•
em
pl
•
•
6
ke x
‘Bij dopingcontroles zijn er dit jaar meer positieve gevallen dan vorig jaar.’ Kun je hieruit besluiten dat er meer dopingzondaars zijn?
kij
•
•
In
•
7
‘Nooit zo weinig positieve alcoholcontroles in vijf jaar’, kon je lezen in een plaatselijk dagblad op 15 februari 2019. ‘Tijdens de BOB-campagne van afgelopen winter hadden slechts 12 gecontroleerde personen te veel gedronken. Dat is het laagste cijfer van de laatste vijf campagnes.’ Welke bedenkingen kun je maken over dit krantenartikel? •
•
•
HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS
23
8
Geef 5 onderzoeksvragen die je zou stellen bij een enquête over de volgende onderwerpen. a) De studiegewoonten van leerlingen in het middelbaar onderwijs. • • • • •
•
•
•
•
aa
•
pl
r
b) De arbeidsomstandigheden in Vlaanderen.
•
•
•
•
•
ke x
em
c) De interesse voor sport bij een 18-jarige.
In
kij
d) Het aandeel van kledij in het gezinsbudget in Vlaanderen. • • • • • e) Het smartphonegebruik van tieners.
•
1
•
2
•
•
•
3 4 5
24
HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS
9
Verklaar de schijnbare tegenstelling tussen beide grafieken. aantal mensen onder de 60 jaar in België
percentage mensen onder de 60 jaar in België 83.48 %
8 530 357 8 600 000
84.00 %
8 400 000
82.00 %
8 200 000
80.00 %
8 000 000 7 800 000
78.00 %
7 405 734
7 600 000
75.10 %
76.00 %
7 400 000
74.00 %
7 200 000
72.00 %
7 000 000 6 800 000
1955
70.00 %
2018
1955
2018
r
pl
De tabel geeft de slaagpercentages aan de universiteit volgens studiegroep en geslacht, voor een groep van 10 000 meisjes en evenveel jongens. (Bron: prof. H. Callaert, Centrum voor Statistiek, Universiteit Hasselt) studiegroep
em
10
aa
meisjes
jongens
inschrijvingen
geslaagden
inschrijvingen
geslaagden
4 584
50,00 %
4 000
49,00 %
humaan
5 000
41,00 %
2 400
40,00 %
exact
416
62,02 %
3 600
60,56 %
TOTAAL
10 000
46,00 %
10 000
51,00 %
kij
ke x
Medisch
In
a) Waarom lijken deze cijfers elkaar tegen te spreken?
b) Welke besluiten kun je in werkelijkheid trekken uit de tabel?
c) Is ‘exacte wetenschappen’ de ‘gemakkelijkste’ studiegroep?
HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS
25
STUDIEWIJZER Verzamelen van gegevens KUNNEN Statistische terminologie begrijpen en ermee kunnen omgaan. Het bespreken van steekproefproblemen. De onderzoeksvragen van een steekproef kritisch bekijken. Kritisch omgaan met besluiten die uit een steekproef worden getrokken.
CONTRACTWERK
aa
r
pl
em
kij
ke x
In
1 2
3 4
5
26
HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS
HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS
2.1 Verwerken van kwalitatieve gegevens
28
2.2 Verwerken van niet-gegroepeerde kwantitatieve gegevens
35
r
2.3 Verwerken van gegroepeerde
44
2.4 Het stengel- en bladdiagram
51
2.5 Opdrachten: deel 2
51
Studiewijzer
58
In
kij
ke x
em
pl
aa
kwantitatieve gegevens
nieuwe cartoon wordt aangeleverd bij correcties op eerste proef
HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS
27
2.1
Verwerken van kwalitatieve gegevens
2.1.1 Frequentietabel
A
O
O
A
B
O
A
O
A
O
O
A
O
O
A
O
O
A
O
A
A
A
A
O
AB
O
A
O
A
O
O
A
O
A
O
A
AB
O
O
O
B
A
O
B
O
B
r
Bij een steekproef wordt van 60 mensen de bloedgroep bepaald. De resultaten zie je in de tabel ruwe gegevens.
A
O
A
B
A
A
O
A
O
A
O
bloedgroep
n i
f i
A
24
40,00 %
B
5
8,33 %
AB
2
3,33 %
O
29
48,33 %
60
100,00 %
aa
O
O
A
pl
Je krijgt een duidelijker beeld door een frequentietabel op te stellen.
em
De eerste kolom bevat de verschillende gegevens van de variabele ‘bloedgroep’. De volgorde speelt geen rol. Absolute en relatieve frequentie
Definitie
De absolute frequentie n i van een gegeven is het aantal keer dat het gegeven voorkomt.
ke x
De relatieve frequentie f i is het quotiënt van
n de absolute frequentie en de omvang van de steekproef: f i = _ i . n • D e som van de absolute frequenties is gelijk aan de omvang van de steekproef.
kij
• M eestal wordt de relatieve frequentie in procent uitgedrukt. • M ag men de 60 elementen van de steekproef willekeurig kiezen?
In
• V an hoeveel mensen van jouw klas mag je verwachten dat ze bloedgroep A hebben?
bloedgroep
antigeen antigeen antilichamen antilichamen A B A B
O 1
2 3
A B
4 5
28
AB
HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS
Je bloedgroep wordt bepaald door het al dan niet aanwezig zijn van bepaalde moleculen (‘antigenen’ en ‘antilichamen’) op de rode bloedcellen in je bloed. Er zijn 4 bloedgroepen: A, B, O en AB. Je hebt een positieve resusfactor als het D-antigeen aanwezig is of een negatieve resusfactor indien dit antigeen er niet is. Het D-antigeen werd in 1940 ontdekt bij resusapen, vandaar de naam.
2.1.2 Opstellen van een frequentietabel met ICT Met Excel
r
Open het bestand ‘BLOED.xlsx’ en ga als volgt te werk.
aa
Je vindt de frequentietabel terug in het bestand ‘BLOED (frequentietabel).xlsx’. Met de grafische rekenmachine
em
pl
Wie de grafische rekenmachine het aantal gegevens per soort wil laten tellen, zal de alfanumerieke waarden moeten omzetten naar getallen. Stel dan bijvoorbeeld A voor door 1, B door 2, ... De methode om numerieke gegevens te tellen wordt beschreven in § 2.2.2. Start de applicatie CellSheet.
Bekijk aandachtig de instructies (waarvan hiernaast een afdruk) die memo
a-lock
“ a-lock
test
A entry solve
math alphaje de alpha maal + eerste tevoorschijn komen als alpha
memo
“ a-lock
test
A entry solve
math alpha + Druk nogmaals
enter
enter
drukt.
om de applicatie te starten.
ke x
a-lock
Je voert de gegevens in de applicatievariabele BLOED in. Daarvoor druk je table
L1
f5
Y L3
1
graph
θ
angle
3
B }
L
apps
u
O
7
)
E matrix D entry solve
sin-1
enter
x-1
sin
2
.
kij
Voer in de eerste kolom de bloedgroepen in.
Om de bloedgroep A als tekst in te voeren moet je ‘A’ invoeren. memo
a-lock
“ a-lock
+
alpha
test
A entry solve
enter
math
alpha
.
In
Daarvoor druk je
In de tweede kolom voer je de absolute frequenties in. Om de relatieve frequenties te bepalen, ga je als volgt te werk: • I n de 1ste cel van de 3de kolom voer je B1/som(B$1:B$4) in. rcl
X a-lock
sto angle
alpha B
Τ
4
B
L1
Y
1
apps rcl
2nd
apps L4
angle
X
Y
1
druk
i
a-lock
:
.
a-lock
alpha
2 angle
U
5 B
apps
a-lock
alpha rcl
2nd
X
sto
L entry solve
}
)
enter
a-lock
alpha a-lock
alpha
format f3
zoom
terug naar C1
(om te kopiëren),
stat plot f1
y=
en druk tenslotte
stat
2nd
alpha
• G a met de pijltoets druk
L5
list
M
–:
L1
sto
e
3
(om het bereik van het kopiëren aan te geven)
a-lock
alpha
calc
f4
trace
(om te plakken). HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS
29
2.1.3 Grafische voorstellingen Het staafdiagram bloedgroep van 60 mensen 32 29 28 24
aantal personen
24 20 16
r
12 8
aa
5 4
2
0 B
AB
pl
A
bloedgroep
em
Tekenen van een staafdiagram met de grafische rekenmachine
Start de applicatie CellSheet en open daarin de applicatievariabele BLOED. • G a naar het Menu (druk
table
f5
graph
Τ
).
4
ke x
• K ies voor 4:Diagrammen (
).
L4
• K ies voor 5:Staafdiagram (
L5
U
5
).
• N aast categorieën voer je A1:A4 in.
kij
• N aast Serie1 voer je B1:B4 (of C1:C4) in. • N aast Naamserie voer je BLOED in.
In
• G a met de pijltoets naar helemaal onderaan. • S electeer TekPassend. • D ruk
entry solve
enter
calc
1
.
f4
Druk je trace , dan kun je met de pijltoetsen de frequenties aflezen.
2 3 4 5
30
De verwerking in Excel vind je op diddit. HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS
en
O
Het cirkeldiagram bloedgroep van 60 mensen
40,00 %
48,33 % A B AB
aa
r
O
8,33 %
pl
3,33 %
em
Tekenen van een cirkeldiagram met de grafische rekenmachine
Start de applicatie CellSheet en open daarin de applicatievariabele BLOED. table
f5
graph
).
L4
Τ
ke x
• G a naar het Menu (druk
• K ies voor 4:Diagrammen(
• K ies voor 7:Cirkeldiagram (
).
4
u
O
7
).
kij
• N aast Categorieën voer je A1:A4 in. • N aast Serie1 voer je B1:B4 in.
In
• K ies voor Aantal (absolute frequentie) of Procent (relatieve frequentie).
• N aast Titel voer je BLOED in. • D ruk Druk je
entry solve
enter
calc
f4
trace
bij Teken.
, dan kun je met de pijltoetsen
en
de frequenties aflezen.
De verwerking in Excel vind je op diddit.
HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS
31
Oefeningen REEKS A In een enquête onder 75 mensen ouder dan 65 jaar die nooit het internet gebruiken, werd gevraagd waarom ze dat niet doen. De respondenten konden telkens maar 1 antwoord aanduiden. V
S
G
G
V
D
G
V
D
G
G
A
V
D
V
F
G
V
D
G
V
V
S
G
V
F
V
D
G
G
G
D
G
V
S
G
D
D
V
G
D
A
G
V
D
V
G
D
F
V
D
G
V
G
D
V
F
D
G
V
G
S
G
G
D
V
D
G
S
V
aa G
A
V = niet vaardig met computer F = fysieke beperkingen
V
D
S = schadelijke inhoud, privacy A = andere reden
pl
G = geen interesse D = te duur
r
G
em
1
a) Stel een frequentietabel op.
ke x
b) Wat is de meest voorkomende reden voor het niet gebruiken van het internet?
c) Voor hoeveel procent van de ondervraagden is de prijs niet de reden waarom ze geen internet gebruiken?
kij
In
d) Uit een onderzoek van van de VRT in 2018 blijkt dat 41 % van de 65-plussers nooit het internet gebruikt. Bereken hoeveel ouderen in Vlaanderen nooit het internet gebruiken omdat ze niet vaardig zijn met een computer. In Vlaanderen zijn er ongeveer 1 320 000 mensen ouder dan 65 jaar (cijfers van 2019).
1
2 3 4
e) Teken een staafdiagram voor de absolute frequentieverdeling. f) Teken een cirkeldiagram voor de relatieve frequentieverdeling.
5
32
HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS
2
Een directeur van een school wil, bij de opmaak van de uurroosters, alle leerkrachten 1 vrije dag toekennen. Aan 40 van de 110 leerkrachten van de school wordt gevraagd hun favoriete vrije dag aan te duiden. wo
ma
vr
di
ma
ma
ma
do
vr
ma
vr
vr
ma
di
ma
wo
wo
vr
do
wo
wo
ma
wo
di
do
ma
wo
vr
do
ma
wo
wo
ma
wo
ma
di
vr
wo
vr
vr
a) Stel een frequentietabel op.
aa
pl
r
b) Mogen de 40 leerkrachten willekeurig gekozen worden?
em
c) Hoeveel procent kiest niet voor een verlenging van het weekend?
kij
ke x
d) Voldoen de resultaten uit de frequentietabel aan je verwachtingen? Waarom (niet)?
In
e) Interpreteer de cijfers van de frequentietabel naar de volledige populatie van de school.
f) Teken een staafdiagram voor de relatieve frequentieverdeling.
HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS
33
3
Een restaurateur heeft van de laatste 48 mensen die bij hem biefstuk aten, bijgehouden of ze de steak liever bleu (bijna rauw), saignant, à point of doorbakken wilden. à point
saignant
saignant
à point
saignant
bleu
saignant
à point
bleu
doorbakken
bleu
saignant
saignant
à point
à point
saignant
saignant
à point
à point
saignant
à point
doorbakken
saignant
bleu
saignant
doorbakken
saignant
à point
doorbakken
saignant
doorbakken
à point
saignant
à point
doorbakken
saignant
bleu
saignant
à point
saignant
à point
saignant
saignant
à point
doorbakken
bleu
saignant
à point
a) Stel een frequentietabel op.
r
b) Wat is de minst gekozen bakwijze?
aa
c) Een nieuwe klant bestelt een biefstuk. Wat is de ‘kans’ dat hij zijn biefstuk bleu wil?
em
pl
d) Als een biefstuk voor een klant te licht gebakken is, kan de keuken die biefstuk nog wat meer bakken. Als de steak te hard gebakken is, is het voer voor de hond. Op een dag vergeet de kelner aan 8 mensen te vragen hoe ze hun steak gebakken willen hebben. De kok bakt ze dan maar à point. Van hoeveel biefstukken mag je verwachten dat ze aan de hond zullen gevoederd worden?
e) Teken een cirkeldiagram voor de relatieve frequentieverdeling.
4
ke x
REEKS B
Aan 45 meisjes en evenveel jongens werd naar het hoofdbestanddeel van hun ontbijt gevraagd. Er was keuze tussen niet ontbijten (N), ontbijtgranen (G), brood (B), fruit (F) en melkproducten (M).
kij
MEISJES
JONGENS
N
G
B
B
N
F
M
G
N
B
G
N
N
B
M
N
G
B
G
M
F
N
G
B
N
F
M
N
B
G
F
M
N
B
N
F
M
N
G
G
B
F
G
B
G
N
N
B
G
N
B
F
M
N
B
G
B
F
G
N
B
M
N
G
B
N
B
M
B
N
G
N
F
B
G
F
M
B
G
N
F
N
G
B
G
N
N
M
B
In
G
a) Stel een frequentietabel op voor de meisjes, de jongens en voor beiden samen. b) Hoeveel procent neemt ontbijt? c) Wat zijn de 2 grootste verschillen tussen jongens en meisjes? 1
2 3 4
d) Maak een gepaste grafische voorstelling voor de relatieve frequentieverdeling, waarop zowel de cijfers voor de meisjes, de jongens en de totalen af te lezen zijn.
5
34
HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS
2.2
Verwerken van niet-gegroepeerde kwantitatieve gegevens
2.2.1 Frequentietabel Aan 90 mensen die hun rijbewijs B kwamen afhalen aan het gemeenteloket, werd gevraagd na hoeveel keer ze geslaagd waren voor het praktisch rijexamen. 1
1
5
1
2
3
1
4
2
1
2
3
1
1
3
1
2
5
1
2
3
1
2
2
1
4
1
1
2
1
1
1
3
6
2
1
2
3
1
2
1
2
1
1
3
2
1
1
4
1
2
2
3
4
1
1
5
1
3
4
1
1
5
1
2
3
1
2
1
3
2
4
1
3
1
5
6
1
2
1
1
2
4
1
2
1
4
1
3
pl
aa
r
2
Je stelt een frequentietabel op om de gegevens te ordenen.
em
De eerste kolom bevat de verschillende waarden x i van het onderzochte discrete kwantitatieve kenmerk. Cumulatieve absolute en relatieve frequentie
Definitie
ke x
De cumulatieve absolute frequentie cn i van het waarnemingsgetal x i is het aantal keer dat een getal voorkomt dat kleiner dan of gelijk is aan x i : c n i = n 1 + n 2 + ... + n i .
x i
n i
f i
cn i
cf i
1
40 44,44 % 40 44,44 %
2 22 24,44 % 62 68,89 %
kij
De cumulatieve relatieve frequentie c f iis het quotiënt van de cumulatieve absolute frequentie en de omvang van cn i de steekproef: c f i = ___ . n
3
13
14,44 %
75 83,33 %
4
8
8,89 %
83 92,22 %
5
5
5,56 %
88 97,78 %
6
2
2,22 %
90 100,00 %
90 100,00 %
In
• D e som van de absolute frequenties van de k verschillende waarnemingsgetallen is gelijk aan k
de omvang n van de steekproef: ∑ n i = n. i = 1
• V olgens een studie van de VAB (Vlaamse Automobilistenbond) in 2019 slaagt tussen 42 % (regio Brugge) en 60 % (regio Asse) van de deelnemers voor het praktisch rijexamen. Ga na of dit ook bij deze steekproef zo is.
• H oeveel mensen deden er hoogstens 2 keer over om te slagen? • H oeveel procent van de ondervraagden had minstens 4 pogingen nodig?
HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS
35
2.2.2 Opstellen van een frequentietabel met ICT Met Excel
aa
r
Open het bestand ‘RIJBEW.xlsx’ en ga als volgt te werk.
Je vindt de frequentietabel ook terug in het bestand ‘RIJBEW (frequentietabel).xlsx’.
pl
Met de grafische rekenmachine
• B reng de gegevens van de lijst RYBEW.8xl over in de werklijst L 1.
Om een lijst te zoeken gebruik je
en de pijltoetsen
Om op te slaan in L 1 druk je
del stat
.
em
en
ins list
2nd
rcl
L1
X
Y
.
1
2nd
sto
kij
ke x
• O m de frequenties van de verschillende waarden in L 1 te bepalen, voer je het programma FREQTAB uit. In L 2vind je de verschillende waarden en in L 3 de frequenties. Noteer deze frequentietabel op een apart blad.
In
• O m de frequentietabel te vervolledigen kun je binnen de lijsten blijven werken. Om grafische voorstellingen voor dit soort gegevens te maken kies je er het best voor om de frequentietabel opnieuw in te voeren in de applicatie CellSheet. Om in de derde kolom de relatieve frequentie te berekenen, voer je in de cel C1 =B1/som(B$1:B$6) in. Druk hiervoor: rcl
X a-lock
sto angle
B
2
rcl
5
36
X
sto
Y
1
L1
e
Y
1
a-lock
alpha
L5
list
M
–:
i
:
.
a-lock
alpha
U
5
stat
2nd
angle
apps
B
a-lock
alpha rcl
2nd
X
sto
L entry solve
}
)
enter
Ga met de pijltoets druk F1 (
3 4
L1
. Vervolgens kopieer en plak je de formule in de cellen eronder.
1
V
6
B
apps
2nd
apps L6
angle
alpha
a-lock
alpha
stat plot f1
y=
terug naar de eerste cel van kolom C, ) en druk
format f3
zoom
om te kopiëren.
Beweeg met de pijltoets naar C2 en druk formule te plakken. Plak de formule ook in C3 en C6. HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS
calc
f4
trace
om de gekopieerde
Om in de vierde kolom de cumulatieve frequentie te verkrijgen:
voer in de cel D1 de formule =som(B$1:B1) in, kopieer de formule, plak de formule in de onderstaande cellen.
In de vijfde kolom kun je de cumulatieve relatieve frequentie
aa
r
berekenen door in E1 de formule =D1/som(B$1:B$6) in te voeren, de formule te kopiëren en vervolgens te plakken in de onderliggende cellen.
Wil je de relatieve frequenties als procenten zien met
pl
2 decimalen, dan gebruik je de formules =afronden(B1/som(B$1:B$6) *100,2) en =afronden(D1/som(B$1:B$6)*100,2)
In
kij
ke x
em
HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS
37
2.2.3 Grafische voorstellingen Het staafdiagram het praktisch rijexamen 50,00 % 44,44 %
45,00 % 40,00 %
30,00 % 24,44 %
25,00 %
r
20,00 % 14,44 %
15,00 %
aa
percentage geslaagden
35,00 %
8,89 %
10,00 %
5,56 %
0,00 %
1
2
pl
5,00 %
3
4
5
2,22 % 6
em
aantal pogingen tot slagen
ke x
Het staafdiagram ontstaat door vanuit de roosterpunten (x i , n i) of (x i , f i) een lijnstuk of staafje te tekenen tot aan de horizontale as. Bij een staafdiagram mogen de staven elkaar zeker niet raken.
Tekenen van een staafdiagram met de grafische rekenmachine • O pen in de applicatie CellSheet de variabele RYBEW. • K ies Menu (
table
f5
graph
).
kij
• K ies 4:Diagrammen.
• K ies 5:Staafdiagram.
In
• V ul de Categorie en de Serie in.
• B eweeg met de pijltoets naar onderen. • K ies TekPassend. • D ruk
entry solve
enter
.
1
2
De verwerking in Excel vind je op diddit.
3 4 5
38
HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS
Het lijndiagram het praktisch rijexamen 44 40 36
aantal geslaagden
32 28 24 20 16
8 4 0 2
3
4
5
6
pl
1
aa
r
12
em
aantal pogingen tot slagen
Het lijndiagram verbindt de roosterpunten (x i , n i) of (x i , f i) met lijnstukken.
Tekenen van een lijndiagram met de grafische rekenmachine
ke x
• O pen in de applicatie CellSheet de variabele RYBEW. • K ies Menu (
table
f5
graph
).
• K ies 4:Diagrammen. • K ies 3:Lijndiagram.
In
kij
• V ul de Xreeks en Yreeks in.
• B eweeg met de pijltoets naar onderen. • K ies TekPassend. • D ruk
entry solve
enter
.
De verwerking in Excel vind je op diddit.
HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS
39
Het cumulatief staafdiagram het praktisch rijexamen
cumulatief aantal geslaagden
90
88
90
83
80
75
70 62
60 50 40
40 30 20 10 0
1
2
3
4
5
6
aantal pogingen tot slagen
Tekenen van een cumulatief staafdiagram met de grafische rekenmachine table
f5
graph
).
aa
• K ies Menu (
• K ies 4:Diagrammen.
• V ul de Xreeks en Yreeks in.
em
• B eweeg met de pijltoets naar onderen. • K ies TekPassend. entry solve
enter
pl
• K ies 5:Staafdiagram.
• D ruk
r
• O pen in de applicatie CellSheet de variabele RYBEW.
.
Het cumulatief lijndiagram
80,00 % 70,00 % 60,00 % 50,00 %
kij
cumulatieve relatieve frequentie
90,00 %
ke x
het praktisch rijexamen
100,00 %
40,00 % 30,00 %
In
20,00 % 10,00 % 0,00 %
1
2
3
4
5
6
aantal pogingen tot slagen
Tekenen van een cumulatief lijndiagram met de grafische rekenmachine • O pen in de applicatie CellSheet de variabele RYBEW. • K ies Menu (
table
f5
graph
).
• K ies 4:Diagrammen. 1
• K ies 3:Lijndiagram.
2
• V ul de Xreeks en Yreeks in.
3 4 5
40
• B eweeg met de pijltoets naar onderen. • K ies TekPassend. • D ruk
entry solve
enter
.
HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS
Oefeningen REEKS A Aan 90 Vlaamse gezinnen werd gevraagd naar het aantal kinderen. 2
2
2
3
0
4
1
0
3
1
5
2
3
2
0
1
1
0
2
2
2
1
3
1
2
3
4
2
1
2
4
2
1
3
3
1
1
5
4
2
2
4
3
1
0
2
2
3
1
0
1
4
0
1
2
0
4
5
2
1
2
1
2
2
1
4
4
1
2
2
2
4
2
3
0
1
3
2
0
1
2
1
6
1
8
3
1
3
pl
aa
r
3
3
em
5
a) Stel een frequentietabel op.
ke x
b) Eén op de zes gezinnen heeft kinderen.
c) Hoeveel procent van de gezinnen heeft 2 of 3 kinderen?
kij
d) Hoeveel gezinnen hebben hoogstens 1 kind?
In
e) Welk deel van de gezinnen heeft minstens 3 kinderen?
f) Iets meer dan de helft van de gezinnen heeft of kinderen. g) Geef, vanuit de frequentietabel, 2 voorbeelden om aan te tonen dat de steekproef het best niet veralgemeend wordt naar heel Vlaanderen.
h) Stel de enkelvoudige absolute frequentieverdeling voor met een lijndiagram. i) Teken een cumulatief diagram voor de cumulatieve relatieve frequenties.
HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS
41
In opdracht van een schoenenfabrikant werd aan 70 volwassen heren (ouder dan 18 jaar) de schoenmaat gevraagd. Om de ‘uitzonderlijk’ grote maten uit te sluiten werden enkel heren tussen 165 cm en 195 cm ondervraagd. 42
39
42
40
43
44
41
43
44
42
41
38
41
43
42
43
45
40
43
42
39
41
43
46
42
41
42
43
42
40
45
41
43
42
41
40
43
42
45
43
42
43
41
46
47
43
42
45
40
42
38
42
46
48
44
41
44
43
45
43
41
47
41
44
41
46
47
43
45
a) Stel een frequentietabel op.
pl
b) Wat is de meest voorkomende schoenmaat?
r
41
aa
6
em
c) Als de steekproef representatief zou zijn, hoeveel mannen op 5 000 zouden dan deze meest voorkomende schoenmaat hebben?
ke x
d) Hoeveel ondervraagde heren hebben een schoenmaat 44 of 45?
e) Hoeveel procent heeft hoogstens 40 als schoenmaat?
kij
f) Wat is de ‘kans’ om een man aan te treffen met een schoenmaat groter dan 44?
In
g) Teken een staafdiagram voor de enkelvoudige absolute frequentieverdeling. h) Teken een cumulatief lijndiagram voor de cumulatieve relatieve frequenties.
1
2 3 4 5
42
HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS
Je gooit 150 keer met 2 dobbelstenen en telt de som van het aantal ogen. 6
7
6
8
5
9
7
10
7
8
6
3
7
8
5
10
7
5
8
8
2
7
12
9
2
7
9
10
10
3
5
7
6
7
3
11
3
11
12
12
6
10
6
4
11
7
11
6
12
5
5
8
6
12
8
11
11
2
9
9
9
6
5
8
7
7
8
5
4
10
8
11
7
8
9
6
12
7
8
7
8
5
4
10
4
7
2
10
7
7
7
4
11
12
10
7
7
5
7
7
11
3
4
4
8
7
4
5
8
6
12
6
8
7
8
6
2
3
10
9
9
7
5
8
6
5
8
3
7
8
3
7
6
10
9
8
6
4
7
8
9
7
10
7
10
12
7
3
10
a) Stel een frequentietabel op.
r
8
aa
7
ke x
1
2
3
4
5
6
1
2
3
4
5
6
7
2
3
4
5
6
7
8
kij
em
pl
b) Stel dat je een weddenschap hebt afgesloten. Telkens je 9 of meer ogen gooit, ontvang je 0,50 euro. In de andere gevallen betaal je 0,20 euro. Zul je winst of verlies maken?
4
5
6
7
8
9
4
5
6
7
8
9
10
5
6
7
8
9
10
11
6
7
8
9
10
11
12
In
3
c) Vul de frequentietabel aan met de theoretische kansen op basis van de bovenstaande tabel. d) Vergelijk de resultaten.
e) Teken een lijndiagram voor de enkelvoudige relatieve frequentieverdeling. f) Teken een cumulatief staafdiagram voor de cumulatieve absolute frequenties.
HOOFDSTUK 2  I  VERWERKEN VAN GEGEVENS
43
2.3
Verwerken van gegroepeerde kwantitatieve gegevens
2.3.1 Frequentietabel Op www.klasse.be stond nevenstaand diagram.
het gemiddelde gewicht van de boekentas en de verhouding met het lichaamsgewicht van de leerling
Bespreek de gegevens voor het middelbaar onderwijs:
16 14 12 10
gewicht boekentas (kg)
leeftijd
7
8
9
10
11
12
13
14
15
16
17 jaar
r
verhouding gewicht boekentas/ eigen gewicht
18 %
aa
In een school wordt een steekproef gedaan bij 80 leerlingen van de derde graad. Hun boekentas wordt gewogen op 10 gram nauwkeurig.
7 930 6 620 9 180 6 960 8 340 10 080 5 800 7 740 8 060 7 560 8 290 7 810
7 430 8 010 6 030 7 970
pl
8 600 7 020 9 360 7 860 7 990 9 580 6 290 7 200 8 470 9 800 7 990 6 010 7 180 8 070 8 110
7 990 7 030 5 320 8 610
7 330 8 710 6 240 7 510
em
9 860 6 570 7 050 8 860 9 970 7 660 9 370 7 910
7 770
6 230 8 140 8 730 8 220 8 860 5 390 8 010 8 950 6 150 8 950 7 830 9 460 9 330 8 600 8 720 6 730 7 340 8 030 8 520 8 110 8 090 6 280 5 480 8 790 7 470 5 650 8 350 9 120 7 960 8 100 6 800 7 190
ke x
Omdat er te veel verschillende (continue) waarnemingsgetallen zijn, worden ze in klassen gegroepeerd. Werkwijze voor het maken van een gegroepeerde frequentietabel
kij
• B epaal het grootste en het kleinste gegeven. Het verschil is de variatiebreedte R (‘range’). R = 10 080 – 5 320 = 4 760
In
• A lle klassen zijn even breed en mogen elkaar niet overlappen. Een gegeven kan slechts tot 1 klasse behoren. • H et aantal klassen k is afhankelijk van het aantal te verwerken gegevens n. _ Vuistregel: k ∼ √ n , als n < 200 _ _ √ n = √ 80 ≈ 8,94
1
2 3 4
• P as de variatiebreedte aan zodat die een geheel veelvoud is van het gekozen aantal _ klassen. √ n ≈ 8,94 ⇒ je kiest 8 klassen en R = 4 760 } vermeerdert de variatiebreedte R’ = 4 800
5
44
HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS
n i
f i
cn i
cf i
[5 300, 5 900[ 5 600
5
6,25 %
5
6,25 %
[5 900, 6 500[ 6 200
7
8,75 %
12
15,00 %
[6 500, 7 100[ 6 800
8
10,00 %
20 25,00 %
[7 100, 7 700[
10
12,50 %
30
37,50 %
[7 700, 8 300[ 8 000 24 30,00 % 54
67,50 %
[8 300, 8 900[ 8 600 13
16,25 %
67
83,75 %
[8 900, 9 500[ 9 200
8
10,00 %
75
93,75 %
[9 500, 10 100[ 9 800
5
6,25 %
80 100,00 %
klasse
m i
7 400
80 100,00 %
R’ • De klassenbreedte = _____________ aantal klassen 4 = _______ 800 = 600 8 • Elke klasse is een halfopen interval [a i , b i [met b i – a i = de klassenbreedte. Het verschil tussen de bovengrens van de laatste klasse en de ondergrens van de eerste klasse is R’. Met andere woorden: b k – a 1 = R'. a 1 = 5 300, b k = 10 100 (10 100 – 5 300 = 4 800 = R’) a i + b i • H et klassenmidden van de i-de klasse is m i = _ . 2 Het klassenmidden is de vertegenwoordiger van zijn klasse en wordt gebruikt bij berekeningen en grafische voorstellingen.
r
• D e klassenfrequentie n i van de i-de klasse is het aantal waarnemingsgetallen dat tot die klasse behoort. • D e andere begrippen zijn analoog als bij een niet-gegroepeerde frequentietabel.
aa
Opmerking
pl
Soms ligt een klassenindeling vast vanuit de aard van de gegevens. Als je bijvoorbeeld met leeftijden werkt, is een klassenbreedte 10 meer dan logisch. Enkele vragen
em
• B eschrijf welke soort steekproef je zelf zou uitvoeren in dit onderzoek.
• H oeveel boekentassen wegen tussen 7 100 g en 8 900 g?
ke x
• D rie op de tien boekentassen weegt tussen en • E en kwart van de boekentassen weegt minder dan • H oeveel boekentassen wegen meer dan 8 300 g?
kij
• G eef de betekenis van de cumulatieve relatieve frequentie van de vierde klasse.
In
• S tel dat een boekentas niet meer dan 10 % van het eigen lichaamsgewicht mag wegen. H oeveel mag een boekentas wegen voor iemand van 73 kg? H oeveel procent van de boekentassen weegt minder? Gebruik lineaire interpolatie.
• Hoeveel moet een boekentas wegen om tot de zwaarste helft te behoren?
HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS
45
2.3.2 Opstellen van een frequentietabel met ICT Met Excel Om de klassenfrequenties te bepalen, gebruik je de functie INTERVAL(gegevensmatrix, interval_verw). Die functie telt van een geselecteerd gebied (de gegevensmatrix) hoeveel elementen in een interval ]a, b] liggen, waarbij a en b twee opeenvolgende getallen zijn van de intervalverwijzing. Omdat men in de statistiek met intervallen van de vorm [a,b[ werkt, moet je een hulpkolom gebruiken: per klasse voer je de werkelijke klassenbovengrenzen in. Open het bestand ‘BKTAS.xlsx’ en ga als volgt te werk. • Selecteer de cellen C15 tot en met C22.
r
• Formule:
aa
=INTERVAL(A1:L7;G15:G22). • Druk Shift + Ctrl + Enter.
em
pl
• Het resultaat van de telling komt in de geselecteerde cellen te staan.
Je vindt de frequentietabel ook terug in het bestand ‘BKTAS (frequentietabel).xlsx’.
ke x
Met de grafische rekenmachine
• D e eenvoudigste manier om van een lijst ruwe gegevens de absolute klassenfrequenties te bepalen, is gebruikmaken van een grafische voorstelling van die gegevens. V oor de ruwe gegevens uit de lijst BKTAS maak je een statistische stat plot f1
2nd
y=
) van het 3de type
kij
plot (druk
In
waarbij Xlijst: BKTAS en Freq:1 is.
H eel belangrijk om de frequenties te kunnen aflezen is
het aanpassen van het grafisch venster aan de klassenindeling.
M et 1
calc
f4
trace
kun je de frequenties aflezen.
Noteer deze frequenties voor later gebruik.
2 3 4 5
46
HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS
• J e werkt niet met de applicatie CellSheet maar gewoon met lijsten. Om te starten met lege werklijsten, voer je het programma WISLIJST uit. De rekenmachine TI84 laat niet toe te werken met de klassen op zich, je moet werken met de klassenmiddens. L1
list
J e gaat naar de werklijsten door
Y
te drukken. In de eerste lijst L 1breng je de klassenmiddens onder. Die kun je één voor één zelf invoeren of de formule ste ‘rij(1 midden + X * klassenbreedte, X, 0, aantal klassen – 1)’ gebruiken in het kolomhoofd (ook de aanhalingstekens invoeren!). Hiervoor druk je
J
catalog
[
J
u
O
V catalog
6
catalog
0
V
6
5 EE
0
J link
X,T,θ,n
,
L entry solve
}
7
,
L6
R
×
X,T,θ,n
EE
0
,
+ [
EE
“ link
memo
0
U L6
U L5
5
stat
2nd
enter
)
r
0
L5
list
“
+
.
aa
catalog
[
[
catalog
memo
alpha
[
enter
[
entry solve a-lock
1
stat
em
pl
I n L 2voer je de absolute frequenties in.
In L 3genereer je de relatieve frequenties (% op 0,01),
“ test
+
alpha
L5
Z
2
memo
L a-lock
)
Z
2
2nd
}
L2
[
R
L1
“ entry solve
enter
e
list
M
–:
stat
2nd
Y catalog
1
×
)
+
alpha
L
}
Z
2
2nd
kij
Z
2
L2
U
5
L2
L2
A
math
[
memo
a-lock
catalog
[
ke x
door in het kolomhoofd de formule ‘afronden(L 2 / som(L 2) * 100,2)’ in te voeren. Hiervoor druk je
0
0
EE
J
,
.
In L 4genereer je de cumulatieve frequenties door in
In
het kolomhoofd de formule ‘cumSom(L 2)’ in te voeren. Hiervoor druk je memo
a-lock
memo
+
enter
V
L2
6
stat
2nd
“ entry solve
L6
list
“
+
alpha
Z
2
2nd
L a-lock
}
)
alpha
.
In L 5genereer je de cumulatieve relatieve frequenties
(% op 0,01), door in het kolomhoofd de formule ‘afronden(L 4 / som(L 2) * 100, 2)’ in te voeren. Hiervoor druk je
Z
2
2nd L a-lock
}
)
alpha
L4
Z
2 L2
U
5
L2
A
math Z
2 memo
+
L
}
[
“ entry solve
enter
R
×
)
Τ
4
2nd L1
e
0
stat
2nd
Y catalog
1
list
M
–:
catalog
[
L5
L2
“ test
+
alpha
[
memo
a-lock
0
EE
J
,
.
HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS
47
2.3.3 Grafische voorstellingen Het histogram boekentassen van leerlingen van de derde graad 32,00 %
30,00 %
28,00 %
24,00 %
16,25 %
16,00 % 12,50 % 12,00 %
10,00 %
10,00 %
r
aantal in procent
20,00 %
8,75 % 8,00 %
aa
6,25 %
0,00 % [5 300,5 900[
[5 900,6 500[
[6 500,7 100[
pl
4,00 %
[7 100,7 700[
[7 700,8 300[
[8 300,8 900[
[8 900,9 500[
6,25 %
[9 500,10 100[
em
massa in gram
De hoogte van elke rechthoek van het histogram toont de (relatieve) frequentie van een klasse. Tekenen van een histogram met de grafische rekenmachine
ke x
Om een histogram te tekenen voor de (relatieve) frequentieverdeling (voor de gegevens ingevoerd zoals onder 2.3.2)
kij
• K ies je vensterinstellingen aangepast aan de klassenindeling.
stat plot f1
L1
Y
• A ctiveer een statistische plot ( • K ies voor het 3de type. Vul naast Xlijst: L 1 en naast Freq: L 2 (of L 3) in.
In
2nd
• D ruk
table
f5
graph
.
1
2 3 4
De verwerking in Excel vind je op diddit.
5
48
HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS
y=
1
entry solve
enter
).
De frequentiepolygoon n i
f i
[4 700, 5 300[
5 000
0
0,00 %
[5 300, 5 900[
5 600
5
6,25 %
[5 900, 6 500[
6 200
7
8,75 %
[6 500, 7 100[
6 800
8
10,00 %
[7 100, 7 700[
7 400
10
12,50 %
[7 700, 8 300[
8 000
24
30,00 %
[8 300, 8 900[
8 600
13
16,25 %
[8 900, 9 500[
9 200
8
10,00 %
[9 500, 10 100[
9 800
5
6,25 %
[10 100, 10 700[
10 400
0
0,00 %
←
←
Een frequentiepolygoon is een gebroken lijn die de roosterpunten (m i , n i) of (m i , f i) verbindt en die aansluit op de horizontale as in de punten (a, 0) en (b, 0). Hierbij is a het klassenmidden van de klasse die de eerste klasse van de steekproef voorafgaat en b het klassenmidden van de klasse die op de laatste klasse van de steekproef volgt. Op die manier ontstaat een veelhoek of polygoon.
r
m i
aa
klasse
boekentassen van leerlingen van de derde graad 26
pl
24 20 18
em
aantal boekentassen
22
16 14 12 10 8 6
ke x
4 2 0
5 000
5 600
6 200
6 800
7 400
8 000
8 600
9 200
9 800
10 400
massa in gram
kij
De verwerking in Excel vind je op diddit.
In
De oppervlakte onder het histogram en van de frequentiepolygoon voor n i (f i ) zijn gelijk. y 24 22 20 18 16 14 12 10 8 6 4 2
50 00 53 00 56 00 59 00 62 00 65 00 68 00 71 00 74 00 77 00 80 00 83 00 86 00 89 00 92 00 95 00 98 00 10 10 0 10 40 0
x
HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS
49
Tekenen van een frequentiepolygoon met de grafische rekenmachine Om de frequentietabel uit te breiden met • b ijkomende klassenmiddens, pas je de formule uit het kolomhoofd van L 1 aan: ‘rij(5000+X*600,X,0,9)’.
• e en eerste frequentie die 0 is, ga je in L 2op het eerste element ins
2nd
del
([INS]).
aa
r
van de lijst staan en druk je
• e en laatste frequentie die 0 is, ga je naast het laatste klassenmidden staan, voer je 0 in en druk je
entry solve
enter
.
pl
(Een gevolg van het invullen van de formules tussen
em
aanhalingstekens is dat alle andere lijsten ook aangepast worden.)
ke x
Om de frequentiepolygoon te tekenen • k ies je een venster aangepast aan de uitgebreide klassenindeling,
In
kij
• k ies je voor een statistische plot van het tweede type en vul je naast Xlijst:L 1 en naast Ylijst:L 2 (of L 3) in.
• D ruk
table
f5
graph
.
1
2 3
De verwerking in Excel vind je op diddit.
4 5
50
HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS
Het ogief (cumulatieve frequentieverdeling) cn i
cf i
w.k.b.
Een ogief is een gebroken lijn die de roosterpunten (a 1, 0) en (b i , c n i) of (b i , c f i) met elkaar verbindt. Hierbij is a 1de klassenondergrens van de eerste klasse en b i de klassenbovengrens van de i-de klasse. Bij deze grafische voorstelling wordt de cumulatieve frequentie van elke klasse dus toegekend aan de klassenbovengrens van de klasse, wat logisch is gelet op de betekenis van de cumulatieve frequenties. De klassenondergrens a 1van de eerste klasse is de klassenbovengrens van de klasse voorafgaand aan de eerste klasse van de steekproef. Deze klasse geef je de cumulatieve frequentie 0 of 0 %.
b.g.
0 0,00 % 5 6,25 % 5 890 12 15,00 % 6 490 20 25,00 % 7 090 30 37,50 % 7 690 54 67,50 % 8 290 67 83,75 % 8 890 75 93,75 % 9 490 80 100,00 % 10 090
5 300 5 900 6 500 7 100 7 700 8 300 8 900 9 500 10 100 ↑
boekentassen van leerlingen van de derde graad
r
100,00 %
aa
90,00 %
70,00 % 60,00 % 50,00 %
pl
cumulatief aantal
80,00 %
40,00 %
20,00 % 10,00 % 0,00 % 5 300
em
30,00 %
5 900
6 500
7 100
7 700
8 300
8 900
9 500
10 100
ke x
massa in gram
Tekenen van een ogief met de grafische rekenmachine Vermits je niet de klassenmiddens,
maar de klassengrenzen nodig hebt,
kij
voer je in L 6 die klassengrenzen in.
Daarvoor voer je in het kolomhoofd van L 6 de formule ‘L 1 + 300’ in.
In
Kies de gepaste vensterinstellingen. Om het ogief te tekenen voor de cumulatieve relatieve frequenties, kies je voor een statistische plot van het tweede type en vul je naast Xlijst:L 6 , naast Ylijst:L 5in en druk je
table
f5
graph
.
De verwerking in Excel vind je online. Maak gebruik van het ogief om de volgende vragen op te lossen. • H oeveel procent van de boekentassen weegt minder dan 8 kg? • H oeveel moet een boekentas wegen om tot de 20 % zwaarste boekentassen te behoren? De paragrafen 2.4 (Het stengel- en bladdiagram) en 2.5 (Opdrachten: deel 2) vind je op diddit.
HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS
51
Oefeningen REEKS B Een conservenfabrikant krijgt klachten over de netto-inhoud van zijn blikken met erwtjes, die volgens de verpakking 1 liter zou moeten bedragen. Daarom laat hij een steekproef uitvoeren. Bij 40 van de lopende band genomen blikjes wordt de inhoud, in ml, bepaald. 996
990
1 004
1 003
1 006
1 005
997
999
1 000
991
981
982
1 003
1 015
1 001
998
1 012
1 023
997
996
1 015
1 027
1 011
994
1 020
981
1 005
977
988
1 000
987
990
999
1 013
988
998
em
b) Stel een frequentietabel op.
1 009
1 003
pl
a) Over welk soort steekproef gaat het?
r
985
aa
8
c) Geef de betekenis van de cumulatieve relatieve frequentie van de vierde klasse.
ke x
d) Hoeveel procent bevat te weinig erwtjes? e) Hoeveel conserven bevatten tussen 980 ml en 1 020 ml?
kij
f) Bepaal, via lineaire interpolatie, hoeveel blikjes meer dan 1 015 ml bevatten.
In
g) Stel de enkelvoudige absolute frequentieverdeling voor met een histogram. h) Teken een frequentiepolygoon voor de enkelvoudige relatieve frequenties. i) Stel de cumulatieve relatieve frequentieverdeling voor met een ogief. j) Los de vragen op met behulp van het ogief.
1
• H oeveel procent bevat minder dan 985 ml?
2
• H oeveel blikjes bevatten meer dan 1 012 ml?
3
• W elk deel van de blikjes bevat tussen 993 ml en 1 007 ml?
4
• H oeveel moet een blikje bevatten om tot de lichtste 25 % te behoren?
5
• V anaf welke inhoud behoort een blikje tot de zwaarste 10 %?
52
HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS
992
De tabel bevat de procentuele jaartotalen voor het vak wiskunde, van de 114 leerlingen die vorig jaar aan onze school afstudeerden. 56
82
45
62
67
70
76
52
88
61
67
46
71
66
64
80
59
64
77
71
58
81
47
78
66
64
75
53
72
84
73
63
54
69
61
64
71
70
80
65
46
67
72
75
61
69
62
62
84
61
54
69
74
75
66
77
71
66
65
70
69
68
44
66
65
64
63
52
61
71
82
60
74
65
66
71
69
67
65
66
68
75
71
70
72
74
76
73
70
67
64
57
61
65
69
73
72
67
61
65
62
63
69
a) Stel een frequentietabel op.
r
63
60
aa
63
81
45
70
73
80
66
61
64
pl
9
em
b) Hoeveel leerlingen zijn gedelibereerd voor wiskunde?
ke x
c) Hoeveel procent van de leerlingen behaalde tussen 60 % en 70 %?
d) Hoeveel procent van de leerlingen behaalde meer dan 75 %?
kij
e) Vanaf hoeveel procent behoorde een leerling tot de ‘betere helft’? Gebruik lineaire interpolatie.
In
f) Teken een frequentiepolygoon voor de enkelvoudige absolute frequenties. g) Stel de cumulatieve relatieve frequentieverdeling voor met een ogief. h) Los de vragen op met behulp van het ogief. • V anaf hoeveel procent behoorde een leerling tot het ‘betere kwart’? • J e behaalt onderscheiding als je jaartotaal tussen 67,5 % en 75 % ligt.
Hoeveel leerlingen kunnen aanspraak maken op deze graad? HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS
53
Een aardappelverwerkingsbedrijf heeft van 100 willekeurig gekozen aardappelen de massa, in gram, bepaald. 100
132
96
100
96
112
102
125
115
57
125
82
93
143
101
114
73
86
129
94
107
133
93
112
118
70
109
105
112
97
89
77
108
144
117
94
108
105
46
101
107
82
82
139
100
56
94
78
105
98
101
126
134
103
138
71
120
92
78
109
128
31
97
101
118
120
53
108
131
141
111
79
98
99
140
116
94
64
102
53
135
117
108
102
97
78
103
a) Stel een frequentietabel op.
98
108
105
133
65
102
118
141
101
118
119
aa
130
em
r
74
pl
10
b) Hoeveel aardappelen wegen minder dan 100 g?
ke x
c) Hoeveel procent van de aardappelen weegt tussen 75 g en 125 g? Gebruik lineaire interpolatie.
kij
In
d) Teken een frequentiepolygoon voor de enkelvoudige absolute frequenties. e) Teken een ogief voor de cumulatieve relatieve frequentieverdeling. f) Los de vragen op met behulp van het ogief. • H oeveel aardappelen wegen minder dan 115 g?
1
2
• H oeveel moet een aardappel wegen om tot de 25 % lichtste aardappelen te behoren?
3 4 5
54
• V anaf welke massa behoort een aardappel tot de 10 % zwaarste aardappelen?
HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS
63
52
61
62
56
62
57
60
64
58
58
50
59
63
52
49
59
60
64
58
50
62
57
60
59
71
50
53
76
75
74
60
76
48
57
61
51
62
60
73
65
58
68
66
58
69
55
70
65
68
62
60
61
74
54
64
54
63
64
62
59
55
59
61
60
57
72
56
53
79
58
54
56
60
62
74
69
67
61
62
51
60
61
63
78
66
57
63
61
59
pl
a) Stel een frequentietabel op.
r
Van 90 kippeneieren wordt de massa in gram bepaald.
aa
11
b) Geef de betekenis van de enkelvoudige relatieve frequentie van de derde klasse.
Stel dat er in een legbatterij 1 350 eieren per dag worden gelegd. Van hoeveel eieren mag je dan verwachten dat ze tot de derde klasse behoren?
ke x
em
c) Geef de betekenis van de cumulatieve relatieve frequentie van de derde klasse.
kij
d) Hoeveel eieren wegen tussen 58 g en 65 g? Gebruik lineaire interpolatie.
In
e) Teken een histogram voor de enkelvoudige absolute frequenties. f) Stel de cumulatieve relatieve frequentieverdeling voor met een ogief. g) Los de vragen op met behulp van het ogief. • E en ei krijgt het label XL als het minstens 73 g weegt.
Hoeveel procent van de eieren voldoet daaraan?
• H oeveel eieren wegen tussen 53 g en 61 g? • V anaf welke massa behoort een ei tot de zwaarste 25 %?
HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS
55
12
Een brouwer doet een aselecte steekproef om te weten te komen of de machines die de bierflesjes vullen, voldoende nauwkeurig werken. Op de etiketten van de bierflesjes staat dat de netto-inhoud 33 cl is. Van 50 flesjes wordt de inhoud, in cl, gecontroleerd. 32,6
33,3
32,5
33,2
34,5
31,8
35
34,4
33
34
31,7
34,3
32,9
32,5
33,6
33,1
34,2
31,4
32,6
34,6
34,9
33,4
31,6
34,5
35,1
35,3
34,1
34,2
31,1
36
34,2
32,7
34,6
32,2
33,8
34,4
31,7
35,6
33,9
32,1
33,7
32,3
33,7
31,9
33,5
32,6
33
34,8
35,7
32,8
a) Stel een frequentietabel op.
c) Hoeveel flesjes bevatten minstens 35 cl?
aa
b) Hoeveel procent van de flesjes bevat te weinig bier?
r
pl
d) Hoeveel procent van de flesjes bevat tussen 32 cl en 34 cl?
ke x
em
e) Hoeveel flesjes hebben een inhoud die hoogstens 0,5 cl afwijkt van wat op het etiket staat? Gebruik lineaire interpolatie.
f) Teken een histogram voor de enkelvoudige absolute frequentieverdeling.
kij
g) Teken een frequentiepolygoon voor de enkelvoudige relatieve frequenties.
In
h) Stel de cumulatieve relatieve frequentieverdeling voor met een ogief. i) Los de vragen op met behulp van het ogief. • H oeveel procent van de flesjes bevat meer dan 32,5 cl? • H oeveel moet een flesje bevatten om tot de 20 % minst gevulde flesjes te behoren?
1
2
• H oeveel procent van de flesjes heeft een inhoud die minstens 0,8 cl afwijkt van wat op het etiket staat?
3 4 5
56
HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS
REEKS C In onze hedendaagse maatschappij, waar stralen (radio, tv, smartphone, gps, internet, …) ons om de oren vliegen, is een nauwkeurige waarde van de lichtsnelheid belangrijk. De eerste redelijk nauwkeurige metingen van de lichtsnelheid werden meer dan 100 jaar geleden verricht door A.A. Michelson en Simon Newcomb. Hieronder staan 64 metingen verricht door Newcomb tussen juli en september 1882. De metingen stellen de tijd in microseconden (s) voor die een lichtstraal nodig had om een afstand te overbruggen van 7 443,37 m (van zijn laboratorium aan de Potomac-rivier tot aan een spiegel aan het Washington-monument en terug). 22
36
26
28
28
26
24
32
30
27
33
21
36
32
31
25
24
25
28
36
27
34
30
25
26
25
23
21
30
33
29
27
28
22
26
27
16
31
29
36
32
28
40
37
23
32
29
24
25
27
24
16
29
20
27
39
23
26
24
32
29
19
28
pl
a) Stel een frequentietabel op.
r
28
aa
13
em
b) Vul de tabel aan door, voor elke klasse, de benadering voor de lichtsnelheid te geven. Gebruik hiervoor het klassenmidden.
ke x
c) Hoeveel metingen leverden meer dan 30 microseconden op?
5
d) Hoeveel procent van de metingen leverde een lichtsnelheid op van minder dan 3 · 10 km/s?
kij
In
e) Teken een histogram voor de enkelvoudige relatieve frequenties. f) Stel een frequentietabel op waarbij de ondergrens van de eerste klasse 13,75 is en de klassenbreedte 2,5. g) Teken opnieuw een histogram voor de enkelvoudige relatieve frequenties. h) Hoewel beide histogrammen dezelfde gegevens voorstellen, laat het ene histogram iets meer zien dan het andere. Wat?
De oefeningen 14 tot en met 16 vind je op diddit.
HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS
57
STUDIEWIJZER Verwerken van gegevens 2.1 Verwerken van kwalitatieve gegevens KENNEN De absolute frequentie n i van een gegeven is het aantal keer dat het gegeven voorkomt. De relatieve frequentie f iis het quotiënt van de absolute frequentie en de omvang van n de steekproef: f i = _ i . n
KUNNEN
Een frequentietabel voor een kwalitatief kenmerk opstellen en interpreteren. Grafische voorstellingen maken van de frequentieverdeling: staafdiagram en schijfdiagram.
aa
KENNEN
r
2.2 Verwerken van niet-gegroepeerde kwantitatieve gegevens
De absolute frequentie n i van het waarnemingsgetal x i is het aantal keren dat dit gegeven voorkomt.
pl
De relatieve frequentie f i is het quotiënt van de absolute frequentie en de omvang n van de steekproef: f i = _ i . n
em
De cumulatieve absolute frequentie cn i van het waarnemingsgetal x i is het aantal keer dat een getal voorkomt dat kleiner dan of gelijk is aan x i : cn i = n 1 + n 2 + ... + n i .
De cumulatieve relatieve frequentie cf i is het quotiënt van de cumulatieve absolute frequentie cn i en de omvang van de steekproef: c f i = ____ . n
ke x
KUNNEN
Een frequentietabel voor een niet-gegroepeerd kwantitatief kenmerk opstellen en interpreteren. Grafische voorstellingen maken van de frequentieverdeling: staafdiagram, lijndiagram, cumulatief staafdiagram en cumulatief lijndiagram.
kij
2.3 Verwerken van gegroepeerde kwantitatieve gegevens KENNEN
De variatiebreedte R is het verschil tussen het grootste en het kleinste gegeven.
In
a i + b i Het klassenmidden van de i-de klasse is m i = _ . 2
De klassenfrequentie n i van de i-de klasse is het aantal waarnemingsgetallen dat tot die klasse behoort.
KUNNEN Een frequentietabel voor een gegroepeerd kwantitatief kenmerk opstellen en interpreteren. Grafische voorstellingen maken van de frequentieverdeling: histogram, frequentiepolygoon en ogief. Een stengel- en bladdiagram opstellen van een tabel ruwe gegevens. 1
2
CONTRACTWERK
3 4 5
58
HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS
HOOFDSTUK 3 I STATISTISCHE KENTALLEN
60
3.2 Het (rekenkundig) gemiddelde
61
3.3 De mediaan
66
3.4 De modus
69
aa
3.5 Kwartielen
r
3.1 Centrummaten
70
3.6 Spreidingsmaten
78
3.7 Spreiding ten opzichte van de mediaan
79
pl
3.8 Spreiding ten opzichte van het gemiddelde 83 3.9 Opdrachten: deel 3 88 95
In
kij
ke x
em
Studiewijzer
nieuwe cartoon wordt aangeleverd bij correcties op eerste proef
HOOFDSTUK 3 I STATISTISCHE KENTALLEN
59
3.1
Centrummaten Op een na warmste juli 2018 ooit gemeten
pl
aa
r
Helft boeken basisonderwijs ouder dan 9 jaar
Belgische gezinnen besteden 11 procent van uitgaven aan transport
In
kij
ke x
em
LONDEN - Een doorsnee mens zou misschien meer mogen eten dan tot dusver werd aangenomen. De bekende calorierichtlijn van 2000 calorieën per dag voor een vrouw en 2500 voor een man, zou te zuinig zijn.
1 2
3 4 5
60
Om tot bovenstaande besluiten te komen, gebruikt men kenmerkende getallen die het centrum van een gegevensrij weergeven. Deze centrummaten vatten een tabel gegevens samen. De meest gekende centrummaat is het rekenkundig gemiddelde, maar ook de mediaan en de modus zijn veelgebruikte statistische kentallen om het geheel te specifiëren. Kwartielen en centielen worden gebruikt om een gegevensrij in categorieën onder te verdelen. HOOFDSTUK 3 I STATISTISCHE KENTALLEN
3.2
Het (rekenkundig) gemiddelde
3.2.1 Definitie Rekenkundig gemiddelde
Definitie
_ Het rekenkundig gemiddelde x van een rij numerieke gegevens is gelijk aan de som van die gegevens, gedeeld door het aantal gegevens. n
∑ x i x 1 + x 2 + ... + x n _____ _ _____________ Als een steekproef n gegevens oplevert, dan is het gemiddelde x = = i = 1 n n Opmerkingen
r
• H et gemiddelde heeft dezelfde eenheid als de waarnemingsgetallen (cm, kg ...).
aa
• J e rondt het gemiddelde af op 1 cijfer meer na de komma dan de oorspronkelijke gegevens.
3.2.2 Voorbeeld 2011
2012
2013
2014
2015
2016
2017
2018
em
jaar
pl
De tabel bevat het aantal tot het verkeer toegelaten nieuwe personenauto’s voor de periode 2011-2018.
aantal nieuwe 577 382 personenwagens
490 711 486 065 482 939 501 066 539 519 546 558 550 384
ke x
• Bereken het gemiddeld aantal nieuwe personenwagens per jaar.
3.2.3 Berekening van het gemiddelde met ICT
kij
Met Excel
In
Open het bestand ‘AUTO.xlsx’. Je berekent het gemiddelde in cel B4: B4: =GEMIDDELDE(B2:I2)
Met de grafische rekenmachine
Voer de gegevens in de werklijst L 1 in (of open AUTO.8xl). Je berekent het gemiddelde met • o fwel gemiddelde( list
2nd
stat
L3
• o fwel Stat 1-Var e
3
(gemiddelde L 1 of gemiddelde LAUTO)
list
stat
L1
Y
1
(Stat 1-Var L 1 of Stat 1-Var LAUTO)
Voorbeeld Bereken het gemiddeld aantal pogingen dat iemand nodig had om te slagen voor het rijexamen (§ 2.2.1).
HOOFDSTUK 3 I STATISTISCHE KENTALLEN
61
3.2.4 Berekening van het gemiddelde uit een frequentietabel Niet-gegroepeerde gegevens Stel dat er k verschillende waarnemingsgetallen x izijn met respectievelijke frequenties n i . Formule
k
∑ n i ? x i k _ ________ i = 1 = x , met n = ∑ n i n i = 1 Voorbeeld De klassen 6A en 6B kregen een toets wiskunde. x i (punten op 10)
0
1
2
3
4
5
6
7
8
9
10
n i (aantal leerlingen)
1
1
3
0
5
7
4
8
3
1
2
aa
r
_ • Bereken het gemiddelde: x =
• Als je score boven het gemiddelde ligt, behoor je dan automatisch tot de 'betere helft' van de klas?
pl
em
• Wat betekent het gemiddelde in dit voorbeeld?
Gemiddelde volgens definitie met de grafische rekenmachine
ke x
Om het gemiddelde via de definitie te berekenen • voer je in L 1het te behalen punten in en in L 2het aantal leerlingen (of sla je LPUNT op in L 1en LLLN op in L 2); • bereken je de producten n i ⋅ x i door L 1*L 2 in L 3op te slaan;
In
kij
• bereken je in het basisscherm de som van de frequenties: s om (L 2) de som van de n i ⋅ x i: s om (L 3) het quotiënt van de twee sommen. Met de grafische rekenmachine
Voer de gegevens in de werklijsten L 1 , L 2 in. Je berekent het gemiddelde met ofwel gemiddelde(L 1 , L 2) L3
list
L2
Z
2
L entry solve
}
)
enter
1 2
3 4 5
62
HOOFDSTUK 3 I STATISTISCHE KENTALLEN
L1
θ
3
stat
2nd
ofwel Stat 1-Var L 1 , L 2
2nd
Y
1
EE
J
,
L1
list
2nd
Y
1
stat entry solve
enter
L1
2nd
Y
1
L2
2nd
Z
2
Gegroepeerde gegevens Stel dat er k klassen zijn met respectievelijke klassenmiddens m ien klassenfrequenties n i . Formule
k
∑ n i ? m i k _ i = 1 ________ ≈ x , met n = ∑ n i n i = 1 Voorbeeld gemiddelde leeftijd van de bevolking
46 44 42 40
r
38
Volgens de vooruitzichten van het Federaal Planbureau, zou de bevolking in België stijgen naar 13,2 miljoen in 2070. Men voorziet een trage stijging van het vruchtbaarheidscijfer (het gemiddeld aantal kinderen per vrouw) en een steeds hogere levensverwachting. Dit heeft tot gevolg dat de gemiddelde leeftijd van de Belg steeds toeneemt.
34
2001
België
2011
2021
Vlaams Gewest
2031
2041
2051
Brussels Hoofd. Gewest
2061 Waals Gewest
pl
32 1991
aa
36
Bron: Demografische vooruitzichten 2018-2070, FPB en Statbel
em
De tabel en het histogram geven de verdeling van de bevolking in België op 1 januari 2019. Er waren op dat moment 1 487 mensen ouder dan 100 jaar. Voor de eenvoud zijn die bij de klasse [90,100[ geteld. 1 800 000
leeftijd
aantal
[0, 10[
1 278 302
[10, 20[
1 283 577
[20, 30[
1 410 058
[30, 40[
1 482 964
[40, 50[
1 508 894
[50, 60[
1 592 883
600 000
[60, 70[
1 324 928
400 000
[70, 80[
902 812
200 000
[80, 90[
534 651
0
[90, 100[
112 337
In
kij
ke x
1 600 000
aantal mensen
1 400 000 1 200 000 1 000 000 800 000
[0, 10[ [10, 20[ [20, 30[ [30, 40[ [40, 50[ [50, 60[ [60, 70[ [70, 80[ [80, 90[ [90, 100[
leeftijd
Op de volgende bladzijde bereken je de gemiddelde leeftijd van de Belgische bevolking op 1 januari 2019.
Wat denk je van ons gemiddelde?
HOOFDSTUK 3 I STATISTISCHE KENTALLEN
63
Met Excel
r
Open het bestand ‘LFT.xlsx’ en ga als volgt te werk.
Met de grafische rekenmachine
pl
Om het gemiddelde via de definitie te berekenen
aa
Je vindt de frequentietabel ook terug in het bestand 'LFT(gemiddelde).xlsx'.
em
• Voer je de klassenmiddens in lijst L 1 en de frequenties in lijst L 2 in (of sla LLFTMI.8xl op in L 1 en LLFTNI.8xl op in L 2); • bereken je de producten n i ⋅ m i door L 1 ⋅ L 2 in L 3op te slaan;
kij
ke x
• bereken je in het basisscherm de som van de frequenties: s om (L 2) de som van de producten n i ⋅ m i: s om (L 3) het quotiënt van de twee sommen.
In
De berekeningen (sommen en gemiddelde) kunnen heel wat eenvoudiger met Stat 1-Var (
1 2
3
L1
list
Y
1
stat
).
Na het uitvoeren van Stat 1-Var zijn _ de statische variabelen n, Σx, x , ... op te vragen via distr
vars
L5
U
5
.
4 5
64
HOOFDSTUK 3 I STATISTISCHE KENTALLEN
3.2.5 Eigenschappen van het gemiddelde eigenschap
voorbeeld
Als je alle waarnemingsgetallen met eenzelfde factor ( ≠ 0) vermenigvuldigt, dan wordt ook het gemiddelde met die factor vermenigvuldigd.
Het klasgemiddelde voor een toets op 20 is 12,3. Bereken het klasgemiddelde in procent:
Als je bij elk waarnemingsgetal eenzelfde constante term optelt, dan wordt die term ook bij het gemiddelde opgeteld.
Het gemiddelde maandloon is 1 654,20 euro. Iedereen krijgt 25 euro opslag per maand. Het gemiddelde maandloon wordt
De som van de afwijkingen van alle waarnemingsgetallen ten opzichte van het gemiddelde is 0. n _ ) = 0 ∑ ( x i − x
r
x i 10 12 14 16 18 x i − x̅ –4 –2 0 2 4 De positieve en de negatieve afwijkingen ten opzichte van het gemiddelde heffen elkaar op.
aa
i = 1
1 800 000
1 600 000
De derde eigenschap wijst erop dat het gemiddelde beschouwd kan worden als een evenwichtspunt op een balans.
1 200 000
pl
aantal mensen
1 400 000
1 000 000 800 000
400 000 200 000 0
[0, 10[
em
600 000
[10, 20[ [20, 30[ [30, 40[ [40, 50[ [50, 60[ [60, 70[ [70, 80[ [80, 90[ [90, 100[
leeftijd
ke x
3.2.6 Voor- en nadelen van het gemiddelde Het gemiddelde houdt rekening met alle gegevens en is zeer geschikt bij wetenschappelijk onderzoek.
In
kij
De tabel toont het aantal kinderen van 16 gezinnen. 2
1
3
0
2
1
4
3
0
9
1
2
2
3
0
1
Het gemiddelde is Hoeveel gezinnen hebben minder kinderen dan het gemiddelde?
Verwijder de ‘uitschieter’ en bereken opnieuw het gemiddelde: Hoeveel waarnemingsgetallen liggen nu onder het gemiddelde? Besluit:
Rond 1980 verwierpen bepaalde natuurvorsers het ontstaan van een gat in de ozonlaag van de atmosfeer boven de Zuidpool op basis van satellietgegevens. Later onderzoek bracht aan het licht dat de ozonmetingen boven de Zuidpool zo laag waren dat de gebruikte computersoftware ze systematisch als fout verwierp.
Het systematisch verwijderen van uitschieters is geen goede wetenschappelijke onderzoekshouding.
HOOFDSTUK 3 I STATISTISCHE KENTALLEN
65
3.3
De mediaan
3.3.1 Definitie Definitie
Mediaan De mediaan Me van een gerangschikte tabel met n waarnemingsgetallen is het getal met rangorde _____ n + 1 . 2 De mediaan is • h et middelste waarnemingsgetal van de tabel als n oneven is; • h et rekenkundig gemiddelde van de 2 middelste waarnemingsgetallen als n even is.
r
3.3.2 Voorbeelden
aa
Voorbeeld 1: n is oneven
Bepaal de mediaan van de punten van 15 leerlingen voor een toets.
pl
3 4 4 5 5 5 5 6 6 6 6 7 7 8 8 9 ↓ 7 leerlingen 7 leerlingen rangorde 8 Betekenis:
Voorbeeld 2: n is even
em
De mediaan is het getal met rangorde 8, dus Me = 6.
ke x
Neem opnieuw het voorbeeld van het aantal kinderen van 16 gezinnen (§ 3.2.6). Je ziet de gegevens gerangschikt van klein naar groot. 0 0 0 1 1 1 1 2 2 2 2 3 3 3 4 9 De mediaan is het getal met rangorde , dus Me =
kij
Betekenis:
3.3.3 Berekening van de mediaan met ICT
In
Met Excel
Open het bestand ‘AUTO.xlsx’. Je berekent de mediaan in cel B5: B5: =MEDIAAN(B2:I2)
Met de grafische rekenmachine Je berekent de mediaan met • ofwel mediaan( list
2nd
stat
L4
Τ
4
(mediaan L 1 of mediaan LAUTO)
• ofwel Stat 1-Var list
stat
L1
Y
1
(Stat 1-Var L 1 of Stat 1-Var L AUTO)
1 2
3 4 5
66
Voorbeeld Bereken de mediaan van het aantal pogingen nodig om te slagen voor het rijexamen (§ 2.2.1): HOOFDSTUK 3 I STATISTISCHE KENTALLEN
3.3.4 Berekening van de mediaan uit een frequentietabel Niet-gegroepeerde gegevens De klassen 6A en 6B kregen een toets wiskunde. x i (punten op 10)
0
1
2
3
4
5
6
7
8
9
10
n i (aantal leerlingen)
1
1
3
0
5
7
4
8
3
1
2
cn i
Om de mediaan te bepalen, gebruik je de cumulatieve frequentieverdeling. De mediaan is het getal met rangorde , dus Me =
r
Betekenis:
aa
Met de grafische rekenmachine
Breng je de x ionder in L 1en de n iin L 2 dan kun je de mediaan berekenen met of
Stat 1-Var L 1 , L 2.
ke x
Gegroepeerde gegevens
em
pl
mediaan(L 1 , L 2)
De tabel geeft de verdeling van de bevolking in België op 1 januari 2019. aantal
cn i
cf i
[0, 10[
1 278 302
1 278 302
11,18 %
kij
leeftijd
• D e mediaan ligt in de klasse [40, 50[. Die klasse noem je de mediaanklasse.
1 283 577
2 561 879
22,41 %
[20, 30[
1 410 058
3 971 937
34,75 %
• B enadering van de mediaan met lineaire interpolatie:
[30, 40[
1 482 964 5 454 901
47,72 %
Me ≈
In
[10, 20[
[40, 50[
1 508 894 6 963 795
60,92 %
[50, 60[
1 592 883 8 556 678
74,85 %
[60, 70[
1 324 928 9 881 696
86,44 %
[70, 80[
902 812
10 784 418
94,34 %
[80, 90[
534 651
11 319 069
99,02 %
[90, 100[
112 337
11 431 406 100,00 %
1 143 406 • B etekenis:
HOOFDSTUK 3 I STATISTISCHE KENTALLEN
67
Met de grafische rekenmachine Om de mediaan te bepalen bij gegroepeerde gegevens gebruik je niet Stat 1-Var. De rekenmachine kent geen klassen, alleen de klassenmiddens. Bijgevolg is de mediaan bekomen met Stat 1-Var een klassenmidden. Om de mediaan via interpolatie te berekenen, gebruik je het programma STATKLAS.
naar het basisscherm (
mode
).
entry solve
enter
. Kies voor 1:UITVOERING 2:BEREKENINGEN
pl
Druk
quit
2nd
aa
Eenmaal de gegevens ingevoerd keer je terug
r
• Start het programma STATKLAS , kies voor 2:INVOER en vul telkens het gevraagde in. • Plaats vervolgens de frequenties in L 2. Begin zoals gevraagd bij L 2(2)
em
Opmerking
In de plaats van de gegevens in L 2in te voeren via
list
stat
,
kun je ook een bestaande lijst toewijzen aan L 2, maar dan moet je wel ins
del
2nd
( [INS] ).
ke x
nog een eerste element 0 invoeren met
kij
Je kunt de mediaan ook benaderen uit het ogief. 100.00 % 90.00 %
1 2
3
cumulatieve relatieve frequentie
In
80.00 % 70.00 % 60.00 % 50.00 % 40.00 % 30.00 % 20.00 % 10.00 % 0.00 %
4 5
68
Me ≈
0
HOOFDSTUK 3 I STATISTISCHE KENTALLEN
10
20
30
40
Me
50
leeftijd
60
70
80
90
100
3.3.5 Voor- en nadelen van de mediaan • Neem opnieuw het voorbeeld van het aantal kinderen van 16 gezinnen (§ 3.2.6). 0
0
0 1 _ x=
1
1
1
2
2
2
2
3
3
3
4
9
Me =
De mediaan is, door zijn gedefinieerde centrale ligging, niet vatbaar voor uitschieters.
• Voor een toets wiskunde behaalden 15 leerlingen van een klas de volgende punten. 6
6
6
6
6
6
6
7
7
9
9
10
10
Me =
De mediaan houdt enkel rekening met de rangorde van de gegevens, niet met de waarde ervan.
aa
De modus
pl
3.4.1 Definitie Definitie
7
r
3.4
6
Modus
em
De modus Mo is het waarnemingsgetal met de grootste enkelvoudige frequentie. De modale klasse is de klasse met de grootste enkelvoudige frequentie
ke x
In het geval waarbij er meerdere waarnemingsgetallen of klassen zijn met een grootste enkelvoudige frequentie, wordt de modus of modale klasse niet gedefinieerd.
3.4.2 Voorbeelden Voorbeeld 1
kij
Bepaal de modus voor de punten van de klasse 6A en 6B voor een toets wiskunde (§ 3.3.4). Mo =
In
Voorbeeld 2
Bepaal de modale leeftijdsklasse van de Belgische bevolking (§ 3.3.4). Modale klasse =
HOOFDSTUK 3 I STATISTISCHE KENTALLEN
69
3.5
Kwartielen
3.5.1 Definitie Kwartielen
Definitie
Het eerste kwartiel Q 1is het getal met rangorde _____ n + 1 . 4 Het tweede kwartiel Q 2is het getal met rangorde _____ n + 1 . 2 3 ⋅ (n + 1) Het derde kwartiel Q 3is het getal met rangorde ________ . 4
25 %
25 %
25 %
De kwartielen verdelen de gegevensrij in 4 delen met evenveel waarnemingsgetallen. Het tweede kwartiel Q 2is de mediaan Me.
3.5.2 Voorbeeld
pl
Aan 16 gezinnen werd het aantal kinderen gevraagd.
aa
r
25 %
em
0 0 0 1 1 1 1 2 2 2 2 3 3 3 4 9 • Q 1 heeft rangorde ⇒ Q 1 =
Betekenis:
ke x
• Q 2 heeft rangorde ⇒ Q 2 = Betekenis:
• Q 3 heeft rangorde ⇒ Q 3 =
kij
Betekenis:
In
3.5.3 Berekening van de kwartielen met ICT Met Excel
Open het bestand ‘AUTO.xlsx’. Je berekent het 1ste en 3de kwartiel in de cellen B6 en B7 B6: =KWARTIEL(B2:I2;1) B7: =KWARTIEL(B2:I2;3)
Met de grafische rekenmachine Je berekent de kwartielen met 1-Var Stats (met de pijltoets naar beneden)
1 2
3 4 5
70
Voorbeeld Bereken de kwartielen van het aantal pogingen nodig om te slagen voor het rijexamen (§ 2.2.1). HOOFDSTUK 3 I STATISTISCHE KENTALLEN
3.5.4 Berekening van de kwartielen uit een frequentietabel Niet-gegroepeerde gegevens De klassen 6A en 6B kregen een toets wiskunde. x i (punten op 10)
0
1
2
3
4
5
6
7
8
9
10
n i (aantal leerlingen)
1
1
3
0
5
7
4
8
3
1
2
cn i
cf i
Je bepaalt de 25 %-grens, de 50 %-grens en de 75 %-grens.
r
Q 1 = Q 2 = Q 3 =
aa
Met de grafische rekenmachine
em
pl
Bij niet-gegroepeerde gegevens kunnen de kwartielen eenvoudig berekend worden met 1-Var Stats.
ke x
Gegroepeerde gegevens
De tabel geeft de verdeling van de bevolking in België op 1 januari 2019. aantal
cn i
cf i
[0, 10[
1 278 302
1 278 302
11,18 %
[10, 20[
1 283 577
5 561 879
22,41 %
[20, 30[
1 410 058
3 971 937
34,75 %
[30, 40[ 1 482 964 5 454 901
47,72 %
In
kij
leeftijd
[40, 50[ 1 508 894 6 963 795 60,92 %
[50, 60[ 1 592 883 8 556 678
74,85 %
[60, 70[ 1 324 928 9 881 606 86,44 %
[70, 80[
902 812
10 784 418 94,34 %
[80, 90[
534 651
11 319 069 99,02 %
[90, 100[
112 337
11 431 406 100,00 %
11 431 406
Bepaal de kwartielen door lineaire interpolatie.
Betekenis:
HOOFDSTUK 3 I STATISTISCHE KENTALLEN
71
Met de grafische rekenmachine Om op een correcte manier de kwartielen te berekenen gebruik je het programma STATKLAS.
aa
r
Indien de werklijsten L 1 en L 2leeg zijn, kies je voor 2:INVOER en ga je te werk zoals bij de mediaan, anders kies je voor 1:UITVOERING en 2:BEREKENINGEN
Opmerking list
,
pl
In plaats van de gegevens in L 2in te voeren via
stat
kun je ook een bestaande lijst toewijzen aan L 2, maar dan moet je wel ins
([INS]).
em
nog een eerste element 0 invoeren met
2nd
del
ke x
Je kunt de kwartielen ook benaderen uit het ogief. 100.00 % 90.00 %
70.00 % 60.00 %
In
cumulatieve relatieve frequentie
kij
80.00 %
50.00 % 40.00 % 30.00 % 20.00 % 10.00 %
1
0.00 %
0
10
4 5
72
30
40Me
50
leeftijd
2
3
20 Q1
60 Q3
70
Q 1 ≈ Q 2 ≈ Q 3 ≈
HOOFDSTUK 3 I STATISTISCHE KENTALLEN
80
90
100
Oefeningen REEKS A 1
In opdracht van een schoenenfabrikant werd aan 70 volwassen heren (ouder dan 18 jaar) de schoenmaat gevraagd. Om de ‘uitzonderlijk’ grote maten uit te sluiten, werden enkel heren tussen 165 cm en 195 cm ondervraagd. 41 42 42 40 43 42 43
42 41 39 45 42 38 41
39 38 41 41 43 42 47
42 41 43 43 41 46 41
40 43 46 42 46 48 44
44 43 42 45 40 45 45
em
c) Bepaal de modus en geef de betekenis.
43 40 43 42 45 43 43
pl
b) Bepaal de mediaan en geef de betekenis.
41 45 42 43 42 44 47
aa
44 43 41 40 43 41 46
r
a) Bereken het gemiddelde en geef de betekenis.
43 42 42 41 47 44 41
2
ke x
d) Bepaal de kwartielen en geef telkens de betekenis.
Je gooit 150 keer met 2 dobbelstenen. De som van het aantal ogen wordt geteld. 6
7
6
8
5
9
7
10
7
8
6
3
7
8
5
10
7
5
8
8
2
7
12
9
2
7
9
10
10
3
5
7
6
7
3
11
3
11
12
12
6
10
6
4
11
7
11
6
12
5
5
8
6
12
8
11
11
2
9
9
9
6
5
8
7
7
8
5
4
10
8
11
7
8
9
6
12
7
8
7
8
5
4
10
4
7
2
10
7
7
7
4
11
12
10
7
7
5
7
7
11
3
4
4
8
7
4
5
8
6
12
6
8
7
8
6
2
3
10
9
9
7
5
8
6
5
8
3
7
8
3
7
6
10
9
8
6
4
7
8
9
7
10
7
10
12
7
3
10
In
kij
8
a) De helft van de worpen bedroeg minstens b) Het meest voorkomende aantal ogen is c) Een kwart van de worpen bedroeg hoogstens d) Bereken het gemiddelde en verklaar de ligging ten opzichte van de mediaan en de modus.
HOOFDSTUK 3 I STATISTISCHE KENTALLEN
73
REEKS B 3
In een school wordt een steekproef gedaan bij 80 leerlingen van de derde graad. Hun boekentas wordt gewogen op 10 gram nauwkeurig. 7 930
6 620
9 180
6 960
8 340 10 080 5 800
7 740
8 060
7 560
8 290
7 810
8 600
7 020
9 360
7 860
7 990
9 580
6 290
7 200
8 470
9 800
7 990
6 010
7 430
8 010
6 030
7 970
7 180
8 070
8 110
7 990
7 030
5 320
8 610
7 770
9 860
6 570
7 050
8 860
9 970
7 660
9 370
7 910
7 330
8 710
6 240
7 510
6 230
8 140
8 730
8 220
8 860
5 390
8 010
8 950
6 150
8 950
7 830
9 460
9 330
8 600
8 720
6 730
7 340
8 030
8 520
8 110
8 090 6 280
5 480
8 790
7 470
5 650
8 350
9 120
7 960
8 100
6 800
7 190
b) De helft van de boekentassen weegt minstens
aa
r
a) Bereken het gemiddelde en geef de betekenis.
pl
c) Bepaal de modale klasse uit de frequentietabel van § 2.3.1:
d) Bespreek de ligging van het gemiddelde en de mediaan ten opzichte van elkaar en de modale klasse.
Wat kun je hieruit besluiten?
em
Een conservenfabrikant krijgt klachten over de netto-inhoud van zijn blikken met erwtjes, die volgens de verpakking 1 liter zou moeten bedragen. Daarom laat hij een steekproef uitvoeren. Bij 40 van de lopende band genomen blikjes wordt de inhoud, in ml, bepaald.
In
kij
4
ke x
e) Bepaal de kwartielen en geef de betekenis.
985
996
990
1 004
1 003
1 006
1 005
997
999
1 000
991
981
982
1 003
1 015
1 001
998
1 012
1 023
997
996
1 015
1 027
1 011
994
1 020
981
1 005
977
988
1 000
987
990
999
1 013
988
998
1 009
1 003
992
a) Onderzoek met 2 centrummaten of de klachten gegrond zijn of niet. 1
2
3 4
b) Een kwart van de blikjes heeft een inhoud van minstens
5
74
HOOFDSTUK 3 I STATISTISCHE KENTALLEN
Om de maat van een hemd te bepalen wordt de omtrek van de hals, in cm, gemeten. Hierbij wordt een extra ruimte vrijgehouden van ongeveer ‘2 vingers’. Daarnaast moet je ook rekening houden met je figuur (‘tight fit’, ‘regular fit’, ...). De tabel bevat de maten van de hemden die in 1 week zijn verkocht in een kledingzaak. a) Maak een volledige frequentietabel.
maat
n i
36
5
37
10
c) Bereken de gemiddelde maat:
38
17
d) De helft van de hemden heeft hoogstens maat
39
20
e) Bepaal de kwartielen en geef de betekenis
40
26
41
22
42
16
43
8
44
5
45
2
46
3
pl
aa
r
b) Welke maat komt het meeste voor?
em
5
Bij een wielerwedstrijd wordt de hematocrietwaarde van een aantal renners gemeten. De resultaten staan in de tabel.
kij
6
ke x
Uit de wielersport komen de laatste jaren veel berichten over dopinggebruik. Een van de meest genoemde stoffen is erytropoëtine, kortweg epo. Dit middel bevordert de aanmaak van rode bloedlichaampjes, waardoor het zuurstoftransport van het bloed wordt vergroot en wielrenners beter presteren. De hematocrietwaarde is de hoeveelheid rode bloedlichaampjes als percentage van de totale hoeveelheid bloed. Die hematocrietwaarde stijgt dus als een wielrenner epo gebruikt.
41
42
43
44
45
46
47
48
49
50
51
52
53
54
n i
4
5
8
15
23
11
9
7
3
1
2
3
0
2
In
hematocriet
a) Maak een volledige frequentietabel. b) Bereken de gemiddelde hematocrietwaarde:
Geef de betekenis van die gemiddelde waarde.
c) Bepaal de mediaan en geef de betekenis.
d) Een kwart van de renners heeft een hematocrietwaarde die hoogstens
bedraagt.
HOOFDSTUK 3 I STATISTISCHE KENTALLEN
75
Van 860 komkommers die in de veiling verhandeld worden, is de lengte, in cm, gemeten. a) Maak een volledige frequentietabel.
lengte
n i
[28, 31[
39
[31, 34[
83
c) Teken het ogief voor de cumulatieve relatieve frequenties.
[34, 37[
135
d) Bepaal de mediaan met behulp van het ogief en geef de betekenis.
[37, 40[
162
[40, 43[
178
[43, 46[
121
[46, 49[
71
[49, 52[
47
[52, 55[
24
b) Bereken de gemiddelde lengte:
e) Bepaal de kwartielen met behulp van het ogief en geef de betekenis.
r
aa
7
n i
[1 100, 1 400[
1
[1 400, 1 700[
3
[1 700, 2 000[
2
[2 000, 2 300[
7
[2 300, 2 600[
13
[2 600, 2 900[
28
[2 900, 3 200[
41
[3 200, 3 500[
35
[3 500, 3 800[
19
[3 800, 4 100[
8
[4 100, 4 400[
4
[4 400, 4 700[
2
a) Maak een volledige frequentietabel.
b) Bereken het gemiddelde geboortegewicht:
em
gewicht
pl
Van de 163 kinderen die vorig jaar in een kraamkliniek werden geboren, is het geboortegewicht, in g, opgetekend.
c) Benader de mediaan door lineaire interpolatie en geef de betekenis.
ke x
8
In
kij
d) Benader de kwartielen Q 1 en Q 3 door lineaire interpolatie en geef de betekenis. 1 2
3 4 5
76
HOOFDSTUK 3 I STATISTISCHE KENTALLEN
REEKS C 9
Het ogief toont gegevens over de duur van een menselijke zwangerschap. duur van de zwangerschap
100 %
100 %
93 %
90 %
81 %
70 %
60 % 60 % 50 %
35 %
40 %
r
30 %
16 %
20 % 10 %
0%
6%
3%
0% 220
230
240
250
aa
cumulatieve relatieve frequentie
80 %
260
270
280
290
300
pl
aantal dagen
em
a) De helft van de zwangerschappen duurt korter dan
b) Een kwart van de zwangerschappen duurt langer dan c) Bepaal de modale klasse en geef de betekenis.
ke x
d) Bereken het gemiddelde en geef de betekenis.
kij
In
e) Bespreek de ligging van het gemiddelde, de mediaan en de modale klasse.
HOOFDSTUK 3â&#x20AC;&#x201A; Iâ&#x20AC;&#x201A; STATISTISCHE KENTALLEN
77
3.6
Spreidingsmaten
em
pl
aa
r
Bron: dpa
80 % 70 % 60 % 50 % 40 %
kij
aantal bedienden in procent
90 %
100 %
18,00 % 16,00 %
aantal bedienden in procent
100 %
ke x
De histogrammen tonen de inkomens, in euro per maand, van de bedienden in 4 fictieve bedrijven. Hoe liggen de inkomens verdeeld tussen 1 200 euro en 2 600 euro?
30 % 20 %
0%
0%
0%
0%
0%
0%
In
14,29 %
8,00 % 6,00 % 4,00 %
30 % 30 %
30 %
aantal bedienden in procent
aantal bedienden in procent
14,29 %
maandloon in euro
35 %
25 % 20 %
20 %
20 %
15 % 10 %
10 %
10 %
5%
5%
25 %
25 %
25 %
20 %
15 %
10 %
5%
15 %
15 %
8%
8% 4%
0%
0% [1500,1700[ [1700,1900[ [1900,2100[ [2100,2300[ [2300,2500[ [2500,2700[ [2700,2900[
[1500,1700[ [1700,1900[ [1900,2100[ [2100,2300[ [2300,2500[ [2500,2700[ [2700,2900[
maandloon in euro
maandloon in euro
4
5
78
14,29 %
[1500,1700[ [1700,1900[ [1900,2100[ [2100,2300[ [2300,2500[ [2500,2700[ [2700,2900[
3
14,29 %
10,00 %
maandloon in euro
5%
14,29 %
0,00 %
2
14,29 %
12,00 %
[1500,1700[ [1700,1900[ [1900,2100[ [2100,2300[ [2300,2500[ [2500,2700[ [2700,2900[
1
14,29 %
2,00 %
10 %
0%
14,00 %
HOOFDSTUK 3â&#x20AC;&#x201A; Iâ&#x20AC;&#x201A; STATISTISCHE KENTALLEN
3.7
Spreiding ten opzichte van de mediaan
3.7.1 De variatiebreedte Variatiebreedte
Definitie
De variatiebreedte R (‘range’) is het verschil tussen het grootste en het kleinste waarnemingsgetal. Opmerking In een gegroepeerde frequentietabel is het verschil tussen de bovengrens van de laatste klasse en de ondergrens van de eerste klasse een benadering voor R. Voorbeelden
r
• A an 16 gezinnen werd het aantal kinderen gevraagd.
aa
0 0 0 1 1 1 1 2 2 2 2 3 3 3 4 9 R =
pl
• B ereken de variatiebreedte voor elk van de histogrammen van § 3.6.
Histogram linksboven: ; andere histogrammen:
em
Voor- en nadelen van de variatiebreedte
ke x
De variatiebreedte is eenvoudig te berekenen en is daarom geschikt voor het snel verkrijgen van een eerste, vrij ruwe schets van de spreiding van de waarnemingsgetallen. De nadelen zijn dat de variatiebreedte • e nkel rekening houdt met de 2 uiterste waarden; • g een rekening houdt met de frequenties van de waarnemingsgetallen.
3.7.2 De interkwartielafstand Interkwartielafstand
kij
Definitie
In
De interkwartielafstand IQR (‘interquartile range’) is het verschil tussen het derde en het eerste kwartiel.
De interkwartielafstand bakent de middelste 50 % van de gegevens af. Voorbeelden
35 %
14,00 %
14,29 %
14,29 %
14,29 %
14,29 %
14,29 %
14,29 %
14,29 %
12,00 % 10,00 %
IQR
8,00 % 6,00 % 4,00 % 2,00 %
30 % 30 %
30 % 25 % 20 %
20 %
IQR
20 %
15 % 10 %
10 % 5%
10 %
5%
5%
[1500,1700[ [1700,1900[ [1900,2100[ [2100,2300[ [2300,2500[ [2500,2700[ [2700,2900[
25 %
25%
25 %
IQR 20 %
15 %
10 %
5%
15 %
15 %
8%
8% 4%
0%
0%
0,00 %
aantal bedienden in procent
16,00 %
aantal bedienden in procent
aantal bedienden in procent
18,00 %
[1500,1700[ [1700,1900[ [1900,2100[ [2100,2300[ [2300,2500[ [2500,2700[ [2700,2900[
maandloon in euro
maandloon in euro
[1500,1700[ [1700,1900[ [1900,2100[ [2100,2300[ [2300,2500[ [2500,2700[ [2700,2900[
maandloon in euro
Voor- en nadeel van de interkwartielafstand De interkwartielafstand houdt in zekere mate rekening met de frequenties van de gegevens en kan relatief eenvoudig bepaald worden. Het nadeel is echter dat de interkwartielafstand geen rekening houdt met de helft van de gegevens. De 25 % kleinste en de 25 % grootste gegevens worden niet in rekening gebracht.
HOOFDSTUK 3 I STATISTISCHE KENTALLEN
79
3.7.3 Het IQR-criterium voor uitschieters Uitschieter
Definitie
Een waarnemingsgetal is een uitschieter als het minstens 1,5 keer de interkwartielafstand boven het derde kwartiel of onder het eerste kwartiel gelegen is. Voorbeelden • A an 16 gezinnen werd het aantal kinderen gevraagd. 0 0 0 1 1 1 1 2 2 2 2 3 3 3 4 9
Q 1 – 1,5 · IQR = ; Q 3 + 1,5 · IQR = Uitschieters:
r
IQR = (§ 3.5.2)
aa
• B epaal de eventuele uitschieters voor de maandlonen bij de 4 fictieve bedrijven van § 3.6 (§ 3.7.2).
pl
em
ke x
3.7.4 De boxplot
De 5-getallen-samenvatting van een verdeling bestaat uit het minimum, het eerste kwartiel, de mediaan, het derde kwartiel en het maximum.
In
kij
Een boxplot is een grafische voorstelling van de 5-getallen-samenvatting en bestaat uit • een rechthoek (de box) met de interkwartielafstand als basis; • een verticale lijn in de box, die de plaats van de mediaan weergeeft; • lijnstukken die de box verbinden met het minimum en het maximum.
MIN
Q1
Me
Q3
MAX
Voorbeeld Teken de boxplot voor het aantal kinderen van 16 gezinnen en bespreek. 1
2
3 4
0
1
2
3
5
80
4
5
6
7
8
9
HOOFDSTUK 3 I STATISTISCHE KENTALLEN
3.7.5 Tekenen van de boxplot met ICT • O m de boxplot te tekenen voor het aantal kinderen van 16 gezinnen voer je de gegevens in lijst L 1 in;
a ctiveer je een statistische plot (
stat plot f1
y= ) van het type boxplot met Xlijst = L 1 en Freq = 1; w
Q
.
9
zoom
boxplot met uitschieters
em
pl
gewone boxplot
r
format f3
aa
druk je
2nd
• O m de boxplot te tekenen voor de toetsresultaten van 6A en 6B (§ 3.5.4)
ke x
voer je de verschillende resultaten in lijst L 1en de frequenties in lijst L 2 in; activeer je een statistische plot ( zoom
Q
9
.
y=
) van het type boxplot met Xlijst = L 1 en Freq = L 2 ;
In
kij
druk je
format f3
w
stat plot f1
2nd
Door met 2 statistische plots te werken, kun je de boxplot samen tekenen met een staaf- of lijndiagram.
HOOFDSTUK 3 I STATISTISCHE KENTALLEN
81
De boxplot voor gegroepeerde gegevens met de TI84 Bij gegroepeerde gegevens kan de TI84 geen boxplot tekenen die de juiste waarden van het minimum, het maximum en de kwartielen weergeeft. Teken de boxplot voor de verdeling van de bevolking in België op 1 januari (§ 3.5.4):
r
In
kij
ke x
Programma KLBOX.8xp
em
pl
aa
De rekenmachine ziet de klassenmiddens gewoon als getallen met een frequentie en niet als vertegenwoordigers van klassen. Bijgevolg zijn de kwartielen en extrema ook gewoon klassenmiddens. Heb je de kwartielen bepaald met het programma STATKLAS en genoteerd, dan kun je toch een boxplot met de juiste proporties en waarden laten tekenen door het programma KLBOX.8xp.
Op diddit vind je een applet om een boxplot te tekenen.
De box-and-whisker plot werd voor het eerst gebruikt in 1977 door de Amerikaanse statisticus John Tukey. In het oorspronkelijke ontwerp strekten de horizontale lijnen (de ‘whiskers’) zich uit tot maximaal 1,5 keer de interkwartielafstand onder het eerste of boven het derde kwartiel.
1 2
3 4
De ‘zwakke uitschieters’ werden met kleine kringetjes op de tekening aangebracht en de ‘sterke uitschieters’ (meer dan 3 keer de interkwartielafstand onder Q 1 of boven Q 3) met kruisjes.
5
82
HOOFDSTUK 3 I STATISTISCHE KENTALLEN
3.8
Spreiding ten opzichte van het gemiddelde
3.8.1 De standaardafwijking stappen
uitleg
de gemiddelde afwijking ten opzichte van het gemiddelde
r
Als je voor elk gegeven het verschil met het gemiddelde berekent en van die verschillen de gemiddelde waarde neemt, dan verkrijg je n _ ∑ ( x i − x ) _________ i = 1 . n Deze waarde is echter altijd gelijk aan 0.
In de prehistorie van de statistiek, de tijd zonder computers en zelfs zonder rekenmachines, was het werken met absolute waarden niet handig.
em
pl
Alle afwijkingen ten opzichte van het gemiddelde worden als positieve getallen verrekend. Dit kan door de absolute waarde te nemen van de verschillen. n _ ∑ ( x i − x ) g.a.a. = _________ i = 1 n
aa
de gemiddelde absolute afwijking ten opzichte van het gemiddelde
de gemiddelde kwadratische afwijking ten opzichte van het gemiddelde
kij
ke x
Om de afwijkingen ten opzichte van het gemiddelde positief te maken, kan men die ook kwadrateren. 2 De populatievariantie σ is de gemiddelde kwadratische afwijking ten opzichte van het gemiddelde. n _2 ( x i − x ) ∑ 2 i = 1 σ = _________ n
De afwijkingen ten opzichte van het gemiddelde worden op die manier groter gemaakt, zodat de spreiding groter lijkt dan ze in werkelijkheid is. Ook de afwijkingen van de uiterste waarden worden extra in de verf gezet. Een ander probleem is dat het verkregen resultaat niet meer dezelfde eenheid heeft als de waarnemingsgetallen zelf.
In
de (steekproef)variantie
In plaats van te delen door n, deel je bij de berekening van de variantie uit een steekproef door n – 1, wat je de Gausscorrectie noemt. n _2 ∑ ( x i − x ) 2 i = 1 s = _________ n – 1
de (steekproef)standaardafwijking __________ n _2 ∑ ( x i − x ) s = __________ i = 1 n − 1
√
Je maakt een correctie omdat je met een steekproef werkt en niet met de volledige populatie. Waarom je door n – 1 moet delen en niet door n, heeft te maken met het aantal vrijheidsgraden: onafhankelijke schattingen die je kunt maken van een bepaalde waarde.
De standaardafwijking van een tabel waarnemingsgetallen is de positieve vierkantswortel van de steekproefvariantie.
Opmerking Je rondt de standaardafwijking af op 2 cijfers meer na de komma dan de oorspronkelijke gegevens.
HOOFDSTUK 3 I STATISTISCHE KENTALLEN
83
3.8.2 Voorbeeld Het gemiddeld aantal nieuwe personenwagens per jaar is
(zie § 3.2.2)
2011
577 382
2012
490 711
2013
486 065
2014
482 939
2015
501 066
2016
539 519
2017
546 558
2018
550 384
aa
aantal nieuwe personenwagens
r
_2 (x i − x )
jaar
pl
De standaardafwijking is
em
ke x
3.8.3 Berekening van de standaardafwijking met ICT Met Excel
In
kij
Open het bestand ‘AUTO.xlsx’. Je berekent de standaardafwijking in cel B8: B8: =STDEV(B2:I2)
1 2
3 4 5
84
Met de grafische rekenmachine
Je berekent de standaardafwijking met
• ofwel stdDev( list
2nd
stat
• ofwel Stats 1-Var L3
(stdDev L 1 of stdDev L AUTO)
θ
3
list
stat
L1
Y
1
(Stats 1-Var L 1 of Stats 1-Var L AUTO)
Voorbeeld Bereken de standaardafwijking voor het aantal pogingen dat iemand nodig had om te slagen voor het rijexamen (§ 2.2.1).
HOOFDSTUK 3 I STATISTISCHE KENTALLEN
3.8.4 Berekening van de standaardafwijking uit een frequentietabel Niet-gegroepeerde gegevens Stel dat er k verschillende waarnemingsgetallen x i zijn met respectievelijke frequenties n i . _____________ k _2 ∑ n i ? (x i − x ) k i = 1 s = _____________ , met n = ∑ n i i = 1 n − 1
√
Formule
Voorbeeld _2 n i ⋅ ( x i − x )
1
1
2
3
3
0
4
5
5
7
6
4
7
8
8
3
9
1
10
2
De resultaten van de klassen 6A en 6B zie je in de tabel. • H et gemiddelde is _ = (§ 3.2.4) x • D e standaardafwijking is
s =
ke x
Vier klassen van het zesde jaar kregen een toets wiskunde.
r
1
aa
0
em
n i
pl
_2 (x i − x )
x i
Met de grafische rekenmachine
Je berekent de statistische parameters met Stat 1-Var L 1 , L 2 . Druk:
list
stat
L1
Y
1
L1
2nd
Y
1
EE
L2
J
,
2nd
Z
2
In
kij
Je voert de gegevens in 2 lijsten L 1 en L 2 in.
Eenmaal Stat 1-Var uitgevoerd kunnen alle statistische variabelen opgehaald worden via
distr
vars
L5
U
5
.
HOOFDSTUK 3 I STATISTISCHE KENTALLEN
85
Gegroepeerde gegevens Stel dat er k klassen zijn met respectievelijke middens m i en klassenfrequenties n i .
Formule
_____________ k _2 ∑ n i ? (m i − x ) k i = 1 s ≈ _____________ , met n = ∑ n i i = 1 n − 1
√
Voorbeeld
Met Excel
ke x
em
pl
aa
Open het bestand ‘LFT(gemiddelde).xlsx’ en ga als volgt te werk.
r
Bereken de standaardafwijking voor de verdeling van de bevolking in België op 1 januari 2019. Let erop dat je hier met de volledige populatie werkt en niet met een steekproef.
kij
Je vindt de frequentietabel ook terug in het bestand ‘LFT(standaardafwijking).xlsx’.
Met de grafische rekenmachine
In
Je voert Stat 1-Var uit voor de lijsten LFTMI en LFTNI.
1 2
3 4 5
86
HOOFDSTUK 3 I STATISTISCHE KENTALLEN
3.8.5 De variatiecoëfficiënt Voorbeeld Beschouw de volgende gegevensrijen. _ 16 18 19,0 20 22 → x = s = _ 76 78 79,0 80 82 → x = s =
De standaardafwijking is voor beide rijen gelijk. Toch is het duidelijk dat de spreiding ten opzichte van het gemiddelde in de eerste rij, relatief gezien, groter is. Definitie
Variatiecoëfficiënt
aa
r
s De variatiecoëfficiënt V = __ _ x
pl
De variatiecoëfficiënt berekent de verhouding van de standaardafwijking ten opzichte van het gemiddelde en geeft dus de relatieve spreiding weer ten opzichte van dat gemiddelde. Meestal wordt de variatiecoëfficiënt in procent uitgedrukt. Bereken de variatiecoëfficiënt voor de gegevensrijen van het inleidende voorbeeld.
em
V 1 = V 2 = Gebruik van de variatiecoëfficiënt
ke x
Als V < 5 % spreekt men van een zeer kleine spreiding ten opzichte van het gemiddelde. Dit is bijvoorbeeld belangrijk in het onderzoek naar de nauwkeurigheid van machines. Voorbeeld
kij
Een machine maakt kogellagers die een diameter van 20,50 mm moeten hebben. Bij een controle wordt van 40 kogellagers de diameter, in mm, bepaald. 20,48 20,32 20,53 20,82 20,20 20,44 20,48 20,71 20,55 20,33
In
20,39 20,38 20,73 20,50 20,26 20,65 20,72 20,81 20,44 20,57 20,53 20,36 20,86 20,54 20,41 20,51 20,49 20,43 20,32 20,50 20,53 20,36 20,32 20,67 20,69 20,42 20,56 20,34 20,44 20,52
• I s de machine goed afgesteld? Je berekent het gemiddelde: Dus: • W erkt de machine voldoende nauwkeurig? Je berekent de standaardafwijking: s = De variatiecoëfficiënt V = Dus:
HOOFDSTUK 3 I STATISTISCHE KENTALLEN
87
3.8.6 De standaardscore Definitie
Standaardscore
_ x i − x ______ De standaardscore of z-score van een waarnemingsgetal x i is het getal z i = . s
De z-score drukt het verschil uit van een gegeven ten opzichte van het gemiddelde in aantal keer de standaardafwijking.
Gebruik van de standaardscore Omdat de standaardscore onafhankelijk is van de meeteenheid, is het een goed instrument om gegevens van verschillende steekproeven met elkaar te vergelijken.
–1 < z < 1 1<z<2
aa
Minder dan 1 keer de standaardafwijking verwijderd van het gemiddelde: behorend tot de standaardgroep. Hoog.
Meer dan 2 keer de standaardafwijking boven het gemiddelde: uitzonderlijk hoog.
ke x
z>2
Laag.
pl
–2 < z < –1
Meer dan 2 keer de standaardafwijking onder het gemiddelde: uitzonderlijk laag.
em
z < –2
betekenis
r
standaardscore
Voorbeeld
Alexandra behaalt op haar rapport de volgende punten voor wetenschappen en aardrijkskunde. resultaat in %
klasgemiddelde
standaardafwijking
wetenschappen
71
65,6
5,24
aardrijkskunde
74
70,5
4,91
In
kij
vak
Voor welk vak heeft ze het best gepresteerd? Je berekent voor beide vakken de standaardscore. z W = z A = Besluit:
1 2
3 4
Paragraaf 3.9 (Opdrachten: deel 3) vind je op diddit.
5
88
HOOFDSTUK 3 I STATISTISCHE KENTALLEN
Oefeningen REEKS A 10
In opdracht van een schoenenfabrikant werd aan 70 volwassen heren (ouder dan 18 jaar) de schoenmaat gevraagd. Om de ‘uitzonderlijk’ grote maten uit te sluiten werden enkel heren tussen 165 cm en 195 cm ondervraagd. Zie oefening 1 van dit hoofdstuk. a) Bereken de interkwartielafstand:
aa
r
b) Teken de boxplot en bespreek.
em
d) Bereken de standaardafwijking:
pl
c) Zijn er uitschieters bij de gegevens?
kij
ke x
e) Hoeveel procent van de gegevens ligt meer dan 1 standaardafwijking verwijderd van het gemiddelde?
Je gooit 150 keer met 2 dobbelstenen. De som van het aantal ogen wordt geteld. Zie oefening 2 van dit hoofdstuk.
In
11
a) Teken de boxplot en bespreek.
b) Bereken de standaardafwijking: c) Hoeveel keer heb je ‘een hoog aantal’ gegooid?
HOOFDSTUK 3 I STATISTISCHE KENTALLEN
89
Aan 90 Vlaamse gezinnen werd het aantal kinderen gevraagd. 3
2
2
2
3
0
4
1
0
3
1
5
2
3
2
0
1
1
0
2
2
2
1
3
1
2
3
4
2
1
2
4
2
1
3
3
1
1
5
4
2
2
4
3
1
0
2
2
3
1
0
1
4
0
1
2
0
4
5
2
1
2
1
2
2
1
4
4
1
2
2
2
4
2
3
0
1
3
2
0
1
2
1
6
3
1
8
3
1
3
aa
a) De helft van de gezinnen heeft minstens kinderen.
r
12
b) Een kwart van de gezinnen heeft hoogstens kinderen.
em
pl
c) Als je het aantal kinderen van 1 000 Vlaamse gezinnen samentelt, hoeveel kinderen kun je dan verwachten?
d) Zijn er uitschieters bij de gegevens?
Verwijder de eventuele uitschieters en bereken opnieuw de mediaan en het gemiddelde. Wat zie je?
kij
ke x
e) Bereken de standaardafwijking:
In
f) Een gezin heeft 4 kinderen. Bereken de standaardscore en geef de betekenis.
1 2
3 4 5
90
HOOFDSTUK 3 I STATISTISCHE KENTALLEN
REEKS B 13
In een school wordt een steekproef gedaan bij 80 leerlingen van de derde graad. Hun boekentas wordt gewogen op 10 gram nauwkeurig. Zie oefening 3 van dit hoofdstuk. a) Teken de boxplot en bespreek.
aa
r
b) Zijn er uitschieters bij de gegevens?
c) Bereken de standaardafwijking:
pl
ke x
Een conservenfabrikant krijgt klachten over de netto-inhoud van zijn blikken met erwtjes, die volgens de verpakking 1 liter zou moeten bedragen. Daarom laat hij een steekproef uitvoeren. Bij 40 van de lopende band genomen blikjes wordt de inhoud, in ml, bepaald. Zie oefening 4 van dit hoofdstuk.
kij
14
em
d) Hoeveel boekentassen kunnen beschouwd worden als ‘uitzonderlijk zwaar’?
In
a) Teken de boxplot en bespreek.
b) Werken de vulmachines voldoende nauwkeurig?
HOOFDSTUK 3 I STATISTISCHE KENTALLEN
91
15
Van 90 kippeneieren wordt de massa in gram bepaald. 63
52
61
62
56
62
57
60
64
58
58
50
59
63
52
49
59
60
64
58
50
62
57
60
59
71
50
53
76
75
74
60
76
48
57
61
51
62
60
73
65
58
68
66
58
69
55
70
65
68
62
60
61
74
54
64
54
63
64
62
59
55
59
61
60
57
72
56
53
79
58
54
56
60
62
74
69
67
61
62
51
60
61
63
78
66
57
63
61
59
pl
c) Bereken het gemiddelde en geef de betekenis.
aa
b) De helft van de eieren weegt minstens
r
a) Een kwart van de eieren weegt hoogstens
em
d) Bekijk de ligging van het gemiddelde en de mediaan ten opzichte van elkaar en de modale klasse.
ke x
e) Bereken de interkwartielafstand en geef de betekenis.
kij
f) Bereken de standaardafwijking:
g) Een ei weegt 50 g. Bereken de standaardscore en geef de betekenis.
In
16
De gemiddelde lengte van de Amerikaanse man is 175,5 cm, met een standaardafwijking van 5,82 cm. De gemiddelde Belgische man meet 180,4 cm en de standaardafwijking is 6,14 cm. Wie is relatief het grootst: een Amerikaan van 180 cm of een Belg van 185 cm?
1
2
3
4
5
92
HOOFDSTUK 3â&#x20AC;&#x201A; Iâ&#x20AC;&#x201A; STATISTISCHE KENTALLEN
18
Om de maat van een hemd te bepalen wordt de omtrek van de hals, in cm, gemeten. Hierbij wordt een extra ruimte vrijgehouden van ongeveer ‘2 vingers’. Daarnaast moet je ook rekening houden met je figuur (‘tight fit’, ‘regular fit’, ...). De tabel bevat de maten van de hemden die in 1 week zijn verkocht in een kledingzaak. Zie oefening 5 van dit hoofdstuk.
5
37
10
38
17
39
20
40
26
41
22
42
16
43
8
44
5
45
2
46
3
b) Bereken de standaardafwijking:
r
36
a) Teken de boxplot en bespreek.
c) Welke maten behoren tot de ‘standaardgroep’?
aa
n i
pl
maat
em
17
Bij een wielerwedstrijd wordt de hematocrietwaarde van een aantal renners gemeten. De resultaten staan in de tabel. Zie oefening 6 van dit hoofdstuk. 41
42
43
44
ke x
hematocriet n i
4
5
8
15
45
46
47
48
49
50
51
52
53
54
23
11
9
7
3
1
2
3
0
2
kij
a) Vorig jaar werd bij dezelfde wedstrijd ook de hematocrietwaarde bepaald. Dat gaf aanleiding tot de volgende boxplot.
46
48
50
52
In
40
Teken de boxplot voor dit jaar en vergelijk.
b) Welke hematocrietwaarden kun je als ‘uitzonderlijk laag’ bestempelen?
HOOFDSTUK 3 I STATISTISCHE KENTALLEN
93
19
Van 860 komkommers die in de veiling verhandeld worden, is de lengte, in cm, gemeten. Zie oefening 7 van dit hoofdstuk. a) Bij welke lengtes spreek je van een ‘uitschieter’?
aa
pl
Van de 163 kinderen die vorig jaar in een kraamkliniek werden geboren, is het geboortegewicht, in g, opgetekend. Zie oefening 8 van dit hoofdstuk. Vanaf welk gewicht is een baby ‘uitzonderlijk zwaar’?
em
20
r
b) Bij welke lengtes mag je spreken van ‘lang’?
kij
ke x
Een brouwer doet een aselecte steekproef om te weten te komen of de machine die de bierflesjes vult, voldoende nauwkeurig werkt. Op de etiketten van de bierflesjes staat dat de netto-inhoud 25 cl is. Van 65 flesjes wordt de inhoud, in cl, gecontroleerd.
In
21
a) Is de vulmachine goed afgesteld?
klasse
n i
[22, 23[
2
[23, 24[
7
[24, 25[
13
[25, 26[
17
2
[26, 27[
14
3
[27, 28[
9
4
[28, 29[
3
1
5
94
HOOFDSTUK 3 I STATISTISCHE KENTALLEN
b) Werkt de machine voldoende nauwkeurig?
STUDIEWIJZER Statistische kentallen 3.2 Het rekenkundig gemiddelde KENNEN Het rekenkundig gemiddelde van een rij numerieke gegevens is de som van die gegevens, n
∑ x i _ x 1 + x 2 + ... + x n _____ gedeeld door het aantal gegevens: x = _____________ = i = 1 n
k
∑ n i ? x i k _ ________ x = i = 1 , met n = ∑ n i n
i = 1
n
k
∑ n i ? m i k _ ________ x ≈ i = 1 , met n = ∑ n i n
i = 1
KUNNEN
aa
De betekenis van het rekenkundig gemiddelde formuleren.
r
Het rekenkundig gemiddelde berekenen van een rij gegevens of vanuit een frequentietabel.
3.3 De mediaan
KENNEN
em
pl
De mediaan Me van een gerangschikte tabel met n waarnemingsgetallen is het getal met rangorde ____ n + 1 . 2
KUNNEN
De mediaan bepalen van een rij gegevens, vanuit een frequentietabel of met behulp van een ogief.
ke x
De betekenis van de mediaan formuleren.
3.4 De modus
KENNEN
kij
De modus Mo is het waarnemingsgetal met de grootste enkelvoudige frequentie. De modale klasse is de klasse met de grootste enkelvoudige frequentie.
KUNNEN
De modus of modale klasse bepalen van een rij gegevens vanuit een frequentietabel.
In
De betekenis van de modus formuleren.
3.5 Kwartielen KENNEN
Het eerste kwartiel Q 1is het getal met rangorde _____ n + 1 . 4 Het tweede kwartiel Q 2is het getal met rangorde _____ n + 1 . 2 3 ⋅ (n + 1) . Het derde kwartiel Q 3 is het getal met rangorde ________ 4
KUNNEN De kwartielen bepalen van een rij gegevens, vanuit een frequentietabel of met behulp van een ogief. De betekenis van de kwartielen formuleren.
HOOFDSTUK 3 I STATISTISCHE KENTALLEN
95
3.7 Spreiding ten opzichte van de mediaan KENNEN De variatiebreedte R (‘range’) is het verschil tussen het grootste en het kleinste waarnemingsgetal. De interkwartielafstand IQR (‘interquartile range’) is het verschil tussen het derde en het eerste kwartiel. Een waarnemingsgetal is een uitschieter als het minstens 1,5 keer de interkwartielafstand boven het derde kwartiel of onder het eerste kwartiel gelegen is. De 5-getallen-samenvatting van een verdeling bestaat uit het minimum, het eerste kwartiel, de mediaan, het derde kwartiel en het maximum. Een boxplot is een grafische voorstelling van de 5-getallen-samenvatting.
KUNNEN
Een boxplot bespreken.
3.8 Spreiding ten opzichte van het gemiddelde
aa
De boxplot tekenen als de 5-getallen-samenvatting gekend is.
r
De variatiebreedte en de interkwartielafstand berekenen van een rij gegevens.
pl
KENNEN
√
n _2 ∑ (x i − x ) s = _________ i = 1
n − 1
em
De steekproefstandaardafwijking is de positieve vierkantswortel van de gemiddelde kwadratische afwijking ten opzichte van het gemiddelde, voorzien van de Gausscorrectie: __________
____________ k _2 ∑ n i ? ( x i − x ) k s = ____________ i = 1 , met n = ∑ n i s ≈ n − 1
i = 1
ke x
√
_____________ k _2 i − x ) ∑ n i ? ( m k i = 1 _____________ , met n = ∑ n i
√
n − 1
i = 1
s . De variatiecoëfficiënt V = __ _ x
kij
_ x_____ i − x De standaardscore of z-score van een waarnemingsgetal x i is het getal z i = . s
KUNNEN
In
De standaardafwijking en de variatiecoëfficiënt berekenen van een rij gegevens of vanuit een frequentietabel. De betekenis van de variatiecoëfficiënt geven in het onderzoek naar de nauwkeurigheid van machines. De standaardscore gebruiken om de ligging van een gegeven ten opzichte van het gemiddelde te specifiëren.
CONTRACTWERK 1
2
3
4 5
96
HOOFDSTUK 3 I STATISTISCHE KENTALLEN
HOOFDSTUK 4 I DE NORMALE VERDELING
98
4.2 De normale kansdichtheidsfunctie
99 100
4.4 Berekeningen met de normale verdeling
102
4.5 De standaardnormale verdeling
104
4.6 Niet alle gegevens zijn normaal verdeeld
106
aa
4.3 De normale verdeling met ICT
r
4.1 Inleidend voorbeeld
4.7 Opdrachten: deel 4 108 116
In
kij
ke x
em
pl
Studiewijzer
nieuwe cartoon wordt aangeleverd bij correcties op eerste proef
HOOFDSTUK 4 I DE NORMALE VERDELING
97
4.1
Inleidend voorbeeld De pakjes koffie van een koffiebranderij bevatten volgens het etiket 500 gram. Om de nauwkeurigheid van de vulmachines te controleren heeft men van 245 lukraak van de band genomen pakjes koffie de massa, in g, bepaald. De resultaten vind je in de tabel.
_ = x
gewicht
n i
f i
[482, 486[
13
5,31 %
[486, 490[
17
6,94 %
[490, 494[
29
11,84 %
[494, 498[
39
15,92 %
[498, 502[
48
19,59 %
[502, 506[
39
15,92 %
s=
[506, 510[
30
12,24 %
V=
Werken de machines voldoende nauwkeurig?
[510, 514[
17
6,94 %
[514, 518[
13
5,31 %
25 %
15 %
r
aa
pl y
kij
10 %
Zijn de machines goed ingesteld?
ke x
20 %
Modale klasse =
em
Bekijk de diagrammen.
Me =
5%
0.04
0.03
0.02
0.01
x
0%
482
486
490
494
498
502
506
510
514
518
522
In
[482,486[ [486,490[ [490,494[ [494,498[ [498,502[ [502,506[ [506,510[ [510,514[ [514,518[
De mediaan en het gemiddelde liggen beide in de modale klasse. Dit is een typisch kenmerk van een symmetrische verdeling.
In het histogram is de hoogte van elk van de rechthoeken gelijk aan de relatieve frequentie van de bijbehorende klasse. De totale oppervlakte van het histogram is hierdoor gelijk aan de klassenbreedte. x −500 1 ______ − __ 2 ( 8,24 ) 2
1 2 3
4
1 _ De kromme is de grafiek van de functie f (x) = ________ ? e 8,24 ? √ 2p Hierbij is e ≈ 2,718 het getal van Euler.
De relatieve frequentieverdeling kan benaderd worden door de oppervlakte te berekenen begrensd door de klokvormige grafiek, de x-as en de verticale rechten bepaald door de klassengrenzen.
5
98
.
HOOFDSTUK 4 I DE NORMALE VERDELING
4.2
De normale kansdichtheidsfunctie
4.2.1 Definitie Bij heel wat gegevens kan het histogram goed benaderd worden door een symmetrische, klokvormige curve. Omdat dergelijke verdelingen zo vaak voorkomen, worden deze gegevens ‘normaal verdeeld’ genoemd. Definitie
Normale kansdichtheidsfunctie − ( 2 1 De functie met voorschrift f (x) = ______ ______ ? e √ 2p ? s
2
x −m 1 ____ __ s )
noem je een normale kansdichtheidsfunctie,
aa
Het getal e is een irrationaal getal en is ongeveer gelijk aan 2,718.
4.2.2 Kenmerken van de grafiek
• De grafiek is klokvormig en symmetrisch ten opzichte van de rechte met vergelijking x = m. • De functie bereikt een maximum in x = m. • De grafiek bezit 2 buigpunten, namelijk als x = m - sen als x = m + s . (In een buigpunt maakt een kromme de overgang van hol naar bol of omgekeerd.) • De x-as is de horizontale asymptoot voor de grafiek.
μ–σ
x
μ+σ
ke x
μ
em
pl
y
r
met m het populatiegemiddelde en s de populatiestandaardafwijking.
4.2.3 Kansdichtheidsfunctie
In
kij
• D e functie f noem je een kansdichtheidsfunctie omdat je niet rechtstreeks vanuit het functievoorschrift kansen (geïdealiseerde relatieve frequenties) bepaalt, maar door de oppervlakte te berekenen tussen de grafiek, de x-as en 2 verticale rechten. • D e grafiek van de normale kansdichtheidsfunctie wordt ook de Gausscurve genaamd, naar de beroemde Duitse wiskundige Carl Friedrich Gauss. _ Het steekproefgemiddelde x en de steekproefstandaardafwijking s zijn respectievelijke benaderingen voor m en s .
y
0.04
0.03
0.02
0.01
x – s = 500 – 8,24 482
486
490
494
x
x + s = 500 + 8,24 498 502 x = 500
506
510
514
518
522
De geschiedenis van de normale verdeling vind je op diddit.
HOOFDSTUK 4 I DE NORMALE VERDELING
99
4.3
De normale verdeling met ICT
4.3.1 De normale verdeling met VisuStat
aa
r
VisuStat is ontwikkeld door de Katholieke Universiteit Brussel en is gratis te downloaden. Installeer de versie 2.0. VisuStat is een veelzijdig programma voor statistiek. Je kunt er onder andere • zelf steekproeven laten samenstellen (‘Beschrijvende Statistiek’); • het principe van de statistische stabiliteit bekijken (‘Het kansbegrip (empirisch)’); • met de binomiale verdeling werken (‘Discrete dichtheden’); • berekeningen maken in verband met de normale verdeling (‘Continue dichtheden’).
kij
ke x
em
pl
Je gebruikt het gemiddelde en de standaardafwijking van de pakjes koffie (§ 4.1). Let er wel op dat VisuStat werkt met de kommanotatie voor een decimaal getal, niet met de puntnotatie.
In
De tweede grafiek die je ziet is de cumulatieve kansverdeling, een idealisering van de cumulatieve relatieve frequentieverdeling. De mogelijkheden bij ‘Oppervlakteberekening’ spreken voor zich. Het resultaat van de berekening vind je links onderaan. Laat VisuStat de volgende oppervlaktes berekenen en vergelijk met de frequentietabel van § 4.1. oppervlakte
1
relatieve frequentie
tussen 490 en 494:
tussen 502 en 514:
links van 506:
rechts van 510:
totale oppervlakte onder de grafiek:
2 3
4 5
100
HOOFDSTUK 4 I DE NORMALE VERDELING
4.3.2 De normale verdeling met de grafische rekenmachine Je kunt de normale kansdichtheidsfunctie met gemiddelde 500 en standaardafwijking 8,24 tekenen met normalepdf(X, m, s ) (Normal probability density function). y=
link
EE
J
X,T,θ,n
L5
U catalog
catalog
0
5
,
[
Y
1
vars
2nd
[
L1
distr
stat plot f1
0
EE
J
P i
v
,
8
2
Τ
4
L entry solve
}
)
enter
r
Z L4
L2
:
.
L4
f4
Τ w
O L4
u
Q L4
4
Τ
4
Q catalog
9
0
entry solve
enter
entry solve
enter
em
pl
9
Τ w
4
7
trace
[
calc
2nd
aa
In het grafisch venster bereken je de oppervlakte tussen 490 en 494:
In het rekenvenster kun je gebruikmaken van de functie normalecdf(ondergrens, bovengrens, m, s ):
enter
U catalog
catalog
[
EE
0
J
EE
P i
v
L4
J
Τ w
4
,
5
0
0
,
8
:
.
Q L4
Z L4
L2
2
Τ
4
Τ
4
9
ke x
entry solve
L5
Q catalog
9 [
J
,
Τ w
4
2
vars
[
EE
Z L4
L2
distr
2nd
L
}
)
kij
Bereken de volgende oppervlaktes en vergelijk met de frequentietabel van § 4.1.
In
oppervlakte
relatieve frequentie
tussen 490 en 494:
tussen 502 en 514:
links van 506:
rechts van 510:
totale oppervlakte onder de grafiek:
Opmerking De grenzen –∞en +∞worden bij de TI84 vervangen door 99 99 • – 10 en 10 of • m - 5? s en m + 5? s .
HOOFDSTUK 4 I DE NORMALE VERDELING
101
4.4
Berekeningen met de normale verdeling
4.4.1 Voorbeeld 1 De tabel bevat gegevens over levend geboren eenlingen in Vlaanderen. geboortegewicht
gemiddelde (g)
standaardafwijking (g)
jongens
3 403
529,7
meisjes
3 275
507,8
aa
r
• H oeveel procent van de meisjes weegt tussen 2 500 en 3 500 gram? Het geboortegewicht is normaal verdeeld.
oplossing met TI84
ke x
em
pl
oplossing met VisuStat
• H oeveel procent van de jongens weegt meer dan 4 kg? oplossing met TI84
In
kij
oplossing met VisuStat
• H oeveel moet een jongen wegen om tot de zwaarste 10 % te behoren? oplossing met VisuStat
oplossing met TI84 Met de functie invNorm(procent, m, s) (
1
vars
L3
3
)
bereken je de bovengrens van de lichtste 90 %, dus de ondergrens van de zwaarste 10 %.
2 3
invNorm(0.90,3403,529.7) =
4 5
102
distr
2nd
HOOFDSTUK 4 I DE NORMALE VERDELING
• B ereken het eerste kwartiel voor de meisjes: oplossing met VisuStat
oplossing met TI84
Hoeveel procent van de jongens weegt minder dan deze waarde?
aa
r
• S ara woog bij haar geboorte 4 020 gram. Haar broer Joachim woog 4 170 gram. Wie woog relatief het zwaarst?
pl
ke x
4.4.2 Voorbeeld 2
em
In
kij
De dosis van een product nodig voor een algemene anesthesie (verdoving) is normaal verdeeld met gemiddelde 50 mg en standaardafwijking 10 mg. De letale dosis (dit is de dosis die de dood veroorzaakt) van dat product is eveneens normaal verdeeld. Het gemiddelde is 110 mg en de standaardafwijking 20 mg. Als een anesthesist een dosis zou gebruiken die in 90 % van de gevallen voldoende is om een patiënt te verdoven, hoeveel sterfgevallen zouden er dan zijn?
HOOFDSTUK 4 I DE NORMALE VERDELING
103
4.5
De standaardnormale verdeling
4.5.1 De standaardnormale kansdichtheidsfunctie Als je alle waarnemingsgetallen x i vervangt door hun standaardscore z i , dan verkrijg je de functie 1 f (z) = ____ ___ ? e √ 2p
1 z 2 − __ 2
. y
• D e grafiek is symmetrisch ten opzichte van de rechte z = 0. • D e functie bereikt een maximum in z = 0 (het gemiddelde van de standaardscores is 0). • D e grafiek bezit 2 buigpunten, namelijk als z = –1 en als z = 1. (de standaardafwijking van de z-scores is 1). • D e x-as is de horizontale asymptoot voor de grafiek.
0.4
0.3
r
0.2
aa
0.1
z –2
–1
1
2
3
pl
–3
4.5.2 De emperical rule
em
Met behulp van de standaardnormale verdeling ga je na hoeveel procent van de normaal verdeelde gegevens hoogstens 1 keer, 2 keer of 3 keer de standaardafwijking afwijkt van het gemiddelde. met VisuStat
met TI84
In
kij
ke x
Je vinkt de standaardnormale verdeling aan en berekent de oppervlakte tussen –1 en 1, –2 en 2, –3 en 3.
Besluit
Bij een normale verdeling ligt ongeveer 68 % in [m - s, m + s], 95 % in [m - 2 ? s, m + 2 ? s] en 99,7 % in [m – 3 ? s, m + 3? s] . y
1
y
0.4
y
0.4
0.4
2 3
4
68 %
95 %
16 %
5
104
–3
–2
16 % –1
HOOFDSTUK 4 I DE NORMALE VERDELING
1
z 2
3
99,7 %
2,5 % –3
2,5 % –2
–1
1
2
3
z
z –3
–2
–1
1
2
3
4.5.3 Gebruik van de standaardnormale verdeling Voorbeeld 1 Intelligentie is een van de meest onderzochte begrippen in de wetenschappelijke psychologie. Het intelligentiequotiënt (IQ) heeft vooral betrekking op aanleg tot goed kunnen redeneren, logisch denken en ruimtelijk inzicht. De gemiddelde IQ-score is 100 en de standaardafwijking 15.
IQ
betekenis
procent van de bevolking
aa
standaardscore
r
Vul de tabel aan.
uitzonderlijk laag: zwakbegaafd
–2 < z < –1
laag: onintelligent
–1 < z < 1
normaal begaafd
1<z<2
hoog: intelligent
z>2
uitzonderlijk hoog: hoogbegaafd
em
Voorbeeld 2
pl
z < –2
Uit het onderzoek blijkt dat • de helft van de koolwitjes minstens 5,25 cm spanwijdte heeft; • een kwart hoogstens 4,65 cm spanwijdte heeft. Je mag ervan uitgaan dat de spanwijdte van de vleugels normaal verdeeld is. Bepaal het gemiddelde en de standaardafwijking.
In
kij
ke x
Een bioloog heeft van 300 koolwitjes de spanwijdte van de vleugels gemeten.
• Bij een normale verdeling is de mediaan gelijk aan het gemiddelde ⇒ m = 5,25.
• De standaardafwijking bereken je uit de standaardscore.
Met de standaardnormale dichtheidsfunctie bepaal je dat voor een kwart
van de gegevens geldt dat z ⩽ −0,674 5.
x − m s
4,65 − 5,25 s
____ ⩽ −0,674 5 ⇔ ________ ⩽ − 0,674 5
− 0,60 –0,60 _____ s ⩽ −0,674 5 ⇔ s = _______ = 0,890 −0,674 5
Besluit: Het gemiddelde is 5,25 cm en de standaardafwijking 0,890 cm. Opmerking
Met de TI84 kun je de standaardafwijking ook vinden door in Solver de vergelijking 0 = normalecdf(0,4.65,5.25,X)-0.25 of 0= invNorm(0.25,5.25,X)-4.65 te laten oplossen
HOOFDSTUK 4 I DE NORMALE VERDELING
105
4.6
Niet alle gegevens zijn normaal verdeeld Van sommige gegevens is algemeen geweten dat ze normaal verdeeld zijn. Veel natuurlijke kenmerken (de lengte van een mens, het intelligentiequotiënt, het gewicht van eieren, ...) kunnen beschreven worden met de normale verdeling. De theorie van de meetfouten bij laboratoriumonderzoek of automatisering steunt op de normale verdeling. In veel andere gevallen echter kan de normale verdeling niet toegepast worden.
4.6.1 Scheve verdelingen Voorbeeld 1
aa
r
Uit een loonenquête van 2018 naar het maandelijks bruto-inkomen bij 95 000 werknemers, verkrijgt men de volgende verdeling in loonklassen. Het gemiddelde is 3 489 euro en de standaardafwijking 1 262,99 euro.
24.7 %
18.8 %
17.2 % 15.0 %
5.0 %
em
20.0 %
ke x
percentage van werknemers
25.0 %
10.0 %
pl
30.0 %
11.3 %
7.7 %
3.7 %
2.8 %
kij
5.8 %
5.4 % 2.6 %
>6 00 0
[5 50 0,
60 00 [
55 00 [ [5 00 0,
[4 50 0, 50 00 [
[4 00 0, 45 00 [
[3 50 0,
40 00 [
35 00 [ [3 00 0,
[2 50 0,
30 00 [
25 00 [
[2 00 0,
In
[1 50 0,
20 00 [
0.0 %
maandelijks bruto inkomen
In de volgende figuur is geen rekening gehouden met de lonen boven 6 000 euro. y
werkelijke verdeling
normale verdeling
1 2 3
x 3 489
4 5
106
HOOFDSTUK 4 I DE NORMALE VERDELING
De figuur toont duidelijk dat een normale verdeling niet op zijn plaats is. Bij de verdeling van de inkomens ligt de maximale waarde links van het centrum en is er een ‘staart’ naar rechts, waardoor het gemiddelde rechts van het midden ligt. Je noemt deze verdeling daarom rechtsscheef. Bij een rechtsscheve verdeling geldt dus: Mo < Me < m.
Voorbeeld 2 In 2018 bedroeg de gemiddelde leeftijd waarop een Belgische vrouw stierf 83,5 jaar. De standaardafwijking was 13,55 jaar. Je ziet de normale kansdichtheidsfunctie met m = 83,5 en s = 13,55 en daarnaast een histogram voor de relatieve frequentieverdeling van de leeftijd waarop vrouwen overleden zijn in 2018.
De normale dichtheidsfunctie 80.00 % 69.64 %
50.00 % 40.00 %
r
30.00 %
22.42 %
4.11 %
30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 105 110 115 120 125 130 135
0 10 >
0[ 10 0,
60
0,
[4
40
[2
0,
0[
,2
[0
pl
0
2.58 %
[
0.74 %
[8
0.52 %
[
0.00 %
[6
10.00 %
[
0,01
80
20.00 %
aa
0,02
60.00 %
0,
aantal vrouwen in procent
70.00 %
leeftijd van overlijden
In
kij
ke x
em
Bij de verdeling van de levensverwachting ligt de maximale waarde rechts van het centrum en is er een ‘staart’ naar links, waardoor het gemiddelde links van het midden ligt. De verdeling is linksscheef. Bij een linksscheve verdeling geldt: m < Me < Mo. Bereken, door lineaire interpolatie, de mediaan en controleer de ligging ten opzichte van het gemiddelde.
HOOFDSTUK 4 I DE NORMALE VERDELING
107
4.6.2 Symmetrische verdelingen die niet normaal verdeeld zijn In het verkeer is de reactietijd de tijd die verloopt tussen het zien van een gevaar en het ogenblik dat het rempedaal wordt ingedrukt. De reactietijd is afhankelijk van verschillende factoren: leeftijd, vermoeidheid, alcoholverbruik, de positie van het gevaar ten opzichte van het gezichtsveld, ... In een experiment werd de reactietijd, in honderdsten van een seconde, gemeten van 70 mannelijke chauffeurs van 25 jaar, bij een identieke vooropgestelde situatie. Je ziet de resultaten in het histogram.
49 %
50 %
30 %
20 %
12 % 10 % 1% [72, 74[
2%
3%
[74, 76[
[76, 78[
13 %
7%
[78, 80[
[80, 82[
[82, 84[
em
0%
7%
aa
r
40 %
pl
aantal chauffeurs in procent
60 %
[84, 86[
[86, 88[
4%
[88, 90[
1%
1%
[90, 92[
[92, 94[
reactietijd in honderdsten seconden
s=
ke x
Het histogram toont een bijna perfecte symmetrische verdeling. • B ereken het gemiddelde en de standaardafwijking. _ x = _ • T eken de grafiek van de normale kansdichtheidsfunctie met m = x en s = s. Je ziet:
kij
In
• V ul de tabel in. Gebruik lineaire interpolatie.
2
[m − 3 ? s, m + 3 ? s ] =
Besluit:
3
4
Paragraaf 4.7 (Opdrachten: deel 4) vind je op diddit.
5
108
aantal gegevens volgens de steekproef
[m − s, m + s ] =
[m − 2 ? s, m + 2 ? s ] = 1
aantal gegevens volgens de emperical rule
interval
HOOFDSTUK 4 I DE NORMALE VERDELING
Oefeningen REEKS A 1
Niet alle euromunten hebben exact dezelfde diameter. De diameter van de munten van 1 euro is normaal verdeeld met een gemiddelde van 23,25 mm en een standaardafwijking 0,10 mm. a) Hoeveel procent heeft een diameter die meer dan 23,40 mm is?
b) Van hoeveel procent ligt de diameter tussen 23,20 en 23,30 mm?
De leeftijd waarop een kind voor het eerst alleen kan lopen is gemiddeld 12,5 maanden met een standaardafwijking van 1,8 maanden. Je mag aannemen dat die leeftijd normaal verdeeld is.
pl
2
aa
r
c) Bereken hoe groot de 25 % grootste munten minstens zijn.
a) Wat is de kans dat een kind al loopt als het 11 maanden is?
em
b) Hoeveel procent van de kinderen loopt pas na de leeftijd van 15 maanden?
ke x
c) Bij hoeveel procent worden de eerste pasjes gezet tussen de 12 en 13 maanden?
d) Ouders beweren dat hun kind bij de 5 % vroegste lopers was. Hoe oud was het toen het begon te lopen?
kij
De Jonagold is een populaire appel. Het gewicht van de Jonagold is normaal verdeeld met een gemiddelde van 194 gram en een standaardafwijking van 29,5 gram. Na de pluk begin oktober worden op de veiling te veel appels aangevoerd. Om de prijs niet te laten instorten besluit men de 25 % lichtste appels niet op de markt te brengen.
In
3
a) Hoeveel moet een Jonagold wegen om op de markt te komen?
b) Wat is de kans dat je een Jonagold koopt die meer dan 220 g weegt?
c) Hoeveel moet een appel minstens wegen om tot de 20 % zwaarste appels te behoren? d) Hoeveel procent van de appels is ‘uitzonderlijk zwaar’? Vanaf welk gewicht mag je spreken van een uitzonderlijk zware appel?
HOOFDSTUK 4 I DE NORMALE VERDELING
109
REEKS B 4
Een automaat voor warme drank is zo ingesteld dat de bekertjes met gemiddeld 9,8 cl drank worden gevuld. De standaardafwijking is 0,7 cl. a) De bekertjes kunnen maximaal 11 cl drank bevatten.
Van hoeveel procent van de bekertjes mag je verwachten dat ze overlopen?
b) Bereken, zonder ICT, hoeveel procent van de bekertjes minder dan 9,1 cl bevat.
c) Je hebt één kans op vijf dat de bekertjes meer dan cl bevatten.
r
De lengte van de Amerikaanse man is gemiddeld 177,8 cm en de standaardafwijking 6,18 cm. De Belgische man wordt gemiddeld 181,7 cm groot met een standaardafwijking van 7,05 cm. Een Amerikaanse firma bouwt een wagen die groot genoeg is voor 99 % van de Amerikaanse mannen. Voor hoeveel procent van de Belgische mannen is die wagen te klein?
aa
5
em
pl
Een bedrijf maakt bouten en bijpassende moeren. De diameter van de bouten is normaal verdeeld met gemiddelde 2,0 mm en standaardafwijking 0,12 mm. Voor de diameter van de moeren is het gemiddelde 2,2 mm en de standaardafwijking 0,09 mm. De 10 % kleinste moeren worden niet in de handel gebracht. Welk deel van de bouten kan daardoor ook niet verkocht worden?
In
kij
6
ke x
7
Het gemiddelde IQ in België is 100. De standaardafwijking is 15. De gemiddelde Nederlander scoort 102 met een standaardafwijking van 17. a) Wat is het IQ dat je in België moet hebben om tot de 5 % meest intelligente mensen te behoren?
1
2 3
b) Hoeveel procent van de Nederlanders heeft een IQ dat hoger is?
4
5
110
HOOFDSTUK 4 I DE NORMALE VERDELING
8
Je ziet de grafiek van de normale kansdichtheidsfunctie met m = 10 en s= 2 (grafiek 1). Geef de waarden van m en svoor de andere kansdichtheidsfuncties. y
0,4
0,3
aa
r
0,2
–1
1
2
m =
4
5
6
7
ke x
grafiek 2
3
em
pl
0,1
s =
kij s =
10
11
12
13
14
s =
s =
16
17
18
19
grafiek 4
m =
grafiek 6
m =
15
s =
grafiek 7
m =
s =
In
9
grafiek 3
m =
grafiek 5
m =
8
x
9
De inhoud van automatisch gevulde melkflessen is normaal verdeeld rond de inhoud waarop de machine wordt ingesteld. De standaardafwijking is 1,5 cl. Men wenst dat 75%van de flessen minstens 100 cl bevat. Op welke inhoud moet de vulmachine worden ingesteld?
HOOFDSTUK 4 I DE NORMALE VERDELING
111
10
De lengte van jonge sparren is normaal verdeeld met een gemiddelde van 25 cm. Van de boompjes is 5 % korter dan 20 cm. a) Hoeveel procent is naar verwachting langer dan 30 cm?
b) Bereken de standaardafwijking van de verdeling.
r
Op pakjes margarine staat meestal 250gr ℮. Dit betekent dat, volgens de Europese norm, niet meer dan 5%van die pakjes minder dan 250 gram mag bevatten. Het gewicht van pakjes margarine van het merk Marga is normaal verdeeld met een standaardafwijking van 6,5 gram.
aa
11
em
pl
a) Bereken het gemiddelde gewicht zodat precies voldaan wordt aan de Europese norm.
kij
ke x
b) De pakjes margarine van de firma Rine hebben een gemiddeld gewicht van 256 gram. Bereken de standaardafwijking om aan de Europese norm te voldoen.
De levensduur, in jaren, van koffiezetapparaten is normaal verdeeld. Bepaal het gemiddelde en de standaardafwijking uit de boxplot.
In
12
1
2 3
4
5
112
HOOFDSTUK 4 I DE NORMALE VERDELING
1.5
4.2
5.3
6.4
9.1
klasse
f i
[5 300, 5 900[
6,25 %
[5 900, 6 500[
8,75 %
[6 500, 7 100[
10,00 %
[7 100, 7 700[
12,50 %
[7 700, 8 300[
30,00 %
[8 300, 8 900[
16,25 %
[8 900, 9 500[
10,00 %
[9 500, 10 100[
6,25 %
aa
r
pl
De tabel geeft de verdeling van de bevolking in België op 1 januari 2019. Ga na of de leeftijd van de Belgische bevolking normaal verdeeld is. Maak hiervoor gebruik van de statistische kentallen die je in hoofdstuk 3 hebt berekend. leeftijd
aantal
[0, 10[
1 278 302
[10, 20[
1 283 577
[20, 30[
1 410 058
[30, 40[
1 482 964
[40 ,50[
1 508 894
[50, 60[
1 592 883
[60, 70[
1 324 928
[70, 80[
902 812
[80, 90[
534 651
[90, 100[
112 337
• L igging van de centrummaten:
• E mperical rule:
interval
freq. tabel
[m − s, m + s ] =
[m − 3 ? s, m + 3 ? s ] =
[m − 2 ? s, m + 2 ? s ] =
E.R.
In
kij
ke x
14
In een school wordt een steekproef gedaan bij 80 leerlingen van de derde graad. Hun boekentas wordt gewogen op 10 gram nauwkeurig. Controleer of het gewicht van de boekentassen normaal verdeeld is. Maak hiervoor gebruik van de statistische kentallen die je in hoofdstuk 3 hebt berekend.
em
13
15
Onderzoek of de procentuele jaartotalen voor het vak wiskunde van de 114 leerlingen die vorig jaar aan onze school afstudeerden, voldoen aan de normale verdeling. Maak hiervoor gebruik van de frequentietabel van hoofdstuk 2, oefening 9.
HOOFDSTUK 4 I DE NORMALE VERDELING
113
REEKS C 16
De labrador retriever is een gezinshond. De schofthoogte (de afstand van de grond tot het hoogste punt van het schouderblad) voor de reu (het mannetje) is normaal verdeeld. Bereken het gemiddelde en de standaardafwijking als je weet dat 20 % een schofthoogte heeft die kleiner is dan 55,7 cm en 10 % hoger is dan 61,5 cm.
aa
De kust is de droogste streek van België. Sinds het begin van de waarnemingen, in 1833, kende een kwart van de jaren hoogstens 750 mm neerslag en viel er slechts in 1 op de 20 jaren meer dan 870 mm neerslag. Als je ervan uitgaat dat de jaarlijkse hoeveelheid neerslag, in mm, normaal verdeeld is, bereken dan het gemiddelde en de standaardafwijking.
em
pl
17
r
ke x
kij
De tabel toont de levensduur, in uren, van 225 beamerlampen. Ga na of de gegevens voldoen aan de normale verdeling.
In
18
levensduur
n i
[1 000, 1 500[
18
[1 500, 2 000[
21
[2 000, 2 500[
25
[2 500, 3 000[
34
[3 000, 3 500[
57
1
[3 500, 4 000[
27
2
[4 000, 4 500[
19
3
[4 500, 5 000[
15
4
[5 000, 5 500[
9
5
114
HOOFDSTUK 4 I DE NORMALE VERDELING
Als de veranderlijken X en Y normaal verdeeld zijn met respectievelijke gemiddelden m X en m Y ______ en standaardafwijkingen s X en s Y , dan is ook X ± Y normaal verdeeld. Het gemiddelde van de verdeling is dan m X ± m Y en de standaardafwijking √ s 2X + s 2Y Deze eigenschap is enkel geldig als X en Y onafhankelijke veranderlijken zijn.
19
In een fabriek moet een werknemer in een periode van maximaal 5 minuten 2 onafhankelijke fasen van een productieproces afhandelen. Voor beide fasen is de afhandelingstijd normaal verdeeld met een gemiddelde van 135 seconden en een standaardafwijking van 12 seconden. Bereken de kans dat de werknemer niet aan de eis van 5 minuten zal voldoen.
r
aa
Een bedrijf maakt bouten en bijpassende moeren. De diameter van de bouten is normaal verdeeld met gemiddelde 2,0 mm en standaardafwijking 0,12 mm. Voor de diameter van de moeren is het gemiddelde 2,2 mm en de standaardafwijking 0,09 mm. Er wordt een willekeurige bout en een willekeurige moer genomen. Bereken de kans dat de moer op de bout past.
em
20
pl
In
kij
ke x
HOOFDSTUK 4 I DE NORMALE VERDELING
115
STUDIEWIJZER De normale verdeling 4.2 De normale kansdichtheidsfunctie KENNEN De grafiek van de normale kansdichtheidsfunctie is klokvormig en symmetrisch ten opzichte van de rechte met vergelijking x = m. De functie bereikt een maximum in x = m. De grafiek bezit 2 buigpunten, namelijk als x = m – s en als x = m + s . De x-as is horizontale asymptoot voor de grafiek. De parameter m is het populatiegemiddelde en s is de populatiestandaardafwijking.
4.4 Berekeningen met de normale verdeling KENNEN
aa
r
ICT gebruiken om vraagstukken op te lossen met behulp van de normale kansdichtheidsfunctie.
4.5 De standaardnormale verdeling
KENNEN
pl
x − m Als je in het voorschrift van de normale kansdichtheidsfunctie de substitutie z = ____ s (standaardscore van x) uitvoert, dan verkrijg je de standaardnormale verdeling.
em
De grafiek van de standaardnormale kansdichtheidsfunctie is klokvormig en symmetrisch ten opzichte van de rechte met vergelijking z = 0. De functie bereikt een maximum in z = 0. De grafiek bezit 2 buigpunten, namelijk als z = –1 en als z = 1. De x-as is horizontale asymptoot voor de grafiek.
ke x
Bij een normale verdeling ligt ongeveer 68 % van de gegevens in het interval [m − s, m + s ] , 95 % in het interval [m − 2 ? s, m + 2 ? s ] en 99,7 % in het interval [m − 3 ? s, m + 3 ? s ]
KUNNEN
De standaardnormale verdeling gebruiken in vraagstukken waarbij de onafhankelijkheid ten opzichte van de meeteenheden noodzakelijk is.
kij
4.6 Niet alle gegevens zijn normaal verdeeld KENNEN
In
Bij een rechtsscheve verdeling geldt: Mo < Me < m. Bij een linksscheve verdeling geldt: m < Me < Mo.
KUNNEN
Nagaan of een rij gegevens benaderd kan worden met behulp van een normale kansdichtheidsfunctie.
CONTRACTWERK 1 2 3
4 5
116
HOOFDSTUK 4 I DE NORMALE VERDELING
HOOFDSTUK 5 I REGRESSIE
118
5.2 Puntenwolk en regressielijn
118
5.3 Covariantie
120
5.4 De correlatiecoëfficiënt
123
5.5 De regressierechte
126
aa
r
5.1 Inleiding
5.6 De determinatiecoëfficiënt
128
5.7 Opdrachten: deel 5 128 136
In
kij
ke x
em
pl
Studiewijzer
HOOFDSTUK 5 I REGRESSIE
117
5.1
Inleiding Olijven helpen tegen veroudering
wiskunde & muziek
Puntenwolk en regressielijn
5.2.1 Lawaaihinder
em
5.2
pl
aa
r
Tot nu toe onderzocht je telkens 1 statistische variabele. Je deed aan eendimensionale statistiek. Je kunt ook meerdere soorten gegevens inwinnen, het verband ertussen bepalen en de sterkte van dat verband berekenen. In dat geval spreek je van meerdimensionale statistiek. In de tweedimensionale statistiek behandel je mogelijke verbanden tussen 2 veranderlijken. Regressie is een techniek om naar de mogelijke samenhang tussen een afhankelijke veranderlijke (y) en een onafhankelijke veranderlijke (x) te zoeken. Met andere woorden, je zoekt een functievoorschrift y = f (x). Je maakte er al eerder kennis mee in de leerwerkschriften over reële functies. In dit hoofdstuk zoek je vooral een eerstegraadsverband tussen y en x (lineaire regressie) en zoek je naar een kengetal voor de sterkte van dat verband.
kij
ke x
In een stad wordt een zomerfestival gehouden. Er zijn nogal wat klachten over lawaaihinder. De politie heeft die gesorteerd naar tijdstip, afstand tot de festivalweide en leeftijd van diegene die de klacht heeft ingediend. De resultaten zie je in de tabel. aantal klachten
afstand in m
aantal klachten
leeftijd in jaren
aantal klachten
13
2
500
28
5
0
14
2
1 000
18
10
1
15
4
1 500
17
15
2
16
10
2 000
23
20
3
17
9
2 500
12
25
5
18
13
3 000
6
30
8
19
10
3 500
13
35
8
20
17
4 000
2
40
12
21
15
4 500
10
45
17
22
19
5 000
7
50
23
23
17
5 500
4
55
28
24
24
6 000
2
60
35
In
tijdstip in h
1 2 3 4
5
118
HOOFDSTUK 5 I REGRESSIE
5.2.2 Puntenwolk en regressielijn • S tel de 3 tabellen grafisch voor door middel van een puntenwolk.
em
De oplossing met Excel vind je op diddit.
pl
aa
r
• B epaal telkens de best passende regressielijn.
5.2.3 Bespreking van de resultaten • V ul het verloop aan.
ke x
tijdstip
aantal klachten
afstand
leeftijd
kij
• D e best passende regressielijn voor de puntenwolken in verband met het aantal klachten in functie van het uur en in functie van de afstand tot de festivalplaats, is telkens een rechte. In het eerste geval liggen de punten wel ‘gemiddeld’ dichter bij de regressierechte dan in het tweede geval. • H et verband tussen het aantal klachten en de leeftijd is niet lineair, maar kwadratisch.
In
• V eronderstel dat het festival na middernacht nog doorgaat, hoeveel klachten zouden er zijn om 1 uur?
• H oeveel klachten komen er van op een afstand van 4 800 meter? • B epaal het aantal klachten van 70-jarigen: • G eef de betekenis van de richtingscoëfficiënt bij de lineaire regressielijnen.
• O p welke leeftijd zouden er volgens de kwadratische regressielijn het minst klachten zijn?
HOOFDSTUK 5 I REGRESSIE
119
5.3
Covariantie
5.3.1 Begripsvorming
Het verband is negatief als een stijgende waarde van de onafhankelijke veranderlijke in de meeste gevallen overeenkomt met een dalende waarde van de afhankelijke veranderlijke.
em
pl
Het verband is positief als een stijgende waarde van de onafhankelijke veranderlijke in de meeste gevallen overeenkomt met een stijgende waarde van de afhankelijke veranderlijke.
aa
r
Een puntenwolk is een grafische voorstelling van puntenkoppels (x, y).
kij
ke x
De regressielijn van een puntenwolk is de grafiek die zo goed mogelijk past bij de puntenkoppels.
In
Het verband noem je sterk als de punten, over het algemeen, vrij dicht bij de regressielijn liggen. Als de punten vrij ver van de regressielijn verwijderd liggen, spreek je van een zwak verband.
In de volgende paragrafen leer je een betekenis geven aan de formulering ‘zo goed mogelijk passen’ en ga je op zoek naar maatgetallen om de sterkte van het verband tussen 2 veranderlijken uit te drukken.
Het begrip regressie werd voor het eerst gebruikt door de Britse statisticus Sir Francis Galton, die ook bekend is door zijn werk over de normale verdeling en de betekenis van de standaardafwijking. Galton vond het vreemd dat de spreiding van de kenmerken van een mens (lengte, gewicht, IQ, ...) niet blijven toenemen. Je zou immers kunnen vermoeden dat er steeds grotere en steeds kleinere, steeds dommere en steeds slimmere mensen zullen zijn. Dit is echter niet zo: vaders die heel groot zijn krijgen meestal kinderen die iets kleiner zijn, ... Dit fenomeen noemde Galton ‘regressie (terugkeer) naar het gemiddelde’.
1 2 3 4
5
120
HOOFDSTUK 5 I REGRESSIE
5.3.2 Zwaartepunt van een tweedimensionale verdeling Beschouw een rij met n gegeven koppels (x i , y i) _ _ en stel dat x het gemiddelde is van de x-waarden en y het gemiddelde van de y-waarden. Zwaartepunt van een tweedimensionale verdeling _ _ Het punt ( x , y ) noem je het zwaartepunt van een tweedimensionale verdeling.
Definitie
5.3.3 Covariantie I
y
_ x i – x
kwadrant IV
I II
x x
III
+
+
em
IV
+
_ _ (x i – x ) ? (y i – y )
pl
III
_ y i – y
aa
II
r
_ _ De rechten met vergelijking x = x en y = y verdelen het vlak van de puntenwolk in 4 kwadranten. Voor elk kwadrant ga je het teken na van de afwijkingen van de x- en de y-waarden ten opzichte van hun gemiddelde.
y
n _ _ ) ⋅ ( y i – y ) berekent, stel je vast dat als Als je daarna ∑ ( x i – x i = 1
ke x
de som positief is, er meer punten van de wolk in I en III liggen dan in II en IV. Bij stijgende waarden van x behoren, globaal gezien, stijgende waarden van y.
y
In
kij
y
de som negatief is, er meer punten van de wolk in II en IV liggen dan in I en III. Bij stijgende waarden van x behoren, globaal gezien, dalende waarden van y.
Definitie
x
x
Covariantie De covariantie van een tweedimensionale tabel met n waargenomen koppels (x i , y i), n _ _ ) ⋅ ( y i – y ) ∑ ( x i – x i = 1 is het getal s xy = _________________ n – 1 De covariantie is de gecorrigeerde gemiddelde waarde van het product van de afwijkingen van de x- en de y-waarden ten opzichte van hun gemiddelde.
HOOFDSTUK 5 I REGRESSIE
121
5.3.4 Voorbeelden Psychologische test Een psycholoog beweert een test ontworpen te hebben die de ‘aanleg tot statistiek’ van individuen kan bepalen. Een leerkracht wiskunde wil nagaan of deze test klopt.
leerling punten T 1 punten T 2 45
75
3
35
60
4
20
50
5
40
80
6
35
75
7
30
70
8
30
75
9
25
55
10
20
40
11
40
75
12
25
60
13
20
60
14
25
50
15
30
55
Hij neemt daarom bij 15 leerlingen, zonder voorkennis statistiek, de psychologische test af, laat hen daarna gedurende 5 uur een stukje van de cursus statistiek instuderen, en neemt dan hierover een test af. De leerkracht wil nu nagaan in welke mate de punten op de test van de psycholoog, de punten op zijn test kunnen voorspellen. De punten, op 50, behaald op de psychologische test zijn de punten T 1. De punten, op 100, behaald op de statistiektest zijn de punten T 2.
r
2
aa
65
pl
30
em
1
ke x
Teken de bijbehorende puntenwolk en bereken de covariantie. Met Excel
Met de grafische rekenmachine
In
kij
Stel de lijsten PSYC1 en PSYC2 voor door een puntenwolk.
Voer het programma COVAR2 uit.
Geluidsoverlast bij een zomerfestival 1 2
tabel
covariantie
verband
Geeft de covariantie ons enige informatie over de sterkte van het verband? Waarom (niet)?
3
I
4
II
III
5
122
HOOFDSTUK 5 I REGRESSIE
5.4
De correlatiecoëfficiënt
5.4.1 Inleiding Neem het verband tussen de psychologische test en de punten behaald op de test van de wiskundeleraar. De covariantie is s xy = 73,21. Stel dat je de punten voor de statistiektest op 50 quoteert in plaats van op 100. Dan worden alle gegevens y i door 2 gedeeld. _ _ Ook het rekenkundig gemiddelde y wordt dan gedeeld door 2 en dus ook de factoren y i – y in de formule voor de covariantie. De covariantie wordt dus gedeeld door 2.
r
Besluit: De covariantie is gevoelig voor een wijziging van de meeteenheid.
aa
5.4.2 De correlatiecoëfficiënt
Correlatiecoëfficiënt
em
Definitie
pl
De afhankelijkheid van de meeteenheid kun je oplossen door de gegevens te standaardiseren, met andere woorden door ze te vervangen door hun standaardscores.
ke x
De correlatiecoëfficiënt van een tabel met n waargenomen koppels (x i , y i) , _ _ n x i – x y i – y ______ ______ 1 _____ ⋅ . is het getal r = ⋅ ∑ ( s s ) ( ) n – 1 i = 1 x y
Verband tussen de correlatiecoëfficiënt en de covariantie
In
kij
s xy r = _ s x ⋅ s y
Er zijn meerdere definities van het begrip correlatie. De definitie die je hebt gezien is die van de Engelse statisticus Karl Pearson (1857-1936). Karl Pearson doceerde vanaf 1894 als een van de eersten statistiek. Zijn belangrijkste bijdragen aan de statistiek: • H ij ontwikkelde een formule voor de correlatiecoëfficiënt. • P earson onderzocht de frequentieverdelingen die nu zijn naam dragen. • O m te beoordelen uit welke verdeling data getrokken zijn, ontwikkelde hij een chi-kwadraattoets (‘goodness of fit’) en de momentenmethode.
Dat Pearson in de wieg gelegd was om statisticus te worden kan worden geïllustreerd met het volgende verhaal. Toen hij nog een klein jongetje was, vertelde men hem dat hij moest stoppen met zuigen op zijn duim, omdat die anders steeds kleiner zou worden. Hij vergeleek toen de lengte van zijn ene duim met die van de andere en besloot dat hij werd voorgelogen. Hij hield zich - naast wiskunde, natuurkunde en sterrenkunde - ook bezig met religie, filosofie, geschiedenis, recht, politiek, biologie en evolutieleer. Zijn zoon Egon Pearson werd later ook statisticus. Hij ontwikkelde samen met Jerzy Neyman (rond 1930) de naar hen genoemde en ondertussen beroemde toetsingstheorie.
HOOFDSTUK 5 I REGRESSIE
123
5.4.3 Betekenis van de correlatiecoëfficiënt bij een lineair verband De correlatiecoëfficiënt is een getal tussen –1 en 1. 0 < | r | < 0,3
geen enkel verband
zeer zwak verband
aa
r
| r | = 0
0,5 ⩽ | r | < 0,7
em
pl
0,3 ⩽ | r | < 0,5
ke x
zwak verband
0,85 ⩽ | r | < 0,95
In
kij
0,7 ⩽ | r | < 0,85
matig verband
sterk verband
zeer sterk verband
0,95 ⩽ | r | < 1
| r | = 1
uitzonderlijk sterk verband
perfecte correlatie
1 2 3 4
5
124
HOOFDSTUK 5 I REGRESSIE
5.4.4 Voorbeelden Psychologische test Wat is de correlatie tussen de punten voor de psychologische test en de punten voor de statistiektest? Met Excel
Met de grafische rekenmachine De correlatiecoëfficiënt wordt berekend telkens een lineaire regressie L4
list
Τ
4
( ) uitgevoerd wordt. Wil je die ook op het scherm zien, dan zorg je dat de functie Stat Diagnostiek Aan geactiveerd is. stat
entry solve
quit
5
enter
.
r
mode
em
pl
aa
Druk
ke x
De correlatiecoëfficiënt is , er is dus een
correlatie.
Geluidsoverlast bij een zomerfestival
correlatie
verband
I
II
In
kij
tabel
III
5.4.5 Opmerkingen • D e correlatiecoëfficiënt is een maat voor de invloed van de onafhankelijke veranderlijke x op de afhankelijke veranderlijke y, die door een lineair verband wordt weergegeven. Je spreekt in dit geval over regressie van y op x. • E en wiskundeleerkracht stelt vast dat leerlingen die regelmatig gamen beter presteren op het examen. Er is dus een positief verband tussen beide veranderlijken. Volgt hieruit dat de leerlingen beter presteren omdat ze gamen? Wellicht niet. Het feit dat er een verband bestaat tussen 2 veranderlijken wil nog niet zeggen dat de ene veranderlijke de andere veroorzaakt.
HOOFDSTUK 5 I REGRESSIE
125
5.5
De regressierechte
5.5.1 De methode van de kleinste kwadraten Stel dat de rechte die de regressie van y op x uitdrukt, als vergelijking y = ax + b heeft. Hierbij noem je y de afhankelijke of verklaarde veranderlijke en x de onafhankelijke of verklarende veranderlijke. Bij elke x i hoort een waargenomen y-waarde y i en een voorspelde y-waarde y i . Het verschil tussen de waargenomen en de voorspelde y-waarde noem je het residu e i = y i – y i .
y
voorspelde waarde residu waargenomen waarde
∧
x
∧
aa
r
Na het uitvoeren van een regressie zijn de residu’s terug te vinden in de lijst RESIDU.8xl en kunnen ze ook met een statistische plot voorgesteld worden.
ke x
em
pl
Als de regressierechte ‘goed past’ moeten de residu’s zo dicht mogelijk bij 0 liggen. Maar wat versta je onder ‘best passend’? Je zoekt de rechte waarbij ‘gemiddeld’ de punten van de puntenwolk zo dicht mogelijk bij deze rechte liggen, met andere woorden waarvoor de som van de ‘verticale afwijkingen’ tot de rechte zo klein mogelijk is. Omdat er zowel punten boven als onder de rechte liggen, hebben de afwijkingen verschillende tekens die elkaar neutraliseren als je er de som van berekent. Daarom wordt algemeen met het kwadraat van de verticale afwijkingen gewerkt. De best passende rechte is dan die rechte waarvoor de som van de kwadraten van de verticale afwijkingen minimaal is. Deze methode noem je daarom de methode van de kleinste kwadraten. De coëfficiënten a en b van de vergelijking y = ax + b worden zo bepaald dat de som van n
2
de kwadraten van de residuen ∑ e i minimaal is. i = 1
kij
Men kan bewijzen dat a en b dan aan de volgende formules voldoen.
s xy _ _ De rechte met vergelijking y = ax + b is de best passende regressierechte als a = ____ 2 en b = y – a ⋅ x . s x
In
Formule
__ De regressierechte bevat het zwaartepunt ( , x ) y van de tweedimensionale verdeling.
Als een dataset van metingen gegeven is, hoe vind je dan een ‘gemiddelde kromme (of baan)’ die de gemeten waarden zo goed mogelijk weergeeft? Laplace stelde in 1799 voor de som van de absolute waarden van de fouten te minimaliseren. Gauss stelde echter, in 1801, voor de som van de kwadraten van de fouten te minimaliseren. Door gebruik te maken van deze methode boekte Gauss succes in het berekenen van de baan van de planetoïde Ceres met een voldoende nauwkeurigheid, zodat ze opnieuw kon gelokaliseerd worden nadat ze voor meer dan een jaar onvindbaar was na haar ontdekking door de astronoom G. Piazzi van Palermo.
1 2 3 4
5
126
HOOFDSTUK 5 I REGRESSIE
5.5.2 De psychologische test Bepaal de vergelijking van de best passende regressierechte: Met Excel
Met de grafische rekenmachine
90 punten T2
80 70 60 50 40 30 15
20
25
30
35
40
45
50
Algemene bespreking van de vergelijking
em
• G eef de betekenis van het intercept b.
pl
• G eef de betekenis van de richtingscoëfficiënt a.
aa
r
punten T1
ke x
Bespreking van enkele individuele resultaten
• E r waren 3 studenten (4, 10 en 13) die op T 1een score van 20 behaalden.
Op basis van de regressierechte kun je een score van op T 2 voorspellen. Leerling 4 behaalt in werkelijkheid 50, wat ongeveer overeenkomt met de verwachtingen.
Op de puntenwolk is leerling 4 dan ook dicht bij de best passende regressierechte gelegen.
kij
Leerling 10 scoort 40 op T 2, wat betekent dat deze leerling minder goed heeft gepresteerd
dan verwacht. Hij bevindt zich in de puntenwolk onder de regressierechte.
In
Leerling 13 daarentegen scoort 60 op T 2, 9 punten beter dan verwacht.
Zijn scores liggen flink boven de regressierechte.
• L eerling 6 behaalt 75 punten op T 2, wat 25 punten beter is dan leerling 4. Dit verschil was te verwachten, aangezien de leerling op T 1een score van 35 behaalde, 15 beter dan leerling 4. Op basis van dit verschil op T 1mag je een verschil van op T 2 verwachten. Leerling 6 heeft blijkbaar beter gescoord op T 2 dan verwacht. De regressierechte geeft een redelijk goede kijk op de invloed van de punten voor de test T 1 op de punten voor de test T 2. De schattingen doen de werkelijkheid niet al te veel geweld aan. Dit was min of meer te verwachten. De correlatiecoëfficiënt r = 0,80 duidt op een ‘sterke correlatie’.
HOOFDSTUK 5 I REGRESSIE
127
5.6
De determinatiecoëfficiënt
5.6.1 Definitie 2
De determinatiecoëfficiënt R is een maat voor de kwaliteit van het regressiemodel, dat niet noodzakelijk lineair hoeft te zijn. Formule
_ verklaarde variatie van de data y i t.o.v. y ___________________________________ = R totale variatie 2
2
2
aa
r
Bij een lineaire regressie is R = r (het kwadraat van de correlatiecoëfficiënt). 2 De onverklaarde variatie wordt bepaald door de aliënatiecoëfficiënt 1 – R .
5.6.2 De psychologische test
De regressierechte heeft als vergelijking y = 1,21x + 26,82. 2
2
em
pl
De correlatiecoëfficiënt is 0,80 ⇒ R = r = 0,64. 64 % van de variatie in de punten op T 2kan worden verklaard door de punten op T 1, via het regressiemodel. 36 % van de variatie in het aantal behaalde punten op T 2 hangt af van andere factoren dan de punten op T 1.
ke x
De determinatiecoëfficiënt betekent niet dat de punten voor T 2met een kans van 64 % juist kunnen voorspeld worden vanuit de punten op T 1. Het is de variatie in de punten van T 2die verklaard kan worden. Een andere misvatting is dat, als je de invloed van andere factoren op de punten van T 2 zou nagaan, je dan hoogstens 36 % als determinatiecoëfficiënt zou kunnen verkrijgen.
Opmerkingen
kij
• B ij het tekenen van de regressierechte in Excel kun je, door te kiezen voor ‘meer opties voor 2 trendlijnen’, R laten weergeven.
In
• B ij het uitvoeren van een regressie als de Diagnostic-mode aan staat, 2 verschijnt niet alleen r maar ook r .
1 2 3
Paragraaf 5.7 (Opdrachten: deel 5) vind je op diddit.
4
5
128
HOOFDSTUK 5 I REGRESSIE
Oefeningen REEKS B 1
De tabel geeft de gemiddelde lengte, in cm, van jongensbaby’s in functie van hun leeftijd in maanden. leeftijd
1
2
3
4
5
6
7
8
9
10
11
12
lengte
53,5
58
60,4
63
65,8
67,5
69,5
71
72
73
74
75,5
a) Teken een puntenwolk en geef de vergelijking van de regressierechte.
em
pl
c) Geef de betekenis van de richtingscoëfficiënt.
aa
r
b) Geef de betekenis van het intercept.
d) Schat de lengte van een jongensbaby van 8 maanden en 3 weken
ke x
• m et de regressierechte:
• d oor lineaire interpolatie van de gegevens:
kij
In
e) Schat, met de regressierechte, de lengte van een jongensbaby van 14 maanden.
f) Bereken de correlatiecoëfficiënt en geef de betekenis.
g) Bereken de determinatiecoëfficiënt en geef de betekenis.
h) Toon aan dat de regressierechte het volledige verloop van de groei van een jongen niet kan weergeven.
HOOFDSTUK 5 I REGRESSIE
129
hoogte (m)
temperatuur (°C)
Berlijn
40
9,1
Brocken
1 152
2,4
Boedapest
130
10,9
Dobratsch
2 140
0,1
Feuerkogel
1 592
3,3
Graz
342
9,4
Innsbruck
579
8,4
Klagenfurt
448
8,1
Lugano
276
13
Praag
374
7,9
Salzburg
437
8,6
Santis
2 496
–2,3
Wenen
203
9,1
Zugspitze
2 692
–5
aa
station
r
In de tabel vind je enkele Europese weerstations met hun hoogte boven de zeespiegel en de gemiddelde jaartemperatuur.
pl
2
em
a) Teken een puntenwolk en geef de vergelijking van de regressierechte.
ke x
b) Geef de betekenis van het intercept.
c) Geef de betekenis van de richtingscoëfficiënt.
kij
d) Is het in Innsbruck relatief warm of koud? Waarom?
In
e) Bereken de correlatiecoëfficiënt en geef de betekenis.
f) Bereken de determinatiecoëfficiënt en geef de betekenis.
1 2 3 4
5
130
g) Het weerstation in Ukkel ligt 100 m boven de zeespiegel. Schat, op basis van de regressierechte, de gemiddelde jaartemperatuur.
Controleer door de gemiddelde jaartemperatuur van Ukkel op te zoeken op het internet.
HOOFDSTUK 5 I REGRESSIE
Een farmaceutisch bedrijf produceert dieetpillen. Ze willen nagaan of er een verband bestaat tussen de procentuele afname van het vetgehalte in het lichaam en de toegediende dosis. In de tabel zie je de gegevens die ze verzameld hebben. procentuele afname vetgehalte
50
0,1
100
0,9
150
1,5
200
2,5
250
3
300
3,9
350
5,1
400
5,8
450
6,4
500
7,3
550
8,2
600
8,5
650
9,1
700
pl
aa
r
dosis per dag (mg)
em
3
9,2
a) Teken een puntenwolk en geef de vergelijking van de regressierechte.
ke x
b) In welke mate verandert de procentuele afname van het vetgehalte als de dosis met 100 mg wordt verhoogd?
kij
c) Toon aan dat het intercept geen betekenis heeft.
In
d) Schat de procentuele afname van het vetgehalte bij een dosis van 1 g per dag.
e) Welke dosis moet je nemen om 10 % vet te verliezen?
f) Bereken de correlatiecoëfficiënt en geef de betekenis.
g) Bereken de determinatiecoëfficiënt en geef de betekenis.
HOOFDSTUK 5 I REGRESSIE
131
In de tabel vind je het lichaamsgewicht, in kg, en het gewicht, in g, van de hersenen van 21 zoogdieren.
bever
1,35
8,1
koe
465
423
wolf
36,33
119,5
geit
27,66
115
cavia
1,04
5,5
ezel
187,1
419
paard
521
655
dwergaap
10
115
kat
3,3
25,6
giraf
539
680
gorilla
207
406
resusaap
6,8
179
kangoeroe
35
56
hamster
0,12
muis
0,023
0,4
konijn
2,5
12,1
schaap
55,5
175
panter
100
157
chimpansee
52,16
440
mol
0,122
3
varken
192
180
a) Teken een puntenwolk en geef de vergelijking van de regressierechte.
r
gewicht hersenen
b) Bepaal de correlatiecoëfficiënt en geef de betekenis.
aa
lichaamsgewicht
pl
zoogdier
c) Welk gegeven kan als ‘uitschieter’ beschouwd worden? Waarom?
em
1
d) Verwijder deze uitschieter en bepaal opnieuw de vergelijking van de regressierechte en de correlatie.
kij
ke x
4
De rest van de oefening maak je met de resultaten van vraag d.
In
e) Schat het gewicht van de hersenen van een zoogdier met een gewicht van 110 kg.
f) Hoeveel neemt het gewicht van de hersenen toe als het lichaamsgewicht met 10 kg toeneemt?
g) Kloppen de volgende clichés? 1 2 3 4
5
132
• ‘ stomme ezel’:
• ‘ domme koe’:
HOOFDSTUK 5 I REGRESSIE
5
De lengte van een metalen staaf is afhankelijk van de temperatuur: l T = l 0 + l 0 ?a? T. Hierbij is l T de lengte, in cm, bij een temperatuur T, in °C, l 0is de lengte bij 0 °C en ais de lineaire uitzettingscoëfficiënt. Een experiment om a te bepalen levert de volgende meetwaarden. T (in °C)
100
150
200
250
300
l (in cm)
25,04
25,07
25,08
25,11
25,12
a) Bepaal de vergelijking van de regressierechte.
em
De waarde van een weerstand is afhankelijk van de temperatuur: R T = R 0 + R 0 ? a?T. Hierbij is R T de weerstand, in Ω, bij een temperatuur T, in °C, R 0is de weerstand bij 0 °C en ais de temperatuurscoëfficiënt. Een experiment om a te bepalen levert de volgende meetwaarden.
ke x
6
pl
c) Bereken de lineaire uitzettingscoëfficiënt.
aa
r
b) Bepaal de waarde van l 0.
18
kij
T (in °C)
1 008,8
24
27
30
1 010,2
1 011,9
1 013,6
1 014,7
In
R (in Ω)
20
a) Bepaal de vergelijking van de regressierechte.
b) Bepaal de waarde van R 0.
c) Bereken de lineaire temperatuurscoëfficiënt.
HOOFDSTUK 5 I REGRESSIE
133
REEKS C Bij een onderzoek werd gezocht naar het verband tussen de hoofdomtrek y, in cm, en de lengte x, in cm, van 100 pasgeboren baby’s. Je vindt de resultaten in de tabel. x/y
47
32
48
49
50
1
1
1
51
52
53
54
55
56
totaal 3
33
1
6
5
4
34
1
7
10
9
3
3
35
3
5
9
6
1
1
25
1
4
7
2
14
1
1
1
1
4
38
1
1
2
39
1
37
totaal
5
14
21
24
14
12
17 33
7
2
0
1
2
1
100
r
36
1
aa
7
a) Waarom heeft een spreidingsdiagram geen zin?
pl
em
b) Bereken het gemiddelde en de standaardafwijking. _ x = s x = _ y = s y =
ke x
c) Geef de formule voor de covariantie van een tweedimensionale tabel met k verschillende waargenomen koppels (x i , y i ), met absolute frequentie N i .
d) Bereken de covariantie en geef de betekenis.
kij
e) Bereken de correlatiecoëfficiënt en geef de betekenis.
In
f) Bepaal de vergelijking van de regressierechte.
g) Geef de betekenis van de richtingscoëfficiënt.
h) Bereken de geschatte waarde voor de hoofdomtrek van een baby van 50 cm.
1
Hoeveel procent van de waargenomen y-waarden wijkt daar hoogstens 5 % van af?
2
3
i) Bereken de determinatiecoëfficiënt en geef de betekenis.
4
5
134
HOOFDSTUK 5 I REGRESSIE
Naar aanleiding van een onderzoek naar het verband tussen het gewicht en de lengte van jonge volwassenen, werd van 94 studenten tussen 18 en 22 jaar de lengte x, in cm, en het gewicht y, in kg, genoteerd. Dit zijn de resultaten. y/x
[158, 163[ [163, 168[ [168, 173[ [173, 178[ [178, 183[ [183, 188[ [188, 193[ [193, 198[ 160,5
165,5
170,5
5
2
1
6
2
1
3
6
3
[63, 68[ 65,5
3
4
5
3
[68, 73[ 70,5
1
1
7
4
[73, 78[ 75,5
2
2
2
9
[78, 83[ 80,5
1
2
2
2
1
1
2
[48, 53[ 50,5 [53, 58[ 55,5
1
[58, 63[ 60,5
175,5
185,5
190,5
195,5
3
1
1
1
aa
[83, 88[ 85,5 1
[88, 93[ 90,5
180,5
r
8
1
1
1
pl
[93, 98[ 95,5
a) Bereken het gemiddelde en de standaardafwijking. _ x =
em
s x =
_ y =
s y =
b) Bereken de covariantie.
ke x
c) Bereken de correlatiecoëfficiënt en geef de betekenis.
kij
d) Bepaal de vergelijking van de regressierechte.
In
e) Geef de betekenis van de richtingscoëfficiënt.
f) De Body Mass Index BMI = __ G2 . Hierbij is G het gewicht, in kg, en L de lengte in meter. L
Vul de tabel aan (de ideale BMI ligt tussen 20 en 25). ∧
x
y
BMI
170
175
180
185
190
HOOFDSTUK 5 I REGRESSIE
135
STUDIEWIJZER Regressie 5.3 Covariantie KENNEN Een puntenwolk is een grafische voorstelling van puntenkoppels (x, y). De regressielijn van een puntenwolk is de grafiek die zo goed mogelijk past bij de puntenkoppels. __ Het punt ( , x ) y noem je het zwaartepunt van de tweedimensionale verdeling. De covariantie van een tweedimensionale tabel met n waargenomen koppels (x i , y i), n _ _ ∑ (x i – x ) ⋅ (y i – y ) i = 1 is het getal s xy = ______________ .
n – 1
aa
De covariantie berekenen en er de betekenis van geven.
r
KUNNEN
5.4 De correlatiecoëfficiënt
KENNEN
em
pl
De correlatiecoëfficiënt van een_ tweedimensionale tabel met n waargenomen koppels (x i , y i ), _ n s xy x – x y – y i i _____ ⋅ _____ = _____ 1 ⋅ ∑ ( s s ⋅ s . is het getal r = _____ s ) ( y ) n – 1 i = 1 x x y
KUNNEN
De correlatiecoëfficiënt berekenen en er de betekenis van geven.
5.5 De regressierechte
ke x
KENNEN
kij
De rechte met vergelijking y = ax + b is de best passende regressierechte s xy _ _ 2 en b = y – a ⋅ x . als ___ s x
KUNNEN
Vraagstukken oplossen met behulp van de regressierechte die behoort bij een puntenwolk.
In
5.6 De determinatiecoëfficiënt KENNEN _ verklaarde variatie van de data y it.o.v. y 2 R = ________________________________ totale variatie
KUNNEN De determinatiecoëfficiënt berekenen en er de betekenis van geven.
CONTRACTWERK
1 2 3
4
5
136
HOOFDSTUK 5 I REGRESSIE