Pienter 5/6 tso Statistiek - inkijkexemplaar by VAN IN

Pi enter STATISTIEK

Derde graad TSO

Etienne Goemaere

Stephan Wellecomme MET MEDEWERKING VAN

kij

ke x

Guy Gijbels

Dirk Taecke

Statistiek

kij

ke x

Derde graad TSO

Etienne Goemaere Dirk Taecke Stephan Wellecomme MET MEDEWERKING VAN Guy Gijbels

Inhoudsopgave Hoe werk je met Pienter?

Hoofdstuk 1

Verzamelen van gegevens

Hoofdstuk 2 Verwerken van gegevens

Hoofdstuk 3 Statistische kentallen

Hoofdstuk 4 De normale verdeling

97 117

kij

ke x

Hoofdstuk 5 Regressie

Hoe werk je met Pienter? REEKS B

Elk hoofdstuk start met een leuke cartoon en een realistische inleiding of kort onderzoek.

1.5 3 De onderzoeksvragen In een school wordt een steekproef gedaan bij 80 leerlingen van de derde graad. Hun boekentas wordt gewogen op 10 gram nauwkeurig.

1.5.1 Voorbeelden 7 930 6 620 9 180

6 960

8 340 10 080 5 800

7 740

8 060

7 560

8 290

7 810

9 360

7 860

7 990

9 580

6 290

7 200

8 470

9 800

7 990

6 010

6 030

7 970

7 180

8 070

8 110

7 990

7 030

5 320

8 610

7 770

Alternatieve 6 570 7 050 8 860geneeskunde, 9 970 7 660 9 370

7 910

7 330

8 710

6 240

7 510

8 950

6 150

8 950

7 830

9 460

8 600 71 020 Voorbeeld 7 430 8 010 9 860

Stap voor stap kom je meer te weten over wiskunde in het dagelijks leven. Je leert formuleren in definities, eigenschappen, rekenregels of besluiten. Je leert ook eigenschappen bewijzen.

6 230

wat8vindt ervan? 8 140 730 8u220 8 860

5 390

9 330

8 600

8 720

6 730

7 340

8 030

7 470

5 650

8 350

9 120

7 960

8 100

8 010

8 520 8 110 8 090 6 280 5 480 8 790 Geef 3 redenen waarom het resultaat van 6 800 deze 7 190 enquête waardeloos is.

16%

a) Bereken het gemiddelde en geef de betekenis.

b) De helft van de boekentassen weegt 84% minstens

Het (rekenkundig) gemiddelde

2.1

3.2.1 Definitie

Verwerken van kwalitatieve tegen gegevens

d) Bespreek de ligging van het gemiddelde en de mediaan ten opzichte van elkaar en de modale klasse.

2.1.1 Voorbeeld Frequentietabel Wat kun2 je hieruit besluiten?

Rekenkundig gemiddelde

Definitie

voor van § 2.3.1: c) Bepaal de modale klasse uit de frequentietabel

_ Het rekenkundig gemiddelde x van een rij numerieke gegevens is gelijk aan de som van die gegevens, gedeeld door het aantal gegevens. n

∑ xi _ x 1 + x 2 + ... + x n i=1 Als een steekproef n gegevens oplevert, dan is het gemiddelde x = _____________ = _____ n n

Opmerkingen

• H et gemiddelde heeft dezelfde eenheid als de waarnemingsgetallen (cm, kg ...).

3.2.2 Voorbeeld

Definitie

• Bereken het gemiddeld aantal nieuwe personenwagens per jaar.

3.2.3 Berekening van het gemiddelde met ICT REEKS C verdiepingsniveau

3 4

4 5

Met de grafische rekenmachine

Voer deper gegevens in de werklijst L in en Open het bestand Oefeningen zijn‘AUTO.xlsx’. genummerd hoofdstuk (of open AUTO.8xl). Je berekent het gemiddelde met Je berekent het gemiddelde in cel B4: B4: =GEMIDDELDE(B2:I2) aangeduid met een verticale streep. • ofwel Stat 1-Var • ofwel gemiddelde( 1

list

stat

list

stat

(gemiddelde L 1 of

HOOFDSTUK 3 I

HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS

561402_04_PIE_H3.indd 74

561402_04_PIE_H1.indd 18

12/05/2020 12:07

• Van hoeveel mensen van jouw klas mag je verwachten dat ze bloedgroep A hebben?

ke x

kij

HOOFDSTUK 3 I STATISTISCHE KENTALLEN

bloedgroep

antigeen antigeen antilichamen antilichamen A B A B

O A B AB 61

Je bloedgroep wordt bepaald door het al dan niet aanwezig zijn van bepaalde moleculen (‘antigenen’ en ‘antilichamen’) op de rode bloedcellen in je bloed. Er zijn 4 bloedgroepen: A, B, O en AB. Je hebt een positieve resusfactor als het D-antigeen aanwezig is of een negatieve resusfactor indien dit antigeen er niet is. Het D-antigeen werd in 1940 ontdekt bij resusapen, vandaar de naam.

HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS

12/05/2020 12:07 561402_04_PIE_H2.indd 28

Dit icoon en de groene achtergrond geven aan waar uitbreidingsleerstof of -oefeningen aangeboden worden.

STUDIEWIJZER Verwerken van gegevens 2.1 Verwerken van kwalitatieve gegevens KENNEN

De absolute frequentie n i van een gegeven is het aantal keer dat het gegeven voorkomt. De relatieve frequentie f i is het quotiënt van de absolute frequentie en de omvang van ni . de steekproef: f i = _ n

KUNNEN

Grafische voorstellingen maken van de frequentieverdeling: staafdiagram en schijfdiagram.

2.2 Verwerken van niet-gegroepeerde kwantitatieve gegevens KENNEN De absolute frequentie n i van het waarnemingsgetal x i is het aantal keren dat dit gegeven voorkomt. De relatieve frequentie f i is het quotiënt van de absolute frequentie en de omvang ni . van de steekproef: f i = _ n

Wil je nog meer? Verken dan ons onlineleerplatform De cumulatieve absolute frequentie cn i van het waarnemingsgetal x i is het aantal keer

dat een getal voorkomt dat kleiner dan of gelijk is aan x i : cn i = n 1 + n 2 + ... + n i .

De cumulatieve relatieve frequentie cf i is het quotiënt van de cumulatieve absolute frequentie cn i . en de omvang van de steekproef: cf i = ____ n

Je kunt er digitaal oefenen op jouw maat zodat je de leerstof helemaal onder de knie krijgt. KUNNEN

Bij het lesmateriaal ontdek je onder meer: • extra uitbreidingsleerstof en -oefeningen, • instructiefilmpjes als je iets uitgelegd wilt zien.

Een frequentietabel voor een niet-gegroepeerd kwantitatief kenmerk opstellen en interpreteren. Grafische voorstellingen maken van de frequentieverdeling: staafdiagram, lijndiagram, cumulatief staafdiagram en cumulatief lijndiagram.

2.3 Verwerken van gegroepeerde kwantitatieve gegevens KENNEN

De variatiebreedte R is het verschil tussen het grootste en het kleinste gegeven. ai + bi Het klassenmidden van de i-de klasse is m i = _ . 2

De klassenfrequentie n i van de i-de klasse is het aantal waarnemingsgetallen dat tot die klasse behoort.

KUNNEN Een frequentietabel voor een gegroepeerd kwantitatief kenmerk opstellen en interpreteren. Grafische voorstellingen maken van de frequentieverdeling: histogram, frequentiepolygoon en ogief. Een stengel- en bladdiagram opstellen van een tabel ruwe gegevens.

12/05/2020 12:08

Op het einde van elk hoofdstuk vind je alles wat je moet kennen en kunnen bijeengebracht in een handige studiewijzer. Dat is een ideale leidraad om je samenvatting te maken. Ook het contractwerk helpt je bij het studeren.

Een frequentietabel voor een kwalitatief kenmerk opstellen en interpreteren.

12/05/2020 11:45

(Stat 1-Var L 1 of

Bereken het gemiddeld aantal pogingen dat iemand nodig had om te slagen voor het rijexamen (§ 2.2.1).

561402_04_PIE_H3.indd 61

A O 997

de kwart verschillende onderdelen. b) Een van de blikjes heeft een inhoud van minstens • DEen e som van de absolute frequenties is gelijk aansociaal-wetenschappelijk de omvang van de steekproef. Bron: samenleving onderzocht - Methoden voor onderzoek, • M eestal wordt de relatieve procent uitgedrukt. door Jaak Billiet en Hans Waege -frequentie StandaardinUitgeverij. STATISTISCHE KENTALLEN • Mag men de 60 elementen van de steekproef willekeurig kiezen?

gemiddelde LAUTO) Stat 1-Var LAUTO) Interessante weetjes of achtergrond herken je aan een kader met vraagteken.

Voorbeeld

A 1 005

• Je M aak gebruik van hetbeeld werk door van ervaren mensen. 999 1 000 991op te981 1 003 1 015 1 001 krijgt een duidelijker een frequentietabel stellen. 982 bloedgroep ni fi Het raadplegen van bestaande vragenlijsten en databestanden kan veel werk besparen. 998 1 012 1 023 997 996 1 015 1 027 1 011 • De Deerste e vragen moeten kort, eenvoudig, duidelijk en van begrijpelijk zijn. kolom bevat de verschillende gegevens de variabele A 24 40,00 994 981 1 005 977 988 1 000 987 % • ‘bloedgroep’. Elke vraag mag maar 1 onderwerp bevatten. De volgorde speelt geen rol. 1 020 Samengestelde vragen zijn moeilijk beantwoorden om te998 beoordelen. 990om te999 1 013 en 988 1 009 1 003 992% B 5 8,33 • Absolute De eventuele antwoordmogelijkheden moeten op een overzichtelijke wijze worden voorgesteld. en relatieve frequentie • Bekijk goed de plaats van elke vraag in het geheel. AB 2 3,33 % a) Onderzoek met 2 centrummaten ofgegeven de klachten gegrond zijn dat of niet. n i van een aantal keer • De Deabsolute opmaak frequentie van de vragenlijst in zijn geheelisishet belangrijk. gegeven voorkomt. tussen feiten en opinies. O 29 48,33 % • het Maak een onderscheid • De Geef uitleg over de begrippen in de vragen relatieve frequentie f i is hetdie quotiënt van voorkomen. n i waarover het gaat. 60 100,00 % Een respondent kan niet antwoorden als hij niet weet _ de absolute frequentie en objectief de omvang van de steekproef: fi = . n • Geef een algemene inleiding om de situatie uit te leggen en eventueel de nodige inleidingen bij

2nd

A O

490 711 486 065 482 939 501 066 539 519 546 558 550 384

REEKS A eenvoudige toepassingen

Met Excel

DaaromB laat hij een A steekproef O uitvoeren. B O B O A Bij 40 van de lopende band blikjes de inhoud, in ml, bepaald. Algemene aanbevelingen bijgenomen het opstellen vanwordt de vragenlijst A O A B A O A O 990 1 004 1 003 1 006 • Stel niet te veel vragen. Beperk je985 tot het 996 essentiële.

De tabel bevat het aantal tot het verkeer nieuwe personenauto’s voor de periode 2011-2018. Na elk stukje theorie kuntoegelaten je meteen oefenen. jaar 2011 2012 2013 2014 2015 2016 2017 2018 Er zijn drie reeksen oefeningen:

REEKS B basisniveau

Een conservenfabrikant krijgt O A O klachtenA over de netto-inhoud O A van zijn ABblikken met O erwtjes, O

die volgens de verpakking 1 liter zou moeten bedragen. 1.5.2 De vraagstelling

• J e rondt het gemiddelde af op 1 cijfer meer na de komma dan de oorspronkelijke gegevens.

aantal nieuwe 577 382 personenwagens

Een de onderzoek naarbepaald. de verspreiding van een virus kan Bij een steekproef wordt van 60 mensen bloedgroep verschillende onderzoeksvragen hebben. resultaten zie je in de ruwe gegevens. e) De Bepaal de kwartielen en tabel geef de betekenis. • Hoeveel procent van de mensen is besmet? • Is de besmetting leeftijdsgebonden? A O O A B O A O A • In welke streken komt het virus het meest voor? manieren wordtOhet virus Aovergedragen? O A O O • Op welke A O O • Wat is de kans op besmetting? ziek? A A A O • Wordt ABiedereenOdie besmet A is ook werkelijk O A

3.2

HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS

1.1

Statistiek en statistieken

6 9

1.2 Opdrachten

1.4 Populatie en steekproef

1.5 De onderzoeksvragen

1.6 Misleidende statistieken

1.7

1.3 Soorten gegevens

Opdrachten: deel 1 20 26

kij

ke x

Studiewijzer

nieuwe cartoon wordt aangeleverd bij correcties op eerste proef

HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS

1.1

Statistiek en statistieken

1.1.1 Inleiding

kij

ke x

Bij het woord ‘statistiek’ denk je aan enquêtes, tabellen met cijfers, grafieken, ... Meestal spreekt men in dit geval van ‘statistieken’. Er zijn heel wat voorbeelden te vinden in kranten, weekbladen, op het internet, ...

De wiskundige discipline ‘statistiek’ heeft een ruimere betekenis.

1 2 3 4

Definitie

Statistiek Statistiek is de wetenschap die zich bezighoudt met het verzamelen, ordenen, verwerken, ontleden en verklaren van gegevens (‘data’) en dit met de bedoeling om een inzicht te krijgen in verschijnselen in de samenleving, de natuur, ...

6 HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS

1.1.2 Statistiek beschrijvende statistiek

verklarende statistiek

• v erzamelen van informatie • v erwerken en voorstellen van informatie (ordenen in tabellen, voorstellen in grafieken) • a nalyseren van informatie (kenmerkende maten bepalen zoals gemiddelde, mediaan, spreiding van de gegevens ...)

• v erdere analyse • n agaan van de betrouwbaarheid van de informatie • f ormuleren van conclusies

In de statistiek worden veel numerieke berekeningen gemaakt. Dit rekenwerk is echter een hulpmiddel en geen doel. Het doel van de statistiek is het verwerven van inzicht vanuit getallen.

Als je in de wiskundelessen bezig bent met algebra, dan werk je met getallen. In de statistiek wordt ook met getallen gewerkt, maar die staan in een context. Het getal 176 heeft op zich geen betekenis als je niet weet dat het bijvoorbeeld om de lengte van een volwassen man gaat en dat deze lengte in centimeter is. De context geeft met andere woorden betekenis aan getallen. Het gemiddelde berekenen van 10 getallen is een puur algebraïsche bewerking. De uitkomst interpreteren en een context meegeven is statistiek.

ke x

Statistiek is overal aanwezig in het dagelijks leven en is voor de maatschappij van groot belang. De economie, de politiek, de wetenschappen, de sport ... zijn ondenkbaar zonder gebruik te maken van statistische gegevens. Hoe zouden families hun budget beheren, hoe zou een land bestuurd worden, hoe zou je verschillende prestaties op gebied van school, sport, ... met elkaar vergelijken zonder gebruik te maken van statistiek?

kij

In België publiceert de Algemene Directie Statistiek (Statbel) bijna dagelijks nieuwe cijfergegevens over bevolking, samenleving, economie en financiën, industrie, diensten, handel en vervoer, landbouw, ...

Zoek op de site van Statbel het antwoord op de volgende vragen. • W at is de meest recente consumptieprijsindex? • W at is de populairste voornaam bij de geboorte van een meisje in het Vlaams Gewest?

• H oeveel bedroeg de gemiddelde jaartemperatuur in Ukkel tijdens het voorbije jaar? • H oeveel procent van de Belgische bevolking leeft in het Brussels Hoofdstedelijk Gewest?

Ook de Vlaamse overheid levert heel wat cijfermateriaal.

De geschiedenis van de statistiek vind je op diddit.

HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS

Oefeningen REEKS A

De Europese Unie heeft ook haar eigen statistisch bureau: Eurostat. Het bureau werd opgericht in 1959 en heeft zijn zetel in Luxemburg.

Zoek op het internet het antwoord op de volgende vragen.

b) Wat was het natste jaar in België na 2000?

Hoeveel neerslag viel er in Ukkel tijdens dat jaar?

c) Hoeveel 60-plussers telt Vlaanderen?

Hoeveel procent is dat van de totale bevolking?

a) Wat is de gemiddelde levensverwachting van een Belgische vrouw?

d) Wat is het aantal inwoners in de Europese Unie?

ke x

e) Wie was de zwaarste mens ooit? Wat was zijn gewicht?

f) Hoeveel procent van de Brusselse bevolking is van buitenlandse oorsprong?

kij

g) Hoeveel procent van de huishoudens in Vlaanderen heeft een computer?

In welk Europees land is dit aandeel het grootst?

h) Hoeveel procent orthodoxe christenen zijn er in Bulgarije?

Hoeveel orthodoxe christenen zijn er dan?

i) Hoe groot was de stijging van het aantal ingeschreven elektrische fietsen in Vlaanderen tussen 2015 en 2019? j) Wat was de procentuele groei van het aantal gevangenen in Spanje tussen 2010 en 2019? 1 2

k) In welk land is de CO 2-uitstoot door het gebruik van fossiele brandstoffen het hoogst?

Hoeveel bedraagt de uitstoot per jaar?

4 5

8 HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS

1.2

Opdrachten

1.2.1 Opdracht 1 Op www.klasse.be kon je enkele jaren geleden het volgende artikel lezen.

Amerikaanse scholen schaffen speeltijd af

door meer lees- en rekenlessen, de twee vakken waar de federale overheid het meeste testen voor uitvoert. Voorstanders beweren ook dat de speeltijd afschaffen geweld, vandalisme en pesterijen vermijdt. Maar volgens Amerikaanse universiteiten zijn studenten als kind zo beschermd dat ze bij de minste tegenwind omwaaien. Ze kennen alle nabijgelegen zonnestelsels, maar kunnen geen ruzies oplossen.

(VERENIGDE STATEN) In één op vier Amerikaanse scholen krijgen de leerlingen (bijna) geen speeltijd meer. Scholen korten de speeltijd in of schaffen hem af. Daar zijn verschillende redenen voor: ouders klagen de school aan als hun kind gewond raakt op de speelplaats, andere scholen hebben geen plaats. De meeste scholen zijn bekommerd om de resultaten van hun leerlingen. De speeltijd wordt dikwijls vervangen

• G eef de 3 voornaamste redenen voor de (gedeeltelijke) afschaffing van de speeltijd.

ke x

• O p welke manier heeft men naar de opinie van de betrokkenen gepeild?

• I s dit een goede manier van werken? Waarom (niet)?

kij

• E nkele vragen die je jezelf kunt stellen: Hoe zouden de leerlingen, ouders en leerkrachten van jouw school tegenover een afschaffing of inkorting van de speeltijd staan?



Welke motivaties spelen daarbij een rol?



Zullen de beweegredenen anders zijn bij leerlingen dan bij ouders en leerkrachten?



Zijn de leeftijd en het geslacht van de ondervraagde leerlingen belangrijk?



Is een beperking van de middagpauze misschien een optie?



Gaan er stemmen op om de pauzes langer te maken in plaats van ze te verkorten?



• O m op deze vragen een antwoord te vinden, zul je eerst en vooral moeten overleggen. De klas kan daarvoor verdeeld worden in groepjes van 3 of 4 leerlingen. 

Welke vragen worden er gesteld?



Moet er eerst een situatieschets gebeuren?



Wie wordt er ondervraagd? Moeten alle leerlingen, ouders en leerkrachten worden gepolst?



Hoe wordt het werk verdeeld? Er zijn mensen nodig om de enquête op te stellen, om de gegevens te verzamelen en om die te verwerken.

In een statistisch onderzoek moet je verschillende fases doorlopen, die nauw met elkaar verbonden zijn. Ga nog niet meteen aan de slag. Eerst moet je nog heel wat statistische kennis opdoen.

HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS

1.2.2 Opdracht 2

Het volgende artikel komt uit De Standaard.

Vormt het eten van junkfood een probleem bij de laatstejaars van het middelbaar onderwijs? In een eerste deel van je onderzoek probeer je te weten te komen hoeveel keer per week junkfood een andere maaltijd vervangt.

ke x

W at is junkfood? H oeveel mensen ga je betrekken bij het onderzoek? Houd je het bij leerlingen van je eigen school? M oet je rekening houden met geslacht, afkomst, woonplaats, gezinssituatie, ...? H oe formuleer je de vragen? Hoe zorg je ervoor dat de antwoorden correct zijn? Welke periode moet je voorzien waarin de onderzochte jongeren hun eetgedrag moeten nagaan? Zal men in die periode niet speciaal op zijn voeding letten?

kij

• • • •

De klas wordt in groepjes van 3 of 4 personen verdeeld. Vragen die beantwoord zullen moeten worden:

In een tweede deel van het onderzoek ga je na wat het favoriete junkfood is van de laatstejaars. • Welke soorten junkfood bestaan er? Hoeveel ervan betrek je in het onderzoek? • Maak je een onderscheid tussen het eten van junkfood thuis of in een restaurant? • Betrek je dezelfde mensen van het eerste deel ook in dit tweede deel en hoe kun je beide delen van het onderzoek combineren? • Welke vragen stel je en wat zijn de mogelijke antwoorden die voorzien worden? • Hoe zul je de antwoorden ‘meten’?

• Hoe zul je de taken verdelen: opstellen van de vragenlijst(en), uitvoeren van de enquête, verzamelen van de gegevens, verwerken van de gegevens?

2 3 4 5

HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS

1.2.3 Opdracht 3 De Belgische mannen zijn de tweede langste ter wereld, na de Nederlandse. De mannen in ons land zijn in een eeuw tijd met maar liefst 14 cm gegroeid. Ze worden nu gemiddeld 181,7 cm.

Bron: Knack.be De grafiek toont de evolutie van de gemiddelde lengte van de Belgische man sinds 1881. gemiddelde lengte van een volwassen man in België 184

182

180

178

174

lengte in cm

176

172

170

168

164 1881

ke x

166

1902

1909

1926

1938

1947

1963

1979

2004

2019

jaartal

kij

Is die spectaculaire toename van de gemiddelde lengte van een volwassene ook zichtbaar bij de mensen die nu leven? Het onderzoek dat je zult verrichten speelt zich voornamelijk buiten de schoolmuren af.

Er wordt aan 100 mannen van de leeftijdsklasse 20-30 jaar, 100 mannen van de leeftijdsklasse 30-50 jaar en 100 mannen van de leeftijdsklasse 50-70 jaar gevraagd naar hun lichaamslengte in cm. Doe hetzelfde voor de vrouwen. Verdeel het werk zodat elke leerling ongeveer evenveel mensen moet ondervragen en maak goede afspraken zodat bepaalde personen niet meerdere malen in het onderzoek betrokken worden. De gegevens zullen later verwerkt worden per leeftijdsklasse en per geslacht en daarna besproken. Ook hier zal overleg met de rest van de klas noodzakelijk zijn.

HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS

1.3

Soorten gegevens

1.3.1 Elementen, veranderlijken en gegevens stappen in een statistisch proces

benamingen

Je wenst informatie in te winnen over een, door het toeval bepaald, verschijnsel.

De objecten (personen, dieren, goederen, ...) waarover je informatie wenst, zijn de elementen van het onderzoek.

↓ De verzameling elementen die wordt onderzocht is de steekproef.

Er wordt een verzameling elementen samengesteld die aan het onderzoek zullen deelnemen.

↓

Een kenmerk of eigenschap van een element noem je een veranderlijke of variabele.

In een statistisch onderzoek worden eigenschappen van elementen nagegaan.

↓

De hoedanigheden of getallen die je verkrijgt na een statistisch onderzoek zijn de gegevens of data. Die vormen een gegevensverzameling.

Bij het onderzoek worden hoedanigheden of getallen verzameld.

Om de gegevens te verwerken gebruik je frequentietabellen, grafieken, centrummaten en spreidingsmaten.

ke x

De gegevens worden verwerkt in tabellen en diagrammen. Je berekent statistische kentallen.

Voorbeeld

schoenmaat

kleur ogen

lengte

vrouwelijk

groen

168 cm

Peter Janssens

mannelijk

blauw

185 cm

Tom De Blauwe

mannelijk

blauw

179 cm

Sarah Vandenberghe

vrouwelijk

bruin

175 cm

Els Peeters

1 2 3 4 5

geslacht

kij

leerling

HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS

1.3.2 Soorten gegevens kwalitatieve gegevens

kwantitatieve gegevens

Beschrijven hoedanigheden en eigenschappen die niet met getallen beschreven kunnen worden. Niet-numerieke gegevens worden ook categorische gegevens genoemd.

Nemen numerieke waarden aan en worden bepaald door metingen, tellingen, ...

Nominale kwalitatieve Ordinale kwalitatieve gegevens hebben geen gegevens hebben een natuurlijke ordening. natuurlijke ordening.

Discrete kwantitatieve gegevens beperken zich tot een aantal waarden.

Continue kwantitatieve gegevens zijn reële waarden tussen bepaalde grenzen.

Voorbeeld: Voorbeeld: Veranderlijke: geslacht; Veranderlijke: appreciatie van een restaurant; Gegevens: mannelijk, Gegevens: ++, ..., –– vrouwelijk.

Voorbeeld: Veranderlijke: aantal kinderen in een gezin; Gegevens: 0,1, ...

Voorbeeld: Veranderlijke: lengte van een vrouw, in cm; Gegevens: 152, 176, ...

Voorbeelden

Numerieke gegevens worden ook waarnemingsgetallen genoemd.

veranderlijke

Vink het soort gegevens aan in de volgende voorbeelden. gegevens

kwalitatief nominaal

kwalitatief kwantitatief kwantitatief ordinaal discreet continu

ke x

aantal ogen bij het gooien van een dobbelsteen verkiezingsuitslag

massa van een man

kij

aantal verkeersongevallen per jaar in een stad

favoriete kleur

onderwijsniveau van het Vlaamse overheidspersoneel levensduur, in uren, van lampen

Opmerking Soms worden kwalitatieve gegevens gekwantificeerd, zoals in onderstaand voorbeeld. Ik heb voldoende inspraak in de werking van de school. helemaal niet akkoord = 1

eerder niet akkoord = 2

eerder akkoord = 3

volledig akkoord = 4

In dit geval zijn de getallen niet meer dan codes voor ordinaal kwalitatieve gegevens.

HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS

1.4

Populatie en steekproef

1.4.1 Kijkcijferonderzoek

kij

ke x

Bij het kijkcijferonderzoek wenst men informatie in te winnen over alle kijkers van 4 jaar en ouder in Vlaanderen en Nederlandstalig Brussel. Die volledige groep noemt men de populatie. Om de kijkcijfers te bepalen, worden uiteraard niet alle tv-kijkers ondervraagd. Dat is onmogelijk. Men trekt een steekproef. Het Centrum voor Informatie over de Media (het CIM) is een Belgische instelling die gegevens verzamelt en levert voor de reclamemarkt. De CIM-studie doet een beroep op een panel van 1 500 gezinnen, dat representatief is voor alle gezinnen van de populatie. Het panel is namelijk samengesteld op basis van leeftijd, opleiding, beroepsactiviteit, woonplaats …. Bij elk van die gezinnen is een kijkmeter geïnstalleerd die het kijkgedrag van de leden van het gezin en eventuele gasten registreert. Sinds 2016 bepaalt men het totaal van het rechtstreeks tv-kijken en het uitgesteld tv-kijken tot 7 dagen na de uitzending.

1.4.2 Populatie en steekproef

Definitie

Populatie en steekproef De volledige verzameling elementen waarover je informatie wilt verkrijgen, is de populatie. Een steekproef is een deelverzameling van de populatie die feitelijk wordt onderzocht.

1 2 3 4 5

Men zegt dat een steekproef uit de populatie wordt getrokken. Het is de bedoeling dat vanuit de steekproef een zo volledig mogelijk, representatief beeld wordt verkregen voor de volledige populatie. Daarom moet je een goede kijk hebben op de samenstelling van de populatie zelf en die goed definiëren. HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS

1.4.3 Het trekken van een steekproef Om gegevens te verzamelen worden enquêtes afgenomen. De ondervraagde mensen noemt men de respondenten van de enquête. De 3 meest voorkomende vormen van enquêtes zijn: • de schriftelijke enquête (in een moderne variant kan dit ook via internet); • het persoonlijk interview, eventueel via de telefoon; • de panelmethode: hierbij wordt een vaste groep mensen ondervraagd over allerlei onderwerpen (kijkgewoonten, gezinsbudget, ...).

persoonlijk interview

panelmethode

nadeel

schriftelijke enquête

voordeel

soort enquête

ke x

Opdat de gegevens die verkregen zijn uit een steekproef op een verantwoorde manier zouden kunnen worden veralgemeend naar de volledige populatie, moet de steekproef: • e en voldoende omvang hebben; • r epresentatief zijn voor de volledige populatie. Wat is ‘voldoende’? Dat hangt af van de aard van de populatie en van het onderzoek zelf. aantal ondervraagden aantal rokers

kij

aantal rokers in procent

120

150

35,0 %

30,0 %

31,4 %

27,8 %

28,3 %

28,0 %

In het voorbeeld zie je het resultaat van een enquête waarbij aan 18-jarigen werd gevraagd of ze roken. Vanaf welk aantal ondervraagden zie je een stabilisering van de percentages? Voor deze enquête is een steekproef bij jongeren van 18 jaar dus voldoende.

Kun je de 18-jarigen die je ondervraagt zomaar lukraak uitkiezen? Waarom (niet)? Geef 3 vragen die jij zou stellen om een goed zicht te krijgen op het rookgedrag bij jongeren.

HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS

Soorten steekproef aselecte (lukrake) steekproef

gerichte steekproef

systematische steekproef

Elk element van de steekproef wordt bij toeval gekozen.

De populatie wordt verdeeld in deelgroepen, verhoudingsgewijs samengesteld vanuit die populatie. Vervolgens wordt binnen elke deelgroep een aselecte steekproef gehouden.

De steekproefelementen worden ‘systematisch’ uit de populatie gekozen. Bijvoorbeeld: elke 5 minuten wordt een product van de montageband genomen voor onderzoek.

Tijdens de verkiezingscampagnes van Roosevelt en zijn tegenstander Landon in 1936 in de VS, deed het tijdschrift Literary Digest een poging om de uitslag van de verkiezingen te voorspellen. Ze stuurden 10 miljoen formulieren naar de autobezitters en kregen er ruim 2 miljoen terug. Een grote telefonische enquête op basis van de telefoongids moest het onderzoek verder aanvullen. De voorspelling dat 57 % van de stemmen naar Landon zou gaan en 43 % naar Roosevelt was compleet verkeerd, want Roosevelt won de verkiezingen met maar liefst 61 % van de stemmen. Bedenk de reden(en) voor het falen van deze steekproef.

ke x

De respons

Het aantal mensen dat antwoordt op een enquête noemt men de respons. Het aantal mensen dat wel gevraagd wordt om aan een onderzoek of enquête deel te nemen, maar weigert of niet antwoordt, is de non-respons. Beide waarden worden meestal uitgedrukt in procent.

kij

Non-respons kan de waarde van een onderzoek in belangrijke mate verminderen of zelfs geheel tenietdoen.

Geef 5 mogelijkheden om mensen te stimuleren aan een onderzoek of enquête mee te werken.

2 3 4 5

HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS

1.4.4 Voorbeelden Een krant doet een enquête bij haar lezers over de kiesintenties bij de volgende verkiezingen. • P opulatie: • S teekproef:

Soort steekproef:

• S oort gegevens:

• H oe zou een goede steekproef er volgens jou moeten uitzien?

Vrouwen zijn slechtste chauffeurs

Het is nu officieel: vrouwen zijn de beste chauffeurs. Een studie van de Weense verkeersveiligheid heeft vastgesteld dat slechts 35 % van de ongelukken op de weg door vrouwen worden veroorzaakt.

ke x

Uit onderzoek door psychologen van de Queen Mary University of London, is gebleken dat vrouwen slechter presteren in taken waarbij navigatie en ruimtelijk inzicht vereist zijn. De computergebaseerde tests werden uitgevoerd op 140 vrijwilligers (70 mannen en 70 vrouwen). In deze test moest men virtueel zwemmen door een onderwaterdoolhof naar een verborgen platform. Vrouwen deden er veel langer over om de bestemming te bereiken.

Vrouwen zijn beste chauffeurs

• Wat is in beide gevallen de populatie?

kij

• Welk soort steekproef is er in beide gevallen getrokken? Omschrijf telkens de steekproef.

• Geef voor beide onderzoeken 2 redenen waarom de conclusie voorbarig is. •

•

• Hoe zou je zelf te werk gaan in een statistisch onderzoek naar de veiligste chauffeur?

HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS

1.5

De onderzoeksvragen

1.5.1 Voorbeelden Voorbeeld 1

Alternatieve geneeskunde, wat vindt u ervan? 16%

Geef 3 redenen waarom het resultaat van deze enquête waardeloos is.

84%

voor tegen

Voorbeeld 2

ke x

Een onderzoek naar de verspreiding van een virus kan verschillende onderzoeksvragen hebben. • Hoeveel procent van de mensen is besmet? • Is de besmetting leeftijdsgebonden? • In welke streken komt het virus het meest voor? • Op welke manieren wordt het virus overgedragen? • Wat is de kans op besmetting? • Wordt iedereen die besmet is ook werkelijk ziek?

kij

1.5.2 De vraagstelling

Algemene aanbevelingen bij het opstellen van de vragenlijst S tel niet te veel vragen. Beperk je tot het essentiële. M aak gebruik van het werk van ervaren mensen. Het raadplegen van bestaande vragenlijsten en databestanden kan veel werk besparen. D e vragen moeten kort, eenvoudig, duidelijk en begrijpelijk zijn. E lke vraag mag maar 1 onderwerp bevatten. Samengestelde vragen zijn moeilijk om te beantwoorden en om te beoordelen. D e eventuele antwoordmogelijkheden moeten op een overzichtelijke wijze worden voorgesteld. B ekijk goed de plaats van elke vraag in het geheel. D e opmaak van de vragenlijst in zijn geheel is belangrijk. M aak een onderscheid tussen feiten en opinies. G eef uitleg over de begrippen die in de vragen voorkomen. Een respondent kan niet objectief antwoorden als hij niet weet waarover het gaat. G eef een algemene inleiding om de situatie uit te leggen en eventueel de nodige inleidingen bij de verschillende onderdelen.

• • • • • • • • • •

1 2 3 4 5

Bron: Een samenleving onderzocht - Methoden voor sociaal-wetenschappelijk onderzoek, door Jaak Billiet en Hans Waege - Standaard Uitgeverij. HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS

Open vragen Bij open vragen heeft de respondent de mogelijkheid het antwoord op de vraag zelf te formuleren. Geef een voordeel van open vragen: Een nadeel is dat de antwoorden moeilijk te beoordelen zijn en dat een oppervlakkige vraagstelling tot verkeerde conclusies kan leiden. Geef aan in welke mate je de vraagstelling zou kunnen verbeteren in de volgende voorbeelden.

• F unctioneert het openbaar vervoer goed in Vlaanderen?

ke x

• B ent u voor of tegen plastische chirurgie?

Gesloten vragen

alternatieve antwoordmogelijkheden

kij

Wat is uw geslacht?

r man r vrouw

niet-alternatieve antwoordmogelijkheden

Welke 3 kenmerken passen het best bij jou?

r sociaal r ambitieus r verantwoordelijk r materieel ingesteld r handig r creatief r stil r sportief

r zelfstandig r rustig r ondernemend r dromer r theoreticus r communicatief r zenuwachtig r afwachtend

Hoe vaak doet u aan sport per week?

r nooit r 1 dag per week r enkele dagen per week r elke dag numerieke antwoordschalen Geef voor de volgende vragen een score van 1 tot 5. (1 = helemaal mee oneens, 2 = mee oneens, 3 = neutraal, 4 = mee eens; 5 = helemaal mee eens) Huiswerk moet afgeschaft worden.

Restaurants moeten huisdieren weigeren. Frankrijk is het ideale vakantieland. Er is te veel sport op tv.

HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS

1.6

Misleidende statistieken

1.6.1 Voorbeeld 1

GAZET VAN GISTEREN

1 april 2019

België doet het veel minder slecht dan wordt beweerd BRUSSEL - Doemdenkers vinden dat ons land te weinig doet om de luchtverontreiniging tegen te gaan. De grafiek toont echter dat we helemaal onderaan bengelen op het gebied van CO 2- uitstoot.

(Staf Tistiek)

• Waarmee heeft Staf Tistiek geen rekening gehouden?

• Bekijk de volgende tabel.

CO  2-uitstoot in miljoenen ton

China

100

5 260

9 839

11,4 miljoen

326,6 miljoen

1 379,3 miljoen

ke x

bevolkingsaantal (op 1 jan. 2019)

België

• Wat kun je besluiten?

kij

1.6.2 Voorbeeld 2 gewicht in kg

115 110

Welke grafische ingrepen hebben ervoor gezorgd dat het effect van het dieet spectaculairder lijkt dan het in werkelijkheid is?

105 100 95

1 2

90 85

aantal maanden 1

4 5

Paragraaf 1.7 (Opdrachten: deel 1) vind je op diddit. HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS

Oefeningen REEKS A 2

Geef van de volgende onderzoeken mogelijke gegevens. Over welk soort gegevens gaat het? Geef telkens een omschrijving van de populatie. Welk soort steekproef is aangewezen? a) Het geboortegewicht van baby’s in Vlaanderen. • g egevens: • s oort gegevens:

• p opulatie:

• s oort steekproef:

b) De tevredenheid van de leerlingen van de school over het nieuwe schoolreglement. • g egevens:

• s oort gegevens: • s oort steekproef:

• p opulatie:

c) Het aantal kinderen van de gezinnen die in België wonen. • g egevens:

ke x

• s oort gegevens: • p opulatie:

• s oort steekproef:

d) De inhoud van een flesje bier dat van een automatische vulmachine komt.

kij

• g egevens:

• s oort gegevens:

• p opulatie:

• s oort steekproef:

e) Het favoriete merk van smartphone van de Vlamingen. • g egevens: • s oort gegevens: • p opulatie: • s oort steekproef: f) De bloedgroep van mensen. • g egevens: • s oort gegevens: • p opulatie: • s oort steekproef:

HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS

In elk van de onderzoeken is een gerichte steekproef aangewezen. Geef 5 criteria die de representativiteit bevorderen. a) Het aantal uren per week dat een scholier aan sport doet. • • • • •

•

b) De tevredenheid over het openbaar vervoer in Vlaanderen.

•

ke x

c) De slaagkans in het hoger onderwijs.

kij

d) De vrijetijdsbesteding van mensen.

Eindelijk eens wat vrije tijd gekregen van het baasje!

• • • • •

e) Het aantal kinderen per gezin in België.

•

1 2 3

HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS

REEKS B 4

Om de vraag te beantwoorden of ouders, indien ze zouden mogen kiezen, nog kinderen zouden willen, houdt een dagblad een enquête. Er komen 180 reacties waaruit blijkt dat 30 % geen kinderen meer zou willen. Waarom is het verkregen percentage niet betrouwbaar? • • •

Een lokale radiozender beweert dat 1 op de 2 mensen dagelijks naar hun programma’s luistert. Waarom neem je die bewering het best met een flinke korrel zout?

•

ke x

‘Bij dopingcontroles zijn er dit jaar meer positieve gevallen dan vorig jaar.’ Kun je hieruit besluiten dat er meer dopingzondaars zijn?

kij

•

‘Nooit zo weinig positieve alcoholcontroles in vijf jaar’, kon je lezen in een plaatselijk dagblad op 15 februari 2019. ‘Tijdens de BOB-campagne van afgelopen winter hadden slechts 12 gecontroleerde personen te veel gedronken. Dat is het laagste cijfer van de laatste vijf campagnes.’ Welke bedenkingen kun je maken over dit krantenartikel? •

•

HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS

Geef 5 onderzoeksvragen die je zou stellen bij een enquête over de volgende onderwerpen. a) De studiegewoonten van leerlingen in het middelbaar onderwijs. • • • • •

•

b) De arbeidsomstandigheden in Vlaanderen.

•

ke x

c) De interesse voor sport bij een 18-jarige.

kij

d) Het aandeel van kledij in het gezinsbudget in Vlaanderen. • • • • • e) Het smartphonegebruik van tieners.

•

3 4 5

HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS

Verklaar de schijnbare tegenstelling tussen beide grafieken. aantal mensen onder de 60 jaar in België

percentage mensen onder de 60 jaar in België 83.48 %

8 530 357 8 600 000

84.00 %

8 400 000

82.00 %

8 200 000

80.00 %

8 000 000 7 800 000

78.00 %

7 405 734

7 600 000

75.10 %

76.00 %

7 400 000

74.00 %

7 200 000

72.00 %

7 000 000 6 800 000

1955

70.00 %

2018

1955

2018

De tabel geeft de slaagpercentages aan de universiteit volgens studiegroep en geslacht, voor een groep van 10 000 meisjes en evenveel jongens. (Bron: prof. H. Callaert, Centrum voor Statistiek, Universiteit Hasselt) studiegroep

meisjes

jongens

inschrijvingen

geslaagden

inschrijvingen

geslaagden

4 584

50,00 %

4 000

49,00 %

humaan

5 000

41,00 %

2 400

40,00 %

exact

416

62,02 %

3 600

60,56 %

TOTAAL

10 000

46,00 %

10 000

51,00 %

kij

ke x

Medisch

a) Waarom lijken deze cijfers elkaar tegen te spreken?

b) Welke besluiten kun je in werkelijkheid trekken uit de tabel?

c) Is ‘exacte wetenschappen’ de ‘gemakkelijkste’ studiegroep?

HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS

STUDIEWIJZER Verzamelen van gegevens KUNNEN Statistische terminologie begrijpen en ermee kunnen omgaan. Het bespreken van steekproefproblemen. De onderzoeksvragen van een steekproef kritisch bekijken. Kritisch omgaan met besluiten die uit een steekproef worden getrokken.

CONTRACTWERK

kij

ke x

1 2

3 4

HOOFDSTUK 1 I VERZAMELEN VAN GEGEVENS

HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS

2.1 Verwerken van kwalitatieve gegevens

2.2 Verwerken van niet-gegroepeerde kwantitatieve gegevens

2.3 Verwerken van gegroepeerde

2.4 Het stengel- en bladdiagram

2.5 Opdrachten: deel 2

Studiewijzer

kij

ke x

kwantitatieve gegevens

nieuwe cartoon wordt aangeleverd bij correcties op eerste proef

HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS

2.1

Verwerken van kwalitatieve gegevens

2.1.1 Frequentietabel

Bij een steekproef wordt van 60 mensen de bloedgroep bepaald. De resultaten zie je in de tabel ruwe gegevens.

bloedgroep

n  i

f  i

40,00 %

8,33 %

3,33 %

48,33 %

100,00 %

Je krijgt een duidelijker beeld door een frequentietabel op te stellen.

De eerste kolom bevat de verschillende gegevens van de variabele ‘bloedgroep’. De volgorde speelt geen rol. Absolute en relatieve frequentie

Definitie

De absolute frequentie n  i van een gegeven is het aantal keer dat het gegeven voorkomt.

ke x

De relatieve frequentie f  i is het quotiënt van

n   de absolute frequentie en de omvang van de steekproef: f i = _   i    . n • D e som van de absolute frequenties is gelijk aan de omvang van de steekproef.

kij

• M eestal wordt de relatieve frequentie in procent uitgedrukt. • M ag men de 60 elementen van de steekproef willekeurig kiezen?

• V an hoeveel mensen van jouw klas mag je verwachten dat ze bloedgroep A hebben?

bloedgroep

antigeen antigeen antilichamen antilichamen A B A B

O 1

2 3

A B

4 5

HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS

2.1.2 Opstellen van een frequentietabel met ICT Met Excel

Open het bestand ‘BLOED.xlsx’ en ga als volgt te werk.

Je vindt de frequentietabel terug in het bestand ‘BLOED (frequentietabel).xlsx’. Met de grafische rekenmachine

Wie de grafische rekenmachine het aantal gegevens per soort wil laten tellen, zal de alfanumerieke waarden moeten omzetten naar getallen. Stel dan bijvoorbeeld A voor door 1, B door 2, ... De methode om numerieke gegevens te tellen wordt beschreven in § 2.2.2. Start de applicatie CellSheet.

Bekijk aandachtig de instructies (waarvan hiernaast een afdruk) die memo

a-lock

“ a-lock

test

A entry solve

math alphaje de alpha maal + eerste tevoorschijn komen als alpha

memo

“ a-lock

test

A entry solve

math alpha + Druk nogmaals

enter

drukt.

om de applicatie te starten.

ke x

a-lock

Je voert de gegevens in de applicatievariabele BLOED in. Daarvoor druk je table

Y L3

graph

angle

B }

apps

)

E matrix D entry solve

sin-1

enter

x-1

sin

kij

Voer in de eerste kolom de bloedgroepen in.

Om de bloedgroep A als tekst in te voeren moet je ‘A’ invoeren. memo

a-lock

“ a-lock

alpha

test

A entry solve

enter

math

alpha

Daarvoor druk je

In de tweede kolom voer je de absolute frequenties in. Om de relatieve frequenties te bepalen, ga je als volgt te werk: • I n de 1ste cel van de 3de kolom voer je B1/som(B$1:B$4) in. rcl

X a-lock

sto angle

alpha B

apps rcl

2nd

apps L4

angle

druk

a-lock

alpha

2 angle

5 B

apps

a-lock

alpha rcl

2nd

sto

L entry solve

}

)

enter

a-lock

alpha a-lock

alpha

format f3

zoom

terug naar C1

(om te kopiëren),

stat plot f1

en druk tenslotte

stat

2nd

alpha

• G a met de pijltoets druk

list

–:

sto

(om het bereik van het kopiëren aan te geven)

a-lock

alpha

calc

trace

(om te plakken). HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS

2.1.3 Grafische voorstellingen Het staafdiagram bloedgroep van 60 mensen 32 29 28 24

aantal personen

24 20 16

12 8

5 4

0 B

bloedgroep

Tekenen van een staafdiagram met de grafische rekenmachine

Start de applicatie CellSheet en open daarin de applicatievariabele BLOED. • G a naar het Menu (druk

table

graph

ke x

• K ies voor 4:Diagrammen (

• K ies voor 5:Staafdiagram (

• N aast categorieën voer je A1:A4 in.

kij

• N aast Serie1 voer je B1:B4 (of C1:C4) in. • N aast Naamserie voer je BLOED in.

• G a met de pijltoets naar helemaal onderaan. • S electeer TekPassend. • D ruk

entry solve

enter

calc

Druk je trace , dan kun je met de pijltoetsen de frequenties aflezen.

2 3 4 5

De verwerking in Excel vind je op diddit. HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS

Het cirkeldiagram bloedgroep van 60 mensen

40,00 %

48,33 % A B AB

8,33 %

3,33 %

Tekenen van een cirkeldiagram met de grafische rekenmachine

Start de applicatie CellSheet en open daarin de applicatievariabele BLOED. table

graph

ke x

• G a naar het Menu (druk

• K ies voor 4:Diagrammen(

• K ies voor 7:Cirkeldiagram (

kij

• N aast Categorieën voer je A1:A4 in. • N aast Serie1 voer je B1:B4 in.

• K ies voor Aantal (absolute frequentie) of Procent (relatieve frequentie).

• N aast Titel voer je BLOED in. • D ruk Druk je

entry solve

enter

calc

trace

bij Teken.

, dan kun je met de pijltoetsen

de frequenties aflezen.

De verwerking in Excel vind je op diddit.

HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS

Oefeningen REEKS A In een enquête onder 75 mensen ouder dan 65 jaar die nooit het internet gebruiken, werd gevraagd waarom ze dat niet doen. De respondenten konden telkens maar 1 antwoord aanduiden. V

aa G

V = niet vaardig met computer F = fysieke beperkingen

S = schadelijke inhoud, privacy A = andere reden

G = geen interesse D = te duur

a) Stel een frequentietabel op.

ke x

b) Wat is de meest voorkomende reden voor het niet gebruiken van het internet?

c) Voor hoeveel procent van de ondervraagden is de prijs niet de reden waarom ze geen internet gebruiken?

kij

d) Uit een onderzoek van van de VRT in 2018 blijkt dat 41 % van de 65-plussers nooit het internet gebruikt. Bereken hoeveel ouderen in Vlaanderen nooit het internet gebruiken omdat ze niet vaardig zijn met een computer. In Vlaanderen zijn er ongeveer 1 320 000 mensen ouder dan 65 jaar (cijfers van 2019).

2 3 4

e) Teken een staafdiagram voor de absolute frequentieverdeling. f) Teken een cirkeldiagram voor de relatieve frequentieverdeling.

HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS

Een directeur van een school wil, bij de opmaak van de uurroosters, alle leerkrachten 1 vrije dag toekennen. Aan 40 van de 110 leerkrachten van de school wordt gevraagd hun favoriete vrije dag aan te duiden. wo

a) Stel een frequentietabel op.

b) Mogen de 40 leerkrachten willekeurig gekozen worden?

c) Hoeveel procent kiest niet voor een verlenging van het weekend?

kij

ke x

d) Voldoen de resultaten uit de frequentietabel aan je verwachtingen? Waarom (niet)?

e) Interpreteer de cijfers van de frequentietabel naar de volledige populatie van de school.

f) Teken een staafdiagram voor de relatieve frequentieverdeling.

HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS

Een restaurateur heeft van de laatste 48 mensen die bij hem biefstuk aten, bijgehouden of ze de steak liever bleu (bijna rauw), saignant, à point of doorbakken wilden. à point

saignant

à point

saignant

bleu

saignant

à point

bleu

doorbakken

bleu

saignant

à point

saignant

à point

saignant

à point

doorbakken

saignant

bleu

saignant

doorbakken

saignant

à point

doorbakken

saignant

doorbakken

à point

saignant

à point

doorbakken

saignant

bleu

saignant

à point

saignant

à point

saignant

à point

doorbakken

bleu

saignant

à point

a) Stel een frequentietabel op.

b) Wat is de minst gekozen bakwijze?

c) Een nieuwe klant bestelt een biefstuk. Wat is de ‘kans’ dat hij zijn biefstuk bleu wil?

d) Als een biefstuk voor een klant te licht gebakken is, kan de keuken die biefstuk nog wat meer bakken. Als de steak te hard gebakken is, is het voer voor de hond. Op een dag vergeet de kelner aan 8 mensen te vragen hoe ze hun steak gebakken willen hebben. De kok bakt ze dan maar à point. Van hoeveel biefstukken mag je verwachten dat ze aan de hond zullen gevoederd worden?

e) Teken een cirkeldiagram voor de relatieve frequentieverdeling.

ke x

REEKS B

Aan 45 meisjes en evenveel jongens werd naar het hoofdbestanddeel van hun ontbijt gevraagd. Er was keuze tussen niet ontbijten (N), ontbijtgranen (G), brood (B), fruit (F) en melkproducten (M).

kij

MEISJES

JONGENS

a) Stel een frequentietabel op voor de meisjes, de jongens en voor beiden samen. b) Hoeveel procent neemt ontbijt? c) Wat zijn de 2 grootste verschillen tussen jongens en meisjes? 1

2 3 4

d) Maak een gepaste grafische voorstelling voor de relatieve frequentieverdeling, waarop zowel de cijfers voor de meisjes, de jongens en de totalen af te lezen zijn.

HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS

2.2

Verwerken van niet-gegroepeerde kwantitatieve gegevens

2.2.1 Frequentietabel Aan 90 mensen die hun rijbewijs B kwamen afhalen aan het gemeenteloket, werd gevraagd na hoeveel keer ze geslaagd waren voor het praktisch rijexamen. 1

Je stelt een frequentietabel op om de gegevens te ordenen.

De eerste kolom bevat de verschillende waarden x  i van het onderzochte discrete kwantitatieve kenmerk. Cumulatieve absolute en relatieve frequentie

Definitie

ke x

De cumulatieve absolute frequentie cn  i van het waarnemingsgetal x   i is het aantal keer dat een getal voorkomt dat kleiner dan of gelijk is aan x  i : c n  i = n  1 + n   2 + ... + n   i .

x  i

n  i

f  i

cn  i

cf  i

40 44,44 % 40 44,44 %

2 22 24,44 % 62 68,89 %

kij

De cumulatieve relatieve frequentie c f  iis het quotiënt van de cumulatieve absolute frequentie en de omvang van cn i  de steekproef: c f i = ___        . n

14,44 %

75 83,33 %

8,89 %

83 92,22 %

5,56 %

88 97,78 %

2,22 %

90 100,00 %

• D e som van de absolute frequenties van de k verschillende waarnemingsgetallen is gelijk aan k

de omvang n van de steekproef:  ∑   n i = n. i = 1

• V olgens een studie van de VAB (Vlaamse Automobilistenbond) in 2019 slaagt tussen 42 % (regio Brugge) en 60 % (regio Asse) van de deelnemers voor het praktisch rijexamen. Ga na of dit ook bij deze steekproef zo is.

• H oeveel mensen deden er hoogstens 2 keer over om te slagen? • H oeveel procent van de ondervraagden had minstens 4 pogingen nodig?

HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS

2.2.2 Opstellen van een frequentietabel met ICT Met Excel

Open het bestand ‘RIJBEW.xlsx’ en ga als volgt te werk.

Je vindt de frequentietabel ook terug in het bestand ‘RIJBEW (frequentietabel).xlsx’.

Met de grafische rekenmachine

• B reng de gegevens van de lijst RYBEW.8xl over in de werklijst L  1.

Om een lijst te zoeken gebruik je

en de pijltoetsen

Om op te slaan in L  1 druk je

del stat

ins list

2nd

rcl

2nd

sto

kij

ke x

• O m de frequenties van de verschillende waarden in L  1 te bepalen, voer je het programma FREQTAB uit. In L   2vind je de verschillende waarden en in L  3 de frequenties. Noteer deze frequentietabel op een apart blad.

• O m de frequentietabel te vervolledigen kun je binnen de lijsten blijven werken. Om grafische voorstellingen voor dit soort gegevens te maken kies je er het best voor om de frequentietabel opnieuw in te voeren in de applicatie CellSheet.  Om in de derde kolom de relatieve frequentie te berekenen, voer je in de cel C1 =B1/som(B$1:B$6) in. Druk hiervoor: rcl

X a-lock

sto angle



rcl

sto

a-lock

alpha

list

–:

a-lock

alpha

stat

2nd

angle

apps

a-lock

alpha rcl

2nd

sto

L entry solve

}

)

enter

Ga met de pijltoets druk F1 (

3 4

.  Vervolgens kopieer en plak je de formule in de cellen eronder.

apps

2nd

apps L6

angle

alpha

a-lock

alpha



stat plot f1

terug naar de eerste cel van kolom C, ) en druk

format f3

zoom

om te kopiëren.

Beweeg met de pijltoets naar C2 en druk formule te plakken.  Plak de formule ook in C3 en C6. HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS

calc

trace

om de gekopieerde

 Om in de vierde kolom de cumulatieve frequentie te verkrijgen:

voer in de cel D1 de formule =som(B$1:B1) in,  kopieer de formule,  plak de formule in de onderstaande cellen. 

 In de vijfde kolom kun je de cumulatieve relatieve frequentie

berekenen door in E1 de formule =D1/som(B$1:B$6) in te voeren, de formule te kopiëren en vervolgens te plakken in de onderliggende cellen.

 Wil je de relatieve frequenties als procenten zien met

2 decimalen, dan gebruik je de formules =afronden(B1/som(B$1:B$6) *100,2) en =afronden(D1/som(B$1:B$6)*100,2)

kij

ke x

HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS

2.2.3 Grafische voorstellingen Het staafdiagram het praktisch rijexamen 50,00 % 44,44 %

45,00 % 40,00 %

30,00 % 24,44 %

25,00 %

20,00 % 14,44 %

15,00 %

percentage geslaagden

35,00 %

8,89 %

10,00 %

5,56 %

0,00 %

5,00 %

2,22 % 6

aantal pogingen tot slagen

ke x

Het staafdiagram ontstaat door vanuit de roosterpunten (x  i , n   i) of (x  i , f   i) een lijnstuk of staafje te tekenen tot aan de horizontale as. Bij een staafdiagram mogen de staven elkaar zeker niet raken.

Tekenen van een staafdiagram met de grafische rekenmachine • O pen in de applicatie CellSheet de variabele RYBEW. • K ies Menu (

table

graph

kij

• K ies 4:Diagrammen.

• K ies 5:Staafdiagram.

• V ul de Categorie en de Serie in.

• B eweeg met de pijltoets naar onderen. • K ies TekPassend. • D ruk

entry solve

enter

De verwerking in Excel vind je op diddit.

3 4 5

HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS

Het lijndiagram het praktisch rijexamen 44 40 36

aantal geslaagden

32 28 24 20 16

8 4 0 2

aantal pogingen tot slagen

Het lijndiagram verbindt de roosterpunten (x  i , n   i) of (x  i , f   i) met lijnstukken.

Tekenen van een lijndiagram met de grafische rekenmachine

ke x

• O pen in de applicatie CellSheet de variabele RYBEW. • K ies Menu (

table

graph

• K ies 4:Diagrammen. • K ies 3:Lijndiagram.

kij

• V ul de Xreeks en Yreeks in.

• B eweeg met de pijltoets naar onderen. • K ies TekPassend. • D ruk

entry solve

enter

De verwerking in Excel vind je op diddit.

HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS

Het cumulatief staafdiagram het praktisch rijexamen

cumulatief aantal geslaagden

70 62

60 50 40

40 30 20 10 0

aantal pogingen tot slagen

Tekenen van een cumulatief staafdiagram met de grafische rekenmachine table

graph

• K ies Menu (

• K ies 4:Diagrammen.

• V ul de Xreeks en Yreeks in.

• B eweeg met de pijltoets naar onderen. • K ies TekPassend. entry solve

enter

• K ies 5:Staafdiagram.

• D ruk

• O pen in de applicatie CellSheet de variabele RYBEW.

Het cumulatief lijndiagram

80,00 % 70,00 % 60,00 % 50,00 %

kij

cumulatieve relatieve frequentie

90,00 %

ke x

het praktisch rijexamen

100,00 %

40,00 % 30,00 %

20,00 % 10,00 % 0,00 %

aantal pogingen tot slagen

Tekenen van een cumulatief lijndiagram met de grafische rekenmachine • O pen in de applicatie CellSheet de variabele RYBEW. • K ies Menu (

table

graph

• K ies 4:Diagrammen. 1

• K ies 3:Lijndiagram.

• V ul de Xreeks en Yreeks in.

3 4 5

• B eweeg met de pijltoets naar onderen. • K ies TekPassend. • D ruk

entry solve

enter

HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS

Oefeningen REEKS A Aan 90 Vlaamse gezinnen werd gevraagd naar het aantal kinderen. 2

a) Stel een frequentietabel op.

ke x

b) Eén op de zes gezinnen heeft kinderen.

c) Hoeveel procent van de gezinnen heeft 2 of 3 kinderen?

kij

d) Hoeveel gezinnen hebben hoogstens 1 kind?

e) Welk deel van de gezinnen heeft minstens 3 kinderen?

f) Iets meer dan de helft van de gezinnen heeft of kinderen. g) Geef, vanuit de frequentietabel, 2 voorbeelden om aan te tonen dat de steekproef het best niet veralgemeend wordt naar heel Vlaanderen.

h) Stel de enkelvoudige absolute frequentieverdeling voor met een lijndiagram. i) Teken een cumulatief diagram voor de cumulatieve relatieve frequenties.

HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS

In opdracht van een schoenenfabrikant werd aan 70 volwassen heren (ouder dan 18 jaar) de schoenmaat gevraagd. Om de ‘uitzonderlijk’ grote maten uit te sluiten werden enkel heren tussen 165 cm en 195 cm ondervraagd. 42

a) Stel een frequentietabel op.

b) Wat is de meest voorkomende schoenmaat?

c) Als de steekproef representatief zou zijn, hoeveel mannen op 5 000 zouden dan deze meest voorkomende schoenmaat hebben?

ke x

d) Hoeveel ondervraagde heren hebben een schoenmaat 44 of 45?

e) Hoeveel procent heeft hoogstens 40 als schoenmaat?

kij

f) Wat is de ‘kans’ om een man aan te treffen met een schoenmaat groter dan 44?

g) Teken een staafdiagram voor de enkelvoudige absolute frequentieverdeling. h) Teken een cumulatief lijndiagram voor de cumulatieve relatieve frequenties.

2 3 4 5

HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS

Je gooit 150 keer met 2 dobbelstenen en telt de som van het aantal ogen. 6

a) Stel een frequentietabel op.

ke x

kij

b) Stel dat je een weddenschap hebt afgesloten. Telkens je 9 of meer ogen gooit, ontvang je 0,50 euro. In de andere gevallen betaal je 0,20 euro. Zul je winst of verlies maken?

c) Vul de frequentietabel aan met de theoretische kansen op basis van de bovenstaande tabel. d) Vergelijk de resultaten.

e) Teken een lijndiagram voor de enkelvoudige relatieve frequentieverdeling. f) Teken een cumulatief staafdiagram voor de cumulatieve absolute frequenties.

HOOFDSTUK 2â&#x20AC;&#x201A; Iâ&#x20AC;&#x201A; VERWERKEN VAN GEGEVENS

2.3

Verwerken van gegroepeerde kwantitatieve gegevens

2.3.1 Frequentietabel Op www.klasse.be stond nevenstaand diagram.

het gemiddelde gewicht van de boekentas en de verhouding met het lichaamsgewicht van de leerling

Bespreek de gegevens voor het middelbaar onderwijs:

16 14 12 10

gewicht boekentas (kg)

leeftijd

17 jaar

verhouding gewicht boekentas/ eigen gewicht

18 %

In een school wordt een steekproef gedaan bij 80 leerlingen van de derde graad. Hun boekentas wordt gewogen op 10 gram nauwkeurig.

7 930 6 620 9 180 6 960 8 340 10 080 5 800 7 740 8 060 7 560 8 290 7 810

7 430 8 010 6 030 7 970

8 600 7 020 9 360 7 860 7 990 9 580 6 290 7 200 8 470 9 800 7 990 6 010 7 180 8 070 8 110

7 990 7 030 5 320 8 610

7 330 8 710 6 240 7 510

9 860 6 570 7 050 8 860 9 970 7 660 9 370 7 910

7 770

6 230 8 140 8 730 8 220 8 860 5 390 8 010 8 950 6 150 8 950 7 830 9 460 9 330 8 600 8 720 6 730 7 340 8 030 8 520 8 110 8 090 6 280 5 480 8 790 7 470 5 650 8 350 9 120 7 960 8 100 6 800 7 190

ke x

Omdat er te veel verschillende (continue) waarnemingsgetallen zijn, worden ze in klassen gegroepeerd. Werkwijze voor het maken van een gegroepeerde frequentietabel

kij

• B epaal het grootste en het kleinste gegeven. Het verschil is de variatiebreedte R (‘range’). R = 10 080 – 5 320 = 4 760

• A lle klassen zijn even breed en mogen elkaar niet overlappen. Een gegeven kan slechts tot 1 klasse behoren. • H et aantal klassen k is afhankelijk van het aantal te verwerken gegevens n. _ Vuistregel: k ∼ √ n   , als n < 200 _ _ √  n   = √ 80   ≈ 8,94

2 3 4

• P as de variatiebreedte aan zodat die een geheel veelvoud is van het gekozen aantal _ klassen. √   n   ≈ 8,94    ⇒ je kiest 8 klassen en R = 4 760 } vermeerdert de variatiebreedte R’ = 4 800

HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS

n  i

f  i

cn  i

cf  i

[5 300, 5 900[ 5 600

6,25 %

[5 900, 6 500[ 6 200

8,75 %

15,00 %

[6 500, 7 100[ 6 800

10,00 %

20 25,00 %

[7 100, 7 700[

12,50 %

37,50 %

[7 700, 8 300[ 8 000 24 30,00 % 54

67,50 %

[8 300, 8 900[ 8 600 13

16,25 %

83,75 %

[8 900, 9 500[ 9 200

10,00 %

93,75 %

[9 500, 10 100[ 9 800

6,25 %

80 100,00 %

klasse

m  i

7 400

80 100,00 %

R’     • De klassenbreedte = _____________      aantal klassen 4 = _______   800       = 600 8 • Elke klasse is een halfopen interval [a  i , b   i  [met b   i – a   i = de klassenbreedte. Het verschil tussen de bovengrens van de laatste klasse en de ondergrens van de eerste klasse is R’. Met andere woorden: b  k – a   1 = R'. a  1 = 5 300, b  k = 10 100 (10 100 – 5 300 = 4 800 = R’) a i + b i  • H et klassenmidden van de i-de klasse is m i =  _      . 2 Het klassenmidden is de vertegenwoordiger van zijn klasse en wordt gebruikt bij berekeningen en grafische voorstellingen.

• D e klassenfrequentie n   i van de i-de klasse is het aantal waarnemingsgetallen dat tot die klasse behoort. • D e andere begrippen zijn analoog als bij een niet-gegroepeerde frequentietabel.

Opmerking

Soms ligt een klassenindeling vast vanuit de aard van de gegevens. Als je bijvoorbeeld met leeftijden werkt, is een klassenbreedte 10 meer dan logisch. Enkele vragen

• B eschrijf welke soort steekproef je zelf zou uitvoeren in dit onderzoek.

• H oeveel boekentassen wegen tussen 7 100 g en 8 900 g?

ke x

• D rie op de tien boekentassen weegt tussen en • E en kwart van de boekentassen weegt minder dan • H oeveel boekentassen wegen meer dan 8 300 g?

kij

• G eef de betekenis van de cumulatieve relatieve frequentie van de vierde klasse.

• S tel dat een boekentas niet meer dan 10 % van het eigen lichaamsgewicht mag wegen.  H oeveel mag een boekentas wegen voor iemand van 73 kg?  H oeveel procent van de boekentassen weegt minder? Gebruik lineaire interpolatie.

• Hoeveel moet een boekentas wegen om tot de zwaarste helft te behoren?

HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS

2.3.2 Opstellen van een frequentietabel met ICT Met Excel Om de klassenfrequenties te bepalen, gebruik je de functie INTERVAL(gegevensmatrix, interval_verw). Die functie telt van een geselecteerd gebied (de gegevensmatrix) hoeveel elementen in een interval ]a, b] liggen, waarbij a en b twee opeenvolgende getallen zijn van de intervalverwijzing. Omdat men in de statistiek met intervallen van de vorm [a,b[ werkt, moet je een hulpkolom gebruiken: per klasse voer je de werkelijke klassenbovengrenzen in. Open het bestand ‘BKTAS.xlsx’ en ga als volgt te werk. • Selecteer de cellen C15 tot en met C22.

• Formule:

=INTERVAL(A1:L7;G15:G22). • Druk Shift + Ctrl + Enter.

• Het resultaat van de telling komt in de geselecteerde cellen te staan.

Je vindt de frequentietabel ook terug in het bestand ‘BKTAS (frequentietabel).xlsx’.

ke x

Met de grafische rekenmachine

• D e eenvoudigste manier om van een lijst ruwe gegevens de absolute klassenfrequenties te bepalen, is gebruikmaken van een grafische voorstelling van die gegevens.  V oor de ruwe gegevens uit de lijst BKTAS maak je een statistische stat plot f1

2nd

) van het 3de type

kij

plot (druk

waarbij Xlijst: BKTAS en Freq:1 is.

 H eel belangrijk om de frequenties te kunnen aflezen is

het aanpassen van het grafisch venster aan de klassenindeling.

 M et 1

calc

trace

kun je de frequenties aflezen.

Noteer deze frequenties voor later gebruik.

2 3 4 5

HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS

• J e werkt niet met de applicatie CellSheet maar gewoon met lijsten. Om te starten met lege werklijsten, voer je het programma WISLIJST uit. De rekenmachine TI84 laat niet toe te werken met de klassen op zich, je moet werken met de klassenmiddens. L1

list

 J e gaat naar de werklijsten door

te drukken. In de eerste lijst L  1breng je de klassenmiddens onder. Die kun je één voor één zelf invoeren of de formule ste ‘rij(1  midden + X * klassenbreedte, X, 0, aantal klassen – 1)’ gebruiken in het kolomhoofd (ook de aanhalingstekens invoeren!). Hiervoor druk je

catalog

[

V catalog

catalog

5 EE

J link

X,T,θ,n

L entry solve

}

X,T,θ,n

+ [

“ link

memo

U L6

U L5

stat

2nd

enter

)

list

“

catalog

[

catalog

memo

alpha

[

enter

[

entry solve a-lock

stat

 I n L   2voer je de absolute frequenties in.

 In L   3genereer je de relatieve frequenties (% op 0,01),

“ test

alpha

memo

L a-lock

)

2nd

}

[

“ entry solve

enter

list

–:

stat

2nd

Y catalog

)

alpha

}

2nd

kij

math

[

memo

a-lock

catalog

[

ke x

door in het kolomhoofd de formule ‘afronden(L  2 / som(L  2) * 100,2)’ in te voeren. Hiervoor druk je

 In L   4genereer je de cumulatieve frequenties door in

het kolomhoofd de formule ‘cumSom(L  2)’ in te voeren. Hiervoor druk je memo

a-lock

memo

enter

stat

2nd

“ entry solve

list

“

alpha

2nd

L a-lock

}

)

alpha

 In L   5genereer je de cumulatieve relatieve frequenties

(% op 0,01), door in het kolomhoofd de formule ‘afronden(L  4 / som(L  2) * 100, 2)’ in te voeren. Hiervoor druk je

2nd L a-lock

}

)

alpha

2 L2

math Z

2 memo

}

[

“ entry solve

enter

)

2nd L1

stat

2nd

Y catalog

list

–:

catalog

[

“ test

alpha

[

memo

a-lock

HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS

2.3.3 Grafische voorstellingen Het histogram boekentassen van leerlingen van de derde graad 32,00 %

30,00 %

28,00 %

24,00 %

16,25 %

16,00 % 12,50 % 12,00 %

10,00 %

aantal in procent

20,00 %

8,75 % 8,00 %

6,25 %

0,00 % [5 300,5 900[

[5 900,6 500[

[6 500,7 100[

4,00 %

[7 100,7 700[

[7 700,8 300[

[8 300,8 900[

[8 900,9 500[

6,25 %

[9 500,10 100[

massa in gram

De hoogte van elke rechthoek van het histogram toont de (relatieve) frequentie van een klasse. Tekenen van een histogram met de grafische rekenmachine

ke x

Om een histogram te tekenen voor de (relatieve) frequentieverdeling (voor de gegevens ingevoerd zoals onder 2.3.2)

kij

• K ies je vensterinstellingen aangepast aan de klassenindeling.

stat plot f1

• A ctiveer een statistische plot ( • K ies voor het 3de type. Vul naast Xlijst: L  1 en naast Freq: L   2 (of L   3) in.

2nd

• D ruk

table

graph

2 3 4

De verwerking in Excel vind je op diddit.

HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS

entry solve

enter

De frequentiepolygoon n  i

f  i

[4 700, 5 300[

5 000

0,00 %

[5 300, 5 900[

5 600

6,25 %

[5 900, 6 500[

6 200

8,75 %

[6 500, 7 100[

6 800

10,00 %

[7 100, 7 700[

7 400

12,50 %

[7 700, 8 300[

8 000

30,00 %

[8 300, 8 900[

8 600

16,25 %

[8 900, 9 500[

9 200

10,00 %

[9 500, 10 100[

9 800

6,25 %

[10 100, 10 700[

10 400

0,00 %

←

Een frequentiepolygoon is een gebroken lijn die de roosterpunten (m  i , n   i) of (m  i , f   i) verbindt en die aansluit op de horizontale as in de punten (a, 0) en (b, 0). Hierbij is a het klassenmidden van de klasse die de eerste klasse van de steekproef voorafgaat en b het klassenmidden van de klasse die op de laatste klasse van de steekproef volgt. Op die manier ontstaat een veelhoek of polygoon.

m  i

klasse

boekentassen van leerlingen van de derde graad 26

24 20 18

aantal boekentassen

16 14 12 10 8 6

ke x

4 2 0

5 000

5 600

6 200

6 800

7 400

8 000

8 600

9 200

9 800

10 400

massa in gram

kij

De verwerking in Excel vind je op diddit.

De oppervlakte onder het histogram en van de frequentiepolygoon voor n  i (f  i ) zijn gelijk. y 24 22 20 18 16 14 12 10 8 6 4 2

50 00 53 00 56 00 59 00 62 00 65 00 68 00 71 00 74 00 77 00 80 00 83 00 86 00 89 00 92 00 95 00 98 00 10 10 0 10 40 0

HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS

Tekenen van een frequentiepolygoon met de grafische rekenmachine Om de frequentietabel uit te breiden met • b ijkomende klassenmiddens, pas je de formule uit het kolomhoofd van L   1 aan: ‘rij(5000+X*600,X,0,9)’.

• e en eerste frequentie die 0 is, ga je in L  2op het eerste element ins

2nd

del

([INS]).

van de lijst staan en druk je

• e en laatste frequentie die 0 is, ga je naast het laatste klassenmidden staan, voer je 0 in en druk je

entry solve

enter

(Een gevolg van het invullen van de formules tussen

aanhalingstekens is dat alle andere lijsten ook aangepast worden.)

ke x

Om de frequentiepolygoon te tekenen • k ies je een venster aangepast aan de uitgebreide klassenindeling,

kij

• k ies je voor een statistische plot van het tweede type en vul je naast Xlijst:L  1 en naast Ylijst:L  2 (of L   3) in.

• D ruk

table

graph

2 3

De verwerking in Excel vind je op diddit.

4 5

HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS

Het ogief (cumulatieve frequentieverdeling) cn  i

cf  i

w.k.b.

Een ogief is een gebroken lijn die de roosterpunten (a  1, 0) en (b  i , c n  i) of (b  i , c f  i) met elkaar verbindt. Hierbij is a  1de klassenondergrens van de eerste klasse en b  i de klassenbovengrens van de i-de klasse. Bij deze grafische voorstelling wordt de cumulatieve frequentie van elke klasse dus toegekend aan de klassenbovengrens van de klasse, wat logisch is gelet op de betekenis van de cumulatieve frequenties. De klassenondergrens a  1van de eerste klasse is de klassenbovengrens van de klasse voorafgaand aan de eerste klasse van de steekproef. Deze klasse geef je de cumulatieve frequentie 0 of 0 %.

b.g.

0 0,00 % 5 6,25 % 5 890 12 15,00 % 6 490 20 25,00 % 7 090 30 37,50 % 7 690 54 67,50 % 8 290 67 83,75 % 8 890 75 93,75 % 9 490 80 100,00 % 10 090

5 300 5 900 6 500 7 100 7 700 8 300 8 900 9 500 10 100 ↑

boekentassen van leerlingen van de derde graad

100,00 %

90,00 %

70,00 % 60,00 % 50,00 %

cumulatief aantal

80,00 %

40,00 %

20,00 % 10,00 % 0,00 % 5 300

30,00 %

5 900

6 500

7 100

7 700

8 300

8 900

9 500

10 100

ke x

massa in gram

Tekenen van een ogief met de grafische rekenmachine Vermits je niet de klassenmiddens,

maar de klassengrenzen nodig hebt,

kij

voer je in L  6 die klassengrenzen in.

Daarvoor voer je in het kolomhoofd van L  6 de formule ‘L  1 + 300’ in.

Kies de gepaste vensterinstellingen. Om het ogief te tekenen voor de cumulatieve relatieve frequenties, kies je voor een statistische plot van het tweede type en vul je naast Xlijst:L  6 , naast Ylijst:L  5in en druk je

table

graph

De verwerking in Excel vind je online. Maak gebruik van het ogief om de volgende vragen op te lossen. • H oeveel procent van de boekentassen weegt minder dan 8 kg? • H oeveel moet een boekentas wegen om tot de 20 % zwaarste boekentassen te behoren? De paragrafen 2.4 (Het stengel- en bladdiagram) en 2.5 (Opdrachten: deel 2) vind je op diddit.

HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS

Oefeningen REEKS B Een conservenfabrikant krijgt klachten over de netto-inhoud van zijn blikken met erwtjes, die volgens de verpakking 1 liter zou moeten bedragen. Daarom laat hij een steekproef uitvoeren. Bij 40 van de lopende band genomen blikjes wordt de inhoud, in ml, bepaald. 996

990

1 004

1 003

1 006

1 005

997

999

1 000

991

981

982

1 003

1 015

1 001

998

1 012

1 023

997

996

1 015

1 027

1 011

994

1 020

981

1 005

977

988

1 000

987

990

999

1 013

988

998

b) Stel een frequentietabel op.

1 009

1 003

a) Over welk soort steekproef gaat het?

985

c) Geef de betekenis van de cumulatieve relatieve frequentie van de vierde klasse.

ke x

d) Hoeveel procent bevat te weinig erwtjes? e) Hoeveel conserven bevatten tussen 980 ml en 1 020 ml?

kij

f) Bepaal, via lineaire interpolatie, hoeveel blikjes meer dan 1 015 ml bevatten.

g) Stel de enkelvoudige absolute frequentieverdeling voor met een histogram. h) Teken een frequentiepolygoon voor de enkelvoudige relatieve frequenties. i) Stel de cumulatieve relatieve frequentieverdeling voor met een ogief. j) Los de vragen op met behulp van het ogief.

• H oeveel procent bevat minder dan 985 ml?

• H oeveel blikjes bevatten meer dan 1 012 ml?

• W elk deel van de blikjes bevat tussen 993 ml en 1 007 ml?

• H oeveel moet een blikje bevatten om tot de lichtste 25 % te behoren?

• V anaf welke inhoud behoort een blikje tot de zwaarste 10 %?

HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS

992

De tabel bevat de procentuele jaartotalen voor het vak wiskunde, van de 114 leerlingen die vorig jaar aan onze school afstudeerden. 56

a) Stel een frequentietabel op.

b) Hoeveel leerlingen zijn gedelibereerd voor wiskunde?

ke x

c) Hoeveel procent van de leerlingen behaalde tussen 60 % en 70 %?

d) Hoeveel procent van de leerlingen behaalde meer dan 75 %?

kij

e) Vanaf hoeveel procent behoorde een leerling tot de ‘betere helft’? Gebruik lineaire interpolatie.

f) Teken een frequentiepolygoon voor de enkelvoudige absolute frequenties. g) Stel de cumulatieve relatieve frequentieverdeling voor met een ogief. h) Los de vragen op met behulp van het ogief. • V anaf hoeveel procent behoorde een leerling tot het ‘betere kwart’? • J e behaalt onderscheiding als je jaartotaal tussen 67,5 % en 75 % ligt.

Hoeveel leerlingen kunnen aanspraak maken op deze graad? HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS

Een aardappelverwerkingsbedrijf heeft van 100 willekeurig gekozen aardappelen de massa, in gram, bepaald. 100

132

100

112

102

125

115

125

143

101

114

129

107

133

112

118

109

105

112

108

144

117

108

105

101

107

139

100

105

101

126

134

103

138

120

109

128

101

118

120

108

131

141

111

140

116

102

135

117

108

102

103

a) Stel een frequentietabel op.

108

105

133

102

118

141

101

118

119

130

b) Hoeveel aardappelen wegen minder dan 100 g?

ke x

c) Hoeveel procent van de aardappelen weegt tussen 75 g en 125 g? Gebruik lineaire interpolatie.

kij

d) Teken een frequentiepolygoon voor de enkelvoudige absolute frequenties. e) Teken een ogief voor de cumulatieve relatieve frequentieverdeling. f) Los de vragen op met behulp van het ogief. • H oeveel aardappelen wegen minder dan 115 g?

• H oeveel moet een aardappel wegen om tot de 25 % lichtste aardappelen te behoren?

3 4 5

• V anaf welke massa behoort een aardappel tot de 10 % zwaarste aardappelen?

HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS

a) Stel een frequentietabel op.

Van 90 kippeneieren wordt de massa in gram bepaald.

b) Geef de betekenis van de enkelvoudige relatieve frequentie van de derde klasse.

Stel dat er in een legbatterij 1 350 eieren per dag worden gelegd. Van hoeveel eieren mag je dan verwachten dat ze tot de derde klasse behoren?

ke x

c) Geef de betekenis van de cumulatieve relatieve frequentie van de derde klasse.

kij

d) Hoeveel eieren wegen tussen 58 g en 65 g? Gebruik lineaire interpolatie.

e) Teken een histogram voor de enkelvoudige absolute frequenties. f) Stel de cumulatieve relatieve frequentieverdeling voor met een ogief. g) Los de vragen op met behulp van het ogief. • E en ei krijgt het label XL als het minstens 73 g weegt.

Hoeveel procent van de eieren voldoet daaraan?

• H oeveel eieren wegen tussen 53 g en 61 g? • V anaf welke massa behoort een ei tot de zwaarste 25 %?

HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS

Een brouwer doet een aselecte steekproef om te weten te komen of de machines die de bierflesjes vullen, voldoende nauwkeurig werken. Op de etiketten van de bierflesjes staat dat de netto-inhoud 33 cl is. Van 50 flesjes wordt de inhoud, in cl, gecontroleerd. 32,6

33,3

32,5

33,2

34,5

31,8

34,4

31,7

34,3

32,9

32,5

33,6

33,1

34,2

31,4

32,6

34,6

34,9

33,4

31,6

34,5

35,1

35,3

34,1

34,2

31,1

34,2

32,7

34,6

32,2

33,8

34,4

31,7

35,6

33,9

32,1

33,7

32,3

33,7

31,9

33,5

32,6

34,8

35,7

32,8

a) Stel een frequentietabel op.

c) Hoeveel flesjes bevatten minstens 35 cl?

b) Hoeveel procent van de flesjes bevat te weinig bier?

d) Hoeveel procent van de flesjes bevat tussen 32 cl en 34 cl?

ke x

e) Hoeveel flesjes hebben een inhoud die hoogstens 0,5 cl afwijkt van wat op het etiket staat? Gebruik lineaire interpolatie.

f) Teken een histogram voor de enkelvoudige absolute frequentieverdeling.

kij

g) Teken een frequentiepolygoon voor de enkelvoudige relatieve frequenties.

h) Stel de cumulatieve relatieve frequentieverdeling voor met een ogief. i) Los de vragen op met behulp van het ogief. • H oeveel procent van de flesjes bevat meer dan 32,5 cl? • H oeveel moet een flesje bevatten om tot de 20 % minst gevulde flesjes te behoren?

• H oeveel procent van de flesjes heeft een inhoud die minstens 0,8 cl afwijkt van wat op het etiket staat?

3 4 5

HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS

REEKS C In onze hedendaagse maatschappij, waar stralen (radio, tv, smartphone, gps, internet, …) ons om de oren vliegen, is een nauwkeurige waarde van de lichtsnelheid belangrijk. De eerste redelijk nauwkeurige metingen van de lichtsnelheid werden meer dan 100 jaar geleden verricht door A.A. Michelson en Simon Newcomb. Hieronder staan 64 metingen verricht door Newcomb tussen juli en september 1882. De metingen stellen de tijd in microseconden (s) voor die een lichtstraal nodig had om een afstand te overbruggen van 7 443,37 m (van zijn laboratorium aan de Potomac-rivier tot aan een spiegel aan het Washington-monument en terug). 22

a) Stel een frequentietabel op.

b) Vul de tabel aan door, voor elke klasse, de benadering voor de lichtsnelheid te geven. Gebruik hiervoor het klassenmidden.

ke x

c) Hoeveel metingen leverden meer dan 30 microseconden op?

d) Hoeveel procent van de metingen leverde een lichtsnelheid op van minder dan 3 · 10  km/s?

kij

e) Teken een histogram voor de enkelvoudige relatieve frequenties. f) Stel een frequentietabel op waarbij de ondergrens van de eerste klasse 13,75 is en de klassenbreedte 2,5. g) Teken opnieuw een histogram voor de enkelvoudige relatieve frequenties. h) Hoewel beide histogrammen dezelfde gegevens voorstellen, laat het ene histogram iets meer zien dan het andere. Wat?

De oefeningen 14 tot en met 16 vind je op diddit.

HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS

STUDIEWIJZER Verwerken van gegevens 2.1 Verwerken van kwalitatieve gegevens KENNEN De absolute frequentie n  i van een gegeven is het aantal keer dat het gegeven voorkomt. De relatieve frequentie f  iis het quotiënt van de absolute frequentie en de omvang van n   de steekproef: f i = _   i    . n

KUNNEN

Een frequentietabel voor een kwalitatief kenmerk opstellen en interpreteren. Grafische voorstellingen maken van de frequentieverdeling: staafdiagram en schijfdiagram.

KENNEN

2.2 Verwerken van niet-gegroepeerde kwantitatieve gegevens

De absolute frequentie n  i van het waarnemingsgetal x  i is het aantal keren dat dit gegeven voorkomt.

De relatieve frequentie f  i is het quotiënt van de absolute frequentie en de omvang n   van de steekproef: f i = _   i    . n

De cumulatieve absolute frequentie cn  i van het waarnemingsgetal x  i is het aantal keer dat een getal voorkomt dat kleiner dan of gelijk is aan x  i : cn  i = n  1 + n  2 + ... + n  i .

De cumulatieve relatieve frequentie cf  i is het quotiënt van de cumulatieve absolute frequentie cn i  en de omvang van de steekproef: c f i =   ____      . n

ke x

KUNNEN

kij

2.3 Verwerken van gegroepeerde kwantitatieve gegevens KENNEN

De variatiebreedte R is het verschil tussen het grootste en het kleinste gegeven.

a i + b i  Het klassenmidden van de i-de klasse is m i =   _      . 2

De klassenfrequentie n  i van de i-de klasse is het aantal waarnemingsgetallen dat tot die klasse behoort.

CONTRACTWERK

3 4 5

HOOFDSTUK 2 I VERWERKEN VAN GEGEVENS

HOOFDSTUK 3 I STATISTISCHE KENTALLEN

3.2 Het (rekenkundig) gemiddelde

3.3 De mediaan

3.4 De modus

3.5 Kwartielen

3.1 Centrummaten

3.6 Spreidingsmaten

3.7 Spreiding ten opzichte van de mediaan

3.8 Spreiding ten opzichte van het gemiddelde 83 3.9 Opdrachten: deel 3 88 95

kij

ke x

Studiewijzer

nieuwe cartoon wordt aangeleverd bij correcties op eerste proef

HOOFDSTUK 3 I STATISTISCHE KENTALLEN

3.1

Centrummaten Op een na warmste juli 2018 ooit gemeten

Helft boeken basisonderwijs ouder dan 9 jaar

Belgische gezinnen besteden 11 procent van uitgaven aan transport

kij

ke x

LONDEN - Een doorsnee mens zou misschien meer mogen eten dan tot dusver werd aangenomen. De bekende calorierichtlijn van 2000 calorieën per dag voor een vrouw en 2500 voor een man, zou te zuinig zijn.

1 2

3 4 5

Om tot bovenstaande besluiten te komen, gebruikt men kenmerkende getallen die het centrum van een gegevensrij weergeven. Deze centrummaten vatten een tabel gegevens samen. De meest gekende centrummaat is het rekenkundig gemiddelde, maar ook de mediaan en de modus zijn veelgebruikte statistische kentallen om het geheel te specifiëren. Kwartielen en centielen worden gebruikt om een gegevensrij in categorieën onder te verdelen. HOOFDSTUK 3 I STATISTISCHE KENTALLEN

3.2

Het (rekenkundig) gemiddelde

3.2.1 Definitie Rekenkundig gemiddelde

Definitie

_ Het rekenkundig gemiddelde x     van een rij numerieke gegevens is gelijk aan de som van die gegevens, gedeeld door het aantal gegevens. n

  ∑  x    i  x 1 + x 2 + ... + x n  _____ _ _____________ Als een steekproef n gegevens oplevert, dan is het gemiddelde x     =         =   i = 1     n n Opmerkingen

• H et gemiddelde heeft dezelfde eenheid als de waarnemingsgetallen (cm, kg ...).

• J e rondt het gemiddelde af op 1 cijfer meer na de komma dan de oorspronkelijke gegevens.

3.2.2 Voorbeeld 2011

2012

2013

2014

2015

2016

2017

2018

jaar

De tabel bevat het aantal tot het verkeer toegelaten nieuwe personenauto’s voor de periode 2011-2018.

aantal nieuwe 577 382 personenwagens

490 711 486 065 482 939 501 066 539 519 546 558 550 384

ke x

• Bereken het gemiddeld aantal nieuwe personenwagens per jaar.

3.2.3 Berekening van het gemiddelde met ICT

kij

Met Excel

Open het bestand ‘AUTO.xlsx’. Je berekent het gemiddelde in cel B4: B4: =GEMIDDELDE(B2:I2)

Met de grafische rekenmachine

Voer de gegevens in de werklijst L  1 in (of open AUTO.8xl). Je berekent het gemiddelde met • o fwel gemiddelde( list

2nd

stat

• o fwel Stat 1-Var e

(gemiddelde L   1 of gemiddelde LAUTO)

list

stat

(Stat 1-Var L  1 of Stat 1-Var LAUTO)

Voorbeeld Bereken het gemiddeld aantal pogingen dat iemand nodig had om te slagen voor het rijexamen (§ 2.2.1).

HOOFDSTUK 3 I STATISTISCHE KENTALLEN

3.2.4 Berekening van het gemiddelde uit een frequentietabel Niet-gegroepeerde gegevens Stel dat er k verschillende waarnemingsgetallen x   izijn met respectievelijke frequenties n   i . Formule

  ∑     n i ? x  i k _ ________ i = 1   =   x          , met n =   ∑   n     i n i = 1 Voorbeeld De klassen 6A en 6B kregen een toets wiskunde. x  i (punten op 10)

n  i (aantal leerlingen)

_ • Bereken het gemiddelde:  x    =

• Als je score boven het gemiddelde ligt, behoor je dan automatisch tot de 'betere helft' van de klas?

• Wat betekent het gemiddelde in dit voorbeeld?

Gemiddelde volgens definitie met de grafische rekenmachine

ke x

Om het gemiddelde via de definitie te berekenen • voer je in L 1het te behalen punten in en in L 2het aantal leerlingen (of sla je LPUNT op in L 1en LLLN op in L 2); • bereken je de producten n i ⋅ x i door L   1*L   2 in L  3op te slaan;

kij

• bereken je in het basisscherm  de som van de frequenties: s om (L 2)  de som van de n i ⋅ x i: s om (L 3)  het quotiënt van de twee sommen. Met de grafische rekenmachine

Voer de gegevens in de werklijsten L  1 , L  2 in. Je berekent het gemiddelde met ofwel gemiddelde(L  1 , L  2) L3

list

L entry solve

}

)

enter

1 2

3 4 5

HOOFDSTUK 3 I STATISTISCHE KENTALLEN

stat

2nd

ofwel Stat 1-Var L  1 , L  2

2nd

list

2nd

stat entry solve

enter

2nd

Gegroepeerde gegevens Stel dat er k klassen zijn met respectievelijke klassenmiddens m   ien klassenfrequenties n   i . Formule

∑     n i ? m  i k _  i = 1 ________   ≈   x         , met n =   ∑   n     i n i = 1 Voorbeeld gemiddelde leeftijd van de bevolking

46 44 42 40

Volgens de vooruitzichten van het Federaal Planbureau, zou de bevolking in België stijgen naar 13,2 miljoen in 2070. Men voorziet een trage stijging van het vruchtbaarheidscijfer (het gemiddeld aantal kinderen per vrouw) en een steeds hogere levensverwachting. Dit heeft tot gevolg dat de gemiddelde leeftijd van de Belg steeds toeneemt.

2001

België

2011

2021

Vlaams Gewest

2031

2041

2051

Brussels Hoofd. Gewest

2061 Waals Gewest

32 1991

Bron: Demografische vooruitzichten 2018-2070, FPB en Statbel

De tabel en het histogram geven de verdeling van de bevolking in België op 1 januari 2019. Er waren op dat moment 1 487 mensen ouder dan 100 jaar. Voor de eenvoud zijn die bij de klasse [90,100[ geteld. 1 800 000

leeftijd

aantal

[0, 10[

1 278 302

[10, 20[

1 283 577

[20, 30[

1 410 058

[30, 40[

1 482 964

[40, 50[

1 508 894

[50, 60[

1 592 883

600 000

[60, 70[

1 324 928

400 000

[70, 80[

902 812

200 000

[80, 90[

534 651

[90, 100[

112 337

kij

ke x

1 600 000

aantal mensen

1 400 000 1 200 000 1 000 000 800 000

[0, 10[ [10, 20[ [20, 30[ [30, 40[ [40, 50[ [50, 60[ [60, 70[ [70, 80[ [80, 90[ [90, 100[

leeftijd

Op de volgende bladzijde bereken je de gemiddelde leeftijd van de Belgische bevolking op 1 januari 2019.

Wat denk je van ons gemiddelde?

HOOFDSTUK 3 I STATISTISCHE KENTALLEN

Met Excel

Open het bestand ‘LFT.xlsx’ en ga als volgt te werk.

Met de grafische rekenmachine

Om het gemiddelde via de definitie te berekenen

Je vindt de frequentietabel ook terug in het bestand 'LFT(gemiddelde).xlsx'.

• Voer je de klassenmiddens in lijst L  1 en de frequenties in lijst L  2 in (of sla LLFTMI.8xl op in L  1 en LLFTNI.8xl op in L  2); • bereken je de producten n i ⋅ m i door L   1 ⋅ L  2 in L  3op te slaan;

kij

ke x

• bereken je in het basisscherm  de som van de frequenties: s om (L 2)  de som van de producten n i ⋅ m i: s om (L 3)  het quotiënt van de twee sommen.

De berekeningen (sommen en gemiddelde) kunnen heel wat eenvoudiger met Stat 1-Var (

1 2

list

stat

Na het uitvoeren van Stat 1-Var zijn _ de statische variabelen n, Σx,   x  , ... op te vragen via distr

vars

4 5

HOOFDSTUK 3 I STATISTISCHE KENTALLEN

3.2.5 Eigenschappen van het gemiddelde eigenschap

voorbeeld

Als je alle waarnemingsgetallen met eenzelfde factor ( ≠ 0) vermenigvuldigt, dan wordt ook het gemiddelde met die factor vermenigvuldigd.

Het klasgemiddelde voor een toets op 20 is 12,3. Bereken het klasgemiddelde in procent:

Als je bij elk waarnemingsgetal eenzelfde constante term optelt, dan wordt die term ook bij het gemiddelde opgeteld.

Het gemiddelde maandloon is 1 654,20 euro. Iedereen krijgt 25 euro opslag per maand. Het gemiddelde maandloon wordt

De som van de afwijkingen van alle waarnemingsgetallen ten opzichte van het gemiddelde is 0. n _   )  = 0   ∑   (  x  i − x 

x  i 10 12 14 16 18 x i − x̅   –4 –2 0 2 4 De positieve en de negatieve afwijkingen ten opzichte van het gemiddelde heffen elkaar op.

i = 1

1 800 000

1 600 000

De derde eigenschap wijst erop dat het gemiddelde beschouwd kan worden als een evenwichtspunt op een balans.

1 200 000

aantal mensen

1 400 000

1 000 000 800 000

400 000 200 000 0

[0, 10[

600 000

[10, 20[ [20, 30[ [30, 40[ [40, 50[ [50, 60[ [60, 70[ [70, 80[ [80, 90[ [90, 100[

leeftijd

ke x

3.2.6 Voor- en nadelen van het gemiddelde Het gemiddelde houdt rekening met alle gegevens en is zeer geschikt bij wetenschappelijk onderzoek.

kij

De tabel toont het aantal kinderen van 16 gezinnen. 2

Het gemiddelde is Hoeveel gezinnen hebben minder kinderen dan het gemiddelde?

Verwijder de ‘uitschieter’ en bereken opnieuw het gemiddelde: Hoeveel waarnemingsgetallen liggen nu onder het gemiddelde? Besluit:

Rond 1980 verwierpen bepaalde natuurvorsers het ontstaan van een gat in de ozonlaag van de atmosfeer boven de Zuidpool op basis van satellietgegevens. Later onderzoek bracht aan het licht dat de ozonmetingen boven de Zuidpool zo laag waren dat de gebruikte computersoftware ze systematisch als fout verwierp.

Het systematisch verwijderen van uitschieters is geen goede wetenschappelijke onderzoekshouding.

HOOFDSTUK 3 I STATISTISCHE KENTALLEN

3.3

De mediaan

3.3.1 Definitie Definitie

Mediaan De mediaan Me van een gerangschikte tabel met n waarnemingsgetallen is het getal met rangorde _____   n + 1       . 2 De mediaan is • h et middelste waarnemingsgetal van de tabel als n oneven is; • h et rekenkundig gemiddelde van de 2 middelste waarnemingsgetallen als n even is.

3.3.2 Voorbeelden

Voorbeeld 1: n is oneven

Bepaal de mediaan van de punten van 15 leerlingen voor een toets.

3    4 4 5 5 5 5 6          6 6    6 7 7 8 8 9               ↓ 7 leerlingen 7 leerlingen rangorde 8 Betekenis:

Voorbeeld 2: n is even

De mediaan is het getal met rangorde 8, dus Me = 6.

ke x

Neem opnieuw het voorbeeld van het aantal kinderen van 16 gezinnen (§ 3.2.6). Je ziet de gegevens gerangschikt van klein naar groot. 0 0 0 1 1 1 1 2 2 2 2 3 3 3 4 9 De mediaan is het getal met rangorde , dus Me =

kij

Betekenis:

3.3.3 Berekening van de mediaan met ICT

Met Excel

Open het bestand ‘AUTO.xlsx’. Je berekent de mediaan in cel B5: B5: =MEDIAAN(B2:I2)

Met de grafische rekenmachine Je berekent de mediaan met • ofwel mediaan( list

2nd

stat

(mediaan L 1 of mediaan LAUTO)

• ofwel Stat 1-Var list

stat

(Stat 1-Var L 1 of Stat 1-Var L AUTO)

1 2

3 4 5

Voorbeeld Bereken de mediaan van het aantal pogingen nodig om te slagen voor het rijexamen (§ 2.2.1): HOOFDSTUK 3 I STATISTISCHE KENTALLEN

3.3.4 Berekening van de mediaan uit een frequentietabel Niet-gegroepeerde gegevens De klassen 6A en 6B kregen een toets wiskunde. x  i (punten op 10)

n  i (aantal leerlingen)

cn  i

Om de mediaan te bepalen, gebruik je de cumulatieve frequentieverdeling. De mediaan is het getal met rangorde , dus Me =

Betekenis:

Met de grafische rekenmachine

Breng je de x ionder in L 1en de n iin L 2 dan kun je de mediaan berekenen met of

Stat 1-Var L 1 , L 2.

ke x

Gegroepeerde gegevens

mediaan(L 1 , L 2)

De tabel geeft de verdeling van de bevolking in België op 1 januari 2019. aantal

cn  i

cf  i

[0, 10[

1 278 302

11,18 %

kij

leeftijd

• D e mediaan ligt in de klasse [40, 50[. Die klasse noem je de mediaanklasse.

1 283 577

2 561 879

22,41 %

[20, 30[

1 410 058

3 971 937

34,75 %

• B enadering van de mediaan met lineaire interpolatie:

[30, 40[

1 482 964 5 454 901

47,72 %

Me ≈

[10, 20[

[40, 50[

1 508 894 6 963 795

60,92 %

[50, 60[

1 592 883 8 556 678

74,85 %

[60, 70[

1 324 928 9 881 696

86,44 %

[70, 80[

902 812

10 784 418

94,34 %

[80, 90[

534 651

11 319 069

99,02 %

[90, 100[

112 337

11 431 406 100,00 %

1 143 406 • B etekenis:

HOOFDSTUK 3 I STATISTISCHE KENTALLEN

Met de grafische rekenmachine Om de mediaan te bepalen bij gegroepeerde gegevens gebruik je niet Stat 1-Var. De rekenmachine kent geen klassen, alleen de klassenmiddens. Bijgevolg is de mediaan bekomen met Stat 1-Var een klassenmidden. Om de mediaan via interpolatie te berekenen, gebruik je het programma STATKLAS.

naar het basisscherm (

mode

entry solve

enter

. Kies voor 1:UITVOERING 2:BEREKENINGEN

 Druk

quit

2nd

 Eenmaal de gegevens ingevoerd keer je terug

• Start het programma STATKLAS , kies voor 2:INVOER en vul telkens het gevraagde in. • Plaats vervolgens de frequenties in L 2. Begin zoals gevraagd bij L 2(2)

Opmerking

In de plaats van de gegevens in L 2in te voeren via

list

stat

kun je ook een bestaande lijst toewijzen aan L 2, maar dan moet je wel ins

del

2nd

( [INS] ).

ke x

nog een eerste element 0 invoeren met

kij

Je kunt de mediaan ook benaderen uit het ogief. 100.00 % 90.00 %

1 2

cumulatieve relatieve frequentie

80.00 % 70.00 % 60.00 % 50.00 % 40.00 % 30.00 % 20.00 % 10.00 % 0.00 %

4 5

Me ≈

HOOFDSTUK 3 I STATISTISCHE KENTALLEN

leeftijd

100

3.3.5 Voor- en nadelen van de mediaan • Neem opnieuw het voorbeeld van het aantal kinderen van 16 gezinnen (§ 3.2.6). 0

0 1 _      x=

Me =

De mediaan is, door zijn gedefinieerde centrale ligging, niet vatbaar voor uitschieters.

• Voor een toets wiskunde behaalden 15 leerlingen van een klas de volgende punten. 6

Me =

De mediaan houdt enkel rekening met de rangorde van de gegevens, niet met de waarde ervan.

De modus

3.4.1 Definitie Definitie

3.4

Modus

De modus Mo is het waarnemingsgetal met de grootste enkelvoudige frequentie. De modale klasse is de klasse met de grootste enkelvoudige frequentie

ke x

In het geval waarbij er meerdere waarnemingsgetallen of klassen zijn met een grootste enkelvoudige frequentie, wordt de modus of modale klasse niet gedefinieerd.

3.4.2 Voorbeelden Voorbeeld 1

kij

Bepaal de modus voor de punten van de klasse 6A en 6B voor een toets wiskunde (§ 3.3.4). Mo =

Voorbeeld 2

Bepaal de modale leeftijdsklasse van de Belgische bevolking (§ 3.3.4). Modale klasse =

HOOFDSTUK 3 I STATISTISCHE KENTALLEN

3.5

Kwartielen

3.5.1 Definitie Kwartielen

Definitie

Het eerste kwartiel Q  1is het getal met rangorde _____  n + 1     . 4 Het tweede kwartiel Q  2is het getal met rangorde _____  n + 1     . 2 3 ⋅ (n + 1) Het derde kwartiel Q  3is het getal met rangorde ________         . 4

25 %

De kwartielen verdelen de gegevensrij in 4 delen met evenveel waarnemingsgetallen. Het tweede kwartiel Q  2is de mediaan Me.

3.5.2 Voorbeeld

Aan 16 gezinnen werd het aantal kinderen gevraagd.

25 %

0 0 0 1 1 1 1 2 2 2 2 3 3 3 4 9 • Q  1 heeft rangorde ⇒ Q  1 =

Betekenis:

ke x

• Q  2 heeft rangorde ⇒ Q   2 = Betekenis:

• Q  3 heeft rangorde ⇒ Q   3 =

kij

Betekenis:

3.5.3 Berekening van de kwartielen met ICT Met Excel

Open het bestand ‘AUTO.xlsx’. Je berekent het 1ste en 3de kwartiel in de cellen B6 en B7 B6: =KWARTIEL(B2:I2;1) B7: =KWARTIEL(B2:I2;3)

Met de grafische rekenmachine Je berekent de kwartielen met 1-Var Stats (met de pijltoets naar beneden)

1 2

3 4 5

Voorbeeld Bereken de kwartielen van het aantal pogingen nodig om te slagen voor het rijexamen (§ 2.2.1). HOOFDSTUK 3 I STATISTISCHE KENTALLEN

3.5.4 Berekening van de kwartielen uit een frequentietabel Niet-gegroepeerde gegevens De klassen 6A en 6B kregen een toets wiskunde. x  i (punten op 10)

n  i (aantal leerlingen)

cn  i

cf  i

Je bepaalt de 25 %-grens, de 50 %-grens en de 75 %-grens.

Q  1 = Q  2 = Q  3 =

Met de grafische rekenmachine

Bij niet-gegroepeerde gegevens kunnen de kwartielen eenvoudig berekend worden met 1-Var Stats.

ke x

Gegroepeerde gegevens

De tabel geeft de verdeling van de bevolking in België op 1 januari 2019. aantal

cn  i

cf  i

[0, 10[

1 278 302

11,18 %

[10, 20[

1 283 577

5 561 879

22,41 %

[20, 30[

1 410 058

3 971 937

34,75 %

[30, 40[ 1 482 964 5 454 901

47,72 %

kij

leeftijd

[40, 50[ 1 508 894 6 963 795 60,92 %

[50, 60[ 1 592 883 8 556 678

74,85 %

[60, 70[ 1 324 928 9 881 606 86,44 %

[70, 80[

902 812

10 784 418 94,34 %

[80, 90[

534 651

11 319 069 99,02 %

[90, 100[

112 337

11 431 406 100,00 %

11 431 406

Bepaal de kwartielen door lineaire interpolatie.

Betekenis:

HOOFDSTUK 3 I STATISTISCHE KENTALLEN

Met de grafische rekenmachine Om op een correcte manier de kwartielen te berekenen gebruik je het programma STATKLAS.

Indien de werklijsten L  1 en L   2leeg zijn, kies je voor 2:INVOER en ga je te werk zoals bij de mediaan, anders kies je voor 1:UITVOERING en 2:BEREKENINGEN

Opmerking list

In plaats van de gegevens in L  2in te voeren via

stat

kun je ook een bestaande lijst toewijzen aan L  2, maar dan moet je wel ins

([INS]).

nog een eerste element 0 invoeren met

2nd

del

ke x

Je kunt de kwartielen ook benaderen uit het ogief. 100.00 % 90.00 %

70.00 % 60.00 %

cumulatieve relatieve frequentie

kij

80.00 %

50.00 % 40.00 % 30.00 % 20.00 % 10.00 %

0.00 %

4 5

40Me

leeftijd

20 Q1

60 Q3

Q  1 ≈ Q  2 ≈ Q  3 ≈

HOOFDSTUK 3 I STATISTISCHE KENTALLEN

100

Oefeningen REEKS A 1

In opdracht van een schoenenfabrikant werd aan 70 volwassen heren (ouder dan 18 jaar) de schoenmaat gevraagd. Om de ‘uitzonderlijk’ grote maten uit te sluiten, werden enkel heren tussen 165 cm en 195 cm ondervraagd. 41 42 42 40 43 42 43

42 41 39 45 42 38 41

39 38 41 41 43 42 47

42 41 43 43 41 46 41

40 43 46 42 46 48 44

44 43 42 45 40 45 45

c) Bepaal de modus en geef de betekenis.

43 40 43 42 45 43 43

b) Bepaal de mediaan en geef de betekenis.

41 45 42 43 42 44 47

44 43 41 40 43 41 46

a) Bereken het gemiddelde en geef de betekenis.

43 42 42 41 47 44 41

ke x

d) Bepaal de kwartielen en geef telkens de betekenis.

Je gooit 150 keer met 2 dobbelstenen. De som van het aantal ogen wordt geteld. 6

kij

a) De helft van de worpen bedroeg minstens b) Het meest voorkomende aantal ogen is c) Een kwart van de worpen bedroeg hoogstens d) Bereken het gemiddelde en verklaar de ligging ten opzichte van de mediaan en de modus.

HOOFDSTUK 3 I STATISTISCHE KENTALLEN

REEKS B 3

In een school wordt een steekproef gedaan bij 80 leerlingen van de derde graad. Hun boekentas wordt gewogen op 10 gram nauwkeurig. 7 930

6 620

9 180

6 960

8 340 10 080 5 800

7 740

8 060

7 560

8 290

7 810

8 600

7 020

9 360

7 860

7 990

9 580

6 290

7 200

8 470

9 800

7 990

6 010

7 430

8 010

6 030

7 970

7 180

8 070

8 110

7 990

7 030

5 320

8 610

7 770

9 860

6 570

7 050

8 860

9 970

7 660

9 370

7 910

7 330

8 710

6 240

7 510

6 230

8 140

8 730

8 220

8 860

5 390

8 010

8 950

6 150

8 950

7 830

9 460

9 330

8 600

8 720

6 730

7 340

8 030

8 520

8 110

8 090 6 280

5 480

8 790

7 470

5 650

8 350

9 120

7 960

8 100

6 800

7 190

b) De helft van de boekentassen weegt minstens

a) Bereken het gemiddelde en geef de betekenis.

c) Bepaal de modale klasse uit de frequentietabel van § 2.3.1:

d) Bespreek de ligging van het gemiddelde en de mediaan ten opzichte van elkaar en de modale klasse.

Wat kun je hieruit besluiten?

Een conservenfabrikant krijgt klachten over de netto-inhoud van zijn blikken met erwtjes, die volgens de verpakking 1 liter zou moeten bedragen. Daarom laat hij een steekproef uitvoeren. Bij 40 van de lopende band genomen blikjes wordt de inhoud, in ml, bepaald.

kij

ke x

e) Bepaal de kwartielen en geef de betekenis.

985

996

990

1 004

1 003

1 006

1 005

997

999

1 000

991

981

982

1 003

1 015

1 001

998

1 012

1 023

997

996

1 015

1 027

1 011

994

1 020

981

1 005

977

988

1 000

987

990

999

1 013

988

998

1 009

1 003

992

a) Onderzoek met 2 centrummaten of de klachten gegrond zijn of niet. 1

3 4

b) Een kwart van de blikjes heeft een inhoud van minstens

HOOFDSTUK 3 I STATISTISCHE KENTALLEN

Om de maat van een hemd te bepalen wordt de omtrek van de hals, in cm, gemeten. Hierbij wordt een extra ruimte vrijgehouden van ongeveer ‘2 vingers’. Daarnaast moet je ook rekening houden met je figuur (‘tight fit’, ‘regular fit’, ...). De tabel bevat de maten van de hemden die in 1 week zijn verkocht in een kledingzaak. a) Maak een volledige frequentietabel.

maat

n  i

c) Bereken de gemiddelde maat:

d) De helft van de hemden heeft hoogstens maat

e) Bepaal de kwartielen en geef de betekenis

b) Welke maat komt het meeste voor?

Bij een wielerwedstrijd wordt de hematocrietwaarde van een aantal renners gemeten. De resultaten staan in de tabel.

kij

ke x

Uit de wielersport komen de laatste jaren veel berichten over dopinggebruik. Een van de meest genoemde stoffen is erytropoëtine, kortweg epo. Dit middel bevordert de aanmaak van rode bloedlichaampjes, waardoor het zuurstoftransport van het bloed wordt vergroot en wielrenners beter presteren. De hematocrietwaarde is de hoeveelheid rode bloedlichaampjes als percentage van de totale hoeveelheid bloed. Die hematocrietwaarde stijgt dus als een wielrenner epo gebruikt.

n  i

hematocriet

a) Maak een volledige frequentietabel. b) Bereken de gemiddelde hematocrietwaarde:

Geef de betekenis van die gemiddelde waarde.

c) Bepaal de mediaan en geef de betekenis.

d) Een kwart van de renners heeft een hematocrietwaarde die hoogstens

bedraagt.

HOOFDSTUK 3 I STATISTISCHE KENTALLEN

Van 860 komkommers die in de veiling verhandeld worden, is de lengte, in cm, gemeten. a) Maak een volledige frequentietabel.

lengte

n  i

[28, 31[

[31, 34[

c) Teken het ogief voor de cumulatieve relatieve frequenties.

[34, 37[

135

d) Bepaal de mediaan met behulp van het ogief en geef de betekenis.

[37, 40[

162

[40, 43[

178

[43, 46[

121

[46, 49[

[49, 52[

[52, 55[

b) Bereken de gemiddelde lengte:

e) Bepaal de kwartielen met behulp van het ogief en geef de betekenis.

n  i

[1 100, 1 400[

[1 400, 1 700[

[1 700, 2 000[

[2 000, 2 300[

[2 300, 2 600[

[2 600, 2 900[

[2 900, 3 200[

[3 200, 3 500[

[3 500, 3 800[

[3 800, 4 100[

[4 100, 4 400[

[4 400, 4 700[

a) Maak een volledige frequentietabel.

b) Bereken het gemiddelde geboortegewicht:

gewicht

Van de 163 kinderen die vorig jaar in een kraamkliniek werden geboren, is het geboortegewicht, in g, opgetekend.

c) Benader de mediaan door lineaire interpolatie en geef de betekenis.

ke x

kij

d) Benader de kwartielen Q  1 en Q   3 door lineaire interpolatie en geef de betekenis. 1 2

3 4 5

HOOFDSTUK 3 I STATISTISCHE KENTALLEN

REEKS C 9

Het ogief toont gegevens over de duur van een menselijke zwangerschap. duur van de zwangerschap

100 %

93 %

90 %

81 %

70 %

60 % 60 % 50 %

35 %

40 %

30 %

16 %

20 % 10 %

0% 220

230

240

250

cumulatieve relatieve frequentie

80 %

260

270

280

290

300

aantal dagen

a) De helft van de zwangerschappen duurt korter dan

b) Een kwart van de zwangerschappen duurt langer dan c) Bepaal de modale klasse en geef de betekenis.

ke x

d) Bereken het gemiddelde en geef de betekenis.

kij

e) Bespreek de ligging van het gemiddelde, de mediaan en de modale klasse.

HOOFDSTUK 3â&#x20AC;&#x201A; Iâ&#x20AC;&#x201A; STATISTISCHE KENTALLEN

3.6

Spreidingsmaten

Bron: dpa

80 % 70 % 60 % 50 % 40 %

kij

aantal bedienden in procent

90 %

100 %

18,00 % 16,00 %

aantal bedienden in procent

100 %

ke x

De histogrammen tonen de inkomens, in euro per maand, van de bedienden in 4 fictieve bedrijven. Hoe liggen de inkomens verdeeld tussen 1 200 euro en 2 600 euro?

30 % 20 %

14,29 %

8,00 % 6,00 % 4,00 %

30 % 30 %

30 %

aantal bedienden in procent

14,29 %

maandloon in euro

35 %

25 % 20 %

20 %

15 % 10 %

10 %

25 %

20 %

15 %

10 %

15 %

8% 4%

0% [1500,1700[ [1700,1900[ [1900,2100[ [2100,2300[ [2300,2500[ [2500,2700[ [2700,2900[

[1500,1700[ [1700,1900[ [1900,2100[ [2100,2300[ [2300,2500[ [2500,2700[ [2700,2900[

maandloon in euro

14,29 %

[1500,1700[ [1700,1900[ [1900,2100[ [2100,2300[ [2300,2500[ [2500,2700[ [2700,2900[

14,29 %

10,00 %

maandloon in euro

14,29 %

0,00 %

14,29 %

12,00 %

[1500,1700[ [1700,1900[ [1900,2100[ [2100,2300[ [2300,2500[ [2500,2700[ [2700,2900[

14,29 %

2,00 %

10 %

14,00 %

HOOFDSTUK 3â&#x20AC;&#x201A; Iâ&#x20AC;&#x201A; STATISTISCHE KENTALLEN

3.7

Spreiding ten opzichte van de mediaan

3.7.1 De variatiebreedte Variatiebreedte

Definitie

De variatiebreedte R (‘range’) is het verschil tussen het grootste en het kleinste waarnemingsgetal. Opmerking In een gegroepeerde frequentietabel is het verschil tussen de bovengrens van de laatste klasse en de ondergrens van de eerste klasse een benadering voor R. Voorbeelden

• A an 16 gezinnen werd het aantal kinderen gevraagd.

0 0 0 1 1 1 1 2 2 2 2 3 3 3 4 9 R =

• B ereken de variatiebreedte voor elk van de histogrammen van § 3.6.

Histogram linksboven: ; andere histogrammen:

Voor- en nadelen van de variatiebreedte

ke x

De variatiebreedte is eenvoudig te berekenen en is daarom geschikt voor het snel verkrijgen van een eerste, vrij ruwe schets van de spreiding van de waarnemingsgetallen. De nadelen zijn dat de variatiebreedte • e nkel rekening houdt met de 2 uiterste waarden; • g een rekening houdt met de frequenties van de waarnemingsgetallen.

3.7.2 De interkwartielafstand Interkwartielafstand

kij

Definitie

De interkwartielafstand IQR (‘interquartile range’) is het verschil tussen het derde en het eerste kwartiel.

De interkwartielafstand bakent de middelste 50 % van de gegevens af. Voorbeelden

35 %

14,00 %

14,29 %

12,00 % 10,00 %

IQR

8,00 % 6,00 % 4,00 % 2,00 %

30 % 30 %

30 % 25 % 20 %

20 %

IQR

20 %

15 % 10 %

10 % 5%

10 %

[1500,1700[ [1700,1900[ [1900,2100[ [2100,2300[ [2300,2500[ [2500,2700[ [2700,2900[

25 %

25%

25 %

IQR 20 %

15 %

10 %

15 %

8% 4%

0,00 %

aantal bedienden in procent

16,00 %

aantal bedienden in procent

18,00 %

[1500,1700[ [1700,1900[ [1900,2100[ [2100,2300[ [2300,2500[ [2500,2700[ [2700,2900[

maandloon in euro

[1500,1700[ [1700,1900[ [1900,2100[ [2100,2300[ [2300,2500[ [2500,2700[ [2700,2900[

maandloon in euro

Voor- en nadeel van de interkwartielafstand De interkwartielafstand houdt in zekere mate rekening met de frequenties van de gegevens en kan relatief eenvoudig bepaald worden. Het nadeel is echter dat de interkwartielafstand geen rekening houdt met de helft van de gegevens. De 25 % kleinste en de 25 % grootste gegevens worden niet in rekening gebracht.

HOOFDSTUK 3 I STATISTISCHE KENTALLEN

3.7.3 Het IQR-criterium voor uitschieters Uitschieter

Definitie

Een waarnemingsgetal is een uitschieter als het minstens 1,5 keer de interkwartielafstand boven het derde kwartiel of onder het eerste kwartiel gelegen is. Voorbeelden • A an 16 gezinnen werd het aantal kinderen gevraagd. 0 0 0 1 1 1 1 2 2 2 2 3 3 3 4 9

Q  1 – 1,5 · IQR = ; Q  3 + 1,5 · IQR = Uitschieters:

IQR = (§ 3.5.2)

• B epaal de eventuele uitschieters voor de maandlonen bij de 4 fictieve bedrijven van § 3.6 (§ 3.7.2).

ke x

3.7.4 De boxplot

De 5-getallen-samenvatting van een verdeling bestaat uit het minimum, het eerste kwartiel, de mediaan, het derde kwartiel en het maximum.

kij

Een boxplot is een grafische voorstelling van de 5-getallen-samenvatting en bestaat uit • een rechthoek (de box) met de interkwartielafstand als basis; • een verticale lijn in de box, die de plaats van de mediaan weergeeft; • lijnstukken die de box verbinden met het minimum en het maximum.

MIN

MAX

Voorbeeld Teken de boxplot voor het aantal kinderen van 16 gezinnen en bespreek. 1

3 4

HOOFDSTUK 3 I STATISTISCHE KENTALLEN

3.7.5 Tekenen van de boxplot met ICT • O m de boxplot te tekenen voor het aantal kinderen van 16 gezinnen  voer je de gegevens in lijst L  1 in;

 a ctiveer je een statistische plot (

stat plot f1

y= ) van het type boxplot met Xlijst = L   1 en Freq = 1; w

zoom

boxplot met uitschieters

gewone boxplot

format f3

 druk je

2nd

• O m de boxplot te tekenen voor de toetsresultaten van 6A en 6B (§ 3.5.4)

ke x

 voer je de verschillende resultaten in lijst L  1en de frequenties in lijst L  2 in;  activeer je een statistische plot ( zoom

) van het type boxplot met Xlijst = L  1 en Freq = L  2 ;

kij

 druk je

format f3

stat plot f1

2nd

Door met 2 statistische plots te werken, kun je de boxplot samen tekenen met een staaf- of lijndiagram.

HOOFDSTUK 3 I STATISTISCHE KENTALLEN

De boxplot voor gegroepeerde gegevens met de TI84 Bij gegroepeerde gegevens kan de TI84 geen boxplot tekenen die de juiste waarden van het minimum, het maximum en de kwartielen weergeeft. Teken de boxplot voor de verdeling van de bevolking in België op 1 januari (§ 3.5.4):

kij

ke x

Programma KLBOX.8xp

De rekenmachine ziet de klassenmiddens gewoon als getallen met een frequentie en niet als vertegenwoordigers van klassen. Bijgevolg zijn de kwartielen en extrema ook gewoon klassenmiddens. Heb je de kwartielen bepaald met het programma STATKLAS en genoteerd, dan kun je toch een boxplot met de juiste proporties en waarden laten tekenen door het programma KLBOX.8xp.

Op diddit vind je een applet om een boxplot te tekenen.

De box-and-whisker plot werd voor het eerst gebruikt in 1977 door de Amerikaanse statisticus John Tukey. In het oorspronkelijke ontwerp strekten de horizontale lijnen (de ‘whiskers’) zich uit tot maximaal 1,5 keer de interkwartielafstand onder het eerste of boven het derde kwartiel.

1 2

3 4

De ‘zwakke uitschieters’ werden met kleine kringetjes op de tekening aangebracht en de ‘sterke uitschieters’ (meer dan 3 keer de interkwartielafstand onder Q  1 of boven Q   3) met kruisjes.

HOOFDSTUK 3 I STATISTISCHE KENTALLEN

3.8

Spreiding ten opzichte van het gemiddelde

3.8.1 De standaardafwijking stappen

uitleg

de gemiddelde afwijking ten opzichte van het gemiddelde

Als je voor elk gegeven het verschil met het gemiddelde berekent en van die verschillen de gemiddelde waarde neemt, dan verkrijg je n _ ∑     (  x i −  x )  _________   i = 1  .    n Deze waarde is echter altijd gelijk aan 0.

In de prehistorie van de statistiek, de tijd zonder computers en zelfs zonder rekenmachines, was het werken met absolute waarden niet handig.

Alle afwijkingen ten opzichte van het gemiddelde worden als positieve getallen verrekend. Dit kan door de absolute waarde te nemen van de verschillen. n _ ∑     (  x i −  x )  g.a.a. = _________   i = 1      n

de gemiddelde absolute afwijking ten opzichte van het gemiddelde

de gemiddelde kwadratische afwijking ten opzichte van het gemiddelde

kij

ke x

Om de afwijkingen ten opzichte van het gemiddelde positief te maken, kan men die ook kwadrateren. 2 De populatievariantie σ  is de gemiddelde kwadratische afwijking ten opzichte van het gemiddelde. n _2 (  x i −  x )   ∑       2 i = 1 σ  =  _________       n

De afwijkingen ten opzichte van het gemiddelde worden op die manier groter gemaakt, zodat de spreiding groter lijkt dan ze in werkelijkheid is. Ook de afwijkingen van de uiterste waarden worden extra in de verf gezet. Een ander probleem is dat het verkregen resultaat niet meer dezelfde eenheid heeft als de waarnemingsgetallen zelf.

de (steekproef)variantie

In plaats van te delen door n, deel je bij de berekening van de variantie uit een steekproef door n – 1, wat je de Gausscorrectie noemt. n _2 ∑      (  x i −  x )   2 i = 1 s  =  _________       n – 1

de (steekproef)standaardafwijking __________ n _2 ∑     (  x i −  x )   s =  __________   i = 1         n − 1

√

Je maakt een correctie omdat je met een steekproef werkt en niet met de volledige populatie. Waarom je door n – 1 moet delen en niet door n, heeft te maken met het aantal vrijheidsgraden: onafhankelijke schattingen die je kunt maken van een bepaalde waarde.

De standaardafwijking van een tabel waarnemingsgetallen is de positieve vierkantswortel van de steekproefvariantie.

Opmerking Je rondt de standaardafwijking af op 2 cijfers meer na de komma dan de oorspronkelijke gegevens.

HOOFDSTUK 3 I STATISTISCHE KENTALLEN

3.8.2 Voorbeeld Het gemiddeld aantal nieuwe personenwagens per jaar is

(zie § 3.2.2)

2011

577 382

2012

490 711

2013

486 065

2014

482 939

2015

501 066

2016

539 519

2017

546 558

2018

550 384

aantal nieuwe personenwagens

_2 (x i − x    )  

jaar

De standaardafwijking is

ke x

3.8.3 Berekening van de standaardafwijking met ICT Met Excel

kij

Open het bestand ‘AUTO.xlsx’. Je berekent de standaardafwijking in cel B8: B8: =STDEV(B2:I2)

1 2

3 4 5

Met de grafische rekenmachine

Je berekent de standaardafwijking met

• ofwel stdDev( list

2nd

stat

• ofwel Stats 1-Var L3

(stdDev L  1 of stdDev L AUTO)

list

stat

(Stats 1-Var L 1 of Stats 1-Var L AUTO)

Voorbeeld Bereken de standaardafwijking voor het aantal pogingen dat iemand nodig had om te slagen voor het rijexamen (§ 2.2.1).

HOOFDSTUK 3 I STATISTISCHE KENTALLEN

3.8.4 Berekening van de standaardafwijking uit een frequentietabel Niet-gegroepeerde gegevens Stel dat er k verschillende waarnemingsgetallen x  i zijn met respectievelijke frequenties n  i . _____________ k _2   ∑   n     i ? (x i −  x )   k i = 1 s =   _____________          , met n =   ∑      n i i = 1 n − 1

√

Formule

Voorbeeld _2 n i ⋅ ( x  i − x    )  

De resultaten van de klassen 6A en 6B zie je in de tabel. • H et gemiddelde is _     = (§ 3.2.4) x  • D e standaardafwijking is

s =

ke x

Vier klassen van het zesde jaar kregen een toets wiskunde.

n  i

_2 (x  i − x    )  

x  i

Met de grafische rekenmachine

Je berekent de statistische parameters met Stat 1-Var L  1 , L   2 . Druk:

list

stat

2nd

kij

Je voert de gegevens in 2 lijsten L  1 en L   2 in.

Eenmaal Stat 1-Var uitgevoerd kunnen alle statistische variabelen opgehaald worden via

distr

vars

HOOFDSTUK 3 I STATISTISCHE KENTALLEN

Gegroepeerde gegevens Stel dat er k klassen zijn met respectievelijke middens m  i en klassenfrequenties n  i .

Formule

_____________ k _2   ∑   n     i ? (m i −  x )   k i = 1 s ≈   _____________          , met n =   ∑      n i i = 1 n − 1

√

Voorbeeld

Met Excel

ke x

Open het bestand ‘LFT(gemiddelde).xlsx’ en ga als volgt te werk.

Bereken de standaardafwijking voor de verdeling van de bevolking in België op 1 januari 2019. Let erop dat je hier met de volledige populatie werkt en niet met een steekproef.

kij

Je vindt de frequentietabel ook terug in het bestand ‘LFT(standaardafwijking).xlsx’.

Met de grafische rekenmachine

Je voert Stat 1-Var uit voor de lijsten LFTMI en LFTNI.

1 2

3 4 5

HOOFDSTUK 3 I STATISTISCHE KENTALLEN

3.8.5 De variatiecoëfficiënt Voorbeeld Beschouw de volgende gegevensrijen. _ 16 18 19,0 20 22 →  x   = s = _ 76 78 79,0 80 82 →  x   = s =

De standaardafwijking is voor beide rijen gelijk. Toch is het duidelijk dat de spreiding ten opzichte van het gemiddelde in de eerste rij, relatief gezien, groter is. Definitie

Variatiecoëfficiënt

s     De variatiecoëfficiënt V = __   _ x 

De variatiecoëfficiënt berekent de verhouding van de standaardafwijking ten opzichte van het gemiddelde en geeft dus de relatieve spreiding weer ten opzichte van dat gemiddelde. Meestal wordt de variatiecoëfficiënt in procent uitgedrukt. Bereken de variatiecoëfficiënt voor de gegevensrijen van het inleidende voorbeeld.

V  1 = V  2 = Gebruik van de variatiecoëfficiënt

ke x

Als V < 5 % spreekt men van een zeer kleine spreiding ten opzichte van het gemiddelde. Dit is bijvoorbeeld belangrijk in het onderzoek naar de nauwkeurigheid van machines. Voorbeeld

kij

Een machine maakt kogellagers die een diameter van 20,50 mm moeten hebben. Bij een controle wordt van 40 kogellagers de diameter, in mm, bepaald. 20,48 20,32 20,53 20,82 20,20 20,44 20,48 20,71 20,55 20,33

20,39 20,38 20,73 20,50 20,26 20,65 20,72 20,81 20,44 20,57 20,53 20,36 20,86 20,54 20,41 20,51 20,49 20,43 20,32 20,50 20,53 20,36 20,32 20,67 20,69 20,42 20,56 20,34 20,44 20,52

• I s de machine goed afgesteld? Je berekent het gemiddelde: Dus: • W erkt de machine voldoende nauwkeurig? Je berekent de standaardafwijking: s = De variatiecoëfficiënt V = Dus:

HOOFDSTUK 3 I STATISTISCHE KENTALLEN

3.8.6 De standaardscore Definitie

Standaardscore

_ x  i − x      ______ De standaardscore of z-score van een waarnemingsgetal x  i is het getal z   i =        . s

De z-score drukt het verschil uit van een gegeven ten opzichte van het gemiddelde in aantal keer de standaardafwijking.

Gebruik van de standaardscore Omdat de standaardscore onafhankelijk is van de meeteenheid, is het een goed instrument om gegevens van verschillende steekproeven met elkaar te vergelijken.

–1 < z < 1 1<z<2

Minder dan 1 keer de standaardafwijking verwijderd van het gemiddelde: behorend tot de standaardgroep. Hoog.

Meer dan 2 keer de standaardafwijking boven het gemiddelde: uitzonderlijk hoog.

ke x

z>2

Laag.

–2 < z < –1

Meer dan 2 keer de standaardafwijking onder het gemiddelde: uitzonderlijk laag.

z < –2

betekenis

standaardscore

Voorbeeld

Alexandra behaalt op haar rapport de volgende punten voor wetenschappen en aardrijkskunde. resultaat in %

klasgemiddelde

standaardafwijking

wetenschappen

65,6

5,24

aardrijkskunde

70,5

4,91

kij

vak

Voor welk vak heeft ze het best gepresteerd? Je berekent voor beide vakken de standaardscore. z  W = z   A = Besluit:

1 2

3 4

Paragraaf 3.9 (Opdrachten: deel 3) vind je op diddit.

HOOFDSTUK 3 I STATISTISCHE KENTALLEN

Oefeningen REEKS A 10

b) Teken de boxplot en bespreek.

d) Bereken de standaardafwijking:

c) Zijn er uitschieters bij de gegevens?

kij

ke x

e) Hoeveel procent van de gegevens ligt meer dan 1 standaardafwijking verwijderd van het gemiddelde?

Je gooit 150 keer met 2 dobbelstenen. De som van het aantal ogen wordt geteld. Zie oefening 2 van dit hoofdstuk.

a) Teken de boxplot en bespreek.

b) Bereken de standaardafwijking: c) Hoeveel keer heb je ‘een hoog aantal’ gegooid?

HOOFDSTUK 3 I STATISTISCHE KENTALLEN

Aan 90 Vlaamse gezinnen werd het aantal kinderen gevraagd. 3

a) De helft van de gezinnen heeft minstens kinderen.

b) Een kwart van de gezinnen heeft hoogstens kinderen.

c) Als je het aantal kinderen van 1 000 Vlaamse gezinnen samentelt, hoeveel kinderen kun je dan verwachten?

d) Zijn er uitschieters bij de gegevens?

Verwijder de eventuele uitschieters en bereken opnieuw de mediaan en het gemiddelde. Wat zie je?

kij

ke x

e) Bereken de standaardafwijking:

f) Een gezin heeft 4 kinderen. Bereken de standaardscore en geef de betekenis.

1 2

3 4 5

HOOFDSTUK 3 I STATISTISCHE KENTALLEN

REEKS B 13

In een school wordt een steekproef gedaan bij 80 leerlingen van de derde graad. Hun boekentas wordt gewogen op 10 gram nauwkeurig. Zie oefening 3 van dit hoofdstuk. a) Teken de boxplot en bespreek.

b) Zijn er uitschieters bij de gegevens?

c) Bereken de standaardafwijking:

ke x

kij

d) Hoeveel boekentassen kunnen beschouwd worden als ‘uitzonderlijk zwaar’?

a) Teken de boxplot en bespreek.

b) Werken de vulmachines voldoende nauwkeurig?

HOOFDSTUK 3 I STATISTISCHE KENTALLEN

Van 90 kippeneieren wordt de massa in gram bepaald. 63

c) Bereken het gemiddelde en geef de betekenis.

b) De helft van de eieren weegt minstens

a) Een kwart van de eieren weegt hoogstens

d) Bekijk de ligging van het gemiddelde en de mediaan ten opzichte van elkaar en de modale klasse.

ke x

e) Bereken de interkwartielafstand en geef de betekenis.

kij

f) Bereken de standaardafwijking:

g) Een ei weegt 50 g. Bereken de standaardscore en geef de betekenis.

De gemiddelde lengte van de Amerikaanse man is 175,5 cm, met een standaardafwijking van 5,82 cm. De gemiddelde Belgische man meet 180,4 cm en de standaardafwijking is 6,14 cm. Wie is relatief het grootst: een Amerikaan van 180 cm of een Belg van 185 cm?

HOOFDSTUK 3â&#x20AC;&#x201A; Iâ&#x20AC;&#x201A; STATISTISCHE KENTALLEN

b) Bereken de standaardafwijking:

a) Teken de boxplot en bespreek.

c) Welke maten behoren tot de ‘standaardgroep’?

n  i

maat

Bij een wielerwedstrijd wordt de hematocrietwaarde van een aantal renners gemeten. De resultaten staan in de tabel. Zie oefening 6 van dit hoofdstuk. 41

ke x

hematocriet n  i

kij

a) Vorig jaar werd bij dezelfde wedstrijd ook de hematocrietwaarde bepaald. Dat gaf aanleiding tot de volgende boxplot.

Teken de boxplot voor dit jaar en vergelijk.

b) Welke hematocrietwaarden kun je als ‘uitzonderlijk laag’ bestempelen?

HOOFDSTUK 3 I STATISTISCHE KENTALLEN

Van 860 komkommers die in de veiling verhandeld worden, is de lengte, in cm, gemeten. Zie oefening 7 van dit hoofdstuk. a) Bij welke lengtes spreek je van een ‘uitschieter’?

Van de 163 kinderen die vorig jaar in een kraamkliniek werden geboren, is het geboortegewicht, in g, opgetekend. Zie oefening 8 van dit hoofdstuk. Vanaf welk gewicht is een baby ‘uitzonderlijk zwaar’?

b) Bij welke lengtes mag je spreken van ‘lang’?

kij

ke x

Een brouwer doet een aselecte steekproef om te weten te komen of de machine die de bierflesjes vult, voldoende nauwkeurig werkt. Op de etiketten van de bierflesjes staat dat de netto-inhoud 25 cl is. Van 65 flesjes wordt de inhoud, in cl, gecontroleerd.

a) Is de vulmachine goed afgesteld?

klasse

n  i

[22, 23[

[23, 24[

[24, 25[

[25, 26[

[26, 27[

[27, 28[

[28, 29[

HOOFDSTUK 3 I STATISTISCHE KENTALLEN

b) Werkt de machine voldoende nauwkeurig?

STUDIEWIJZER Statistische kentallen 3.2 Het rekenkundig gemiddelde KENNEN Het rekenkundig gemiddelde van een rij numerieke gegevens is de som van die gegevens, n

  ∑  x i  _ x 1 + x 2 + ... + x n  _____ gedeeld door het aantal gegevens: x     = _____________         =   i = 1      n

  ∑   n i ? x i k _ ________ x     =   i = 1       , met n = ∑      n i n

i = 1

  ∑   n i ? m i k _ ________ x      ≈   i = 1       , met n =   ∑   n i n

i = 1

KUNNEN

De betekenis van het rekenkundig gemiddelde formuleren.

Het rekenkundig gemiddelde berekenen van een rij gegevens of vanuit een frequentietabel.

3.3 De mediaan

KENNEN

De mediaan Me van een gerangschikte tabel met n waarnemingsgetallen is het getal met rangorde ____   n + 1       . 2

KUNNEN

De mediaan bepalen van een rij gegevens, vanuit een frequentietabel of met behulp van een ogief.

ke x

De betekenis van de mediaan formuleren.

3.4 De modus

KENNEN

kij

De modus Mo is het waarnemingsgetal met de grootste enkelvoudige frequentie. De modale klasse is de klasse met de grootste enkelvoudige frequentie.

KUNNEN

De modus of modale klasse bepalen van een rij gegevens vanuit een frequentietabel.

De betekenis van de modus formuleren.

3.5 Kwartielen KENNEN

Het eerste kwartiel Q 1is het getal met rangorde _____   n + 1       . 4 Het tweede kwartiel Q 2is het getal met rangorde _____   n + 1       . 2 3 ⋅ (n + 1)          . Het derde kwartiel Q  3 is het getal met rangorde ________ 4

KUNNEN De kwartielen bepalen van een rij gegevens, vanuit een frequentietabel of met behulp van een ogief. De betekenis van de kwartielen formuleren.

HOOFDSTUK 3 I STATISTISCHE KENTALLEN

3.7 Spreiding ten opzichte van de mediaan KENNEN De variatiebreedte R (‘range’) is het verschil tussen het grootste en het kleinste waarnemingsgetal. De interkwartielafstand IQR (‘interquartile range’) is het verschil tussen het derde en het eerste kwartiel. Een waarnemingsgetal is een uitschieter als het minstens 1,5 keer de interkwartielafstand boven het derde kwartiel of onder het eerste kwartiel gelegen is. De 5-getallen-samenvatting van een verdeling bestaat uit het minimum, het eerste kwartiel, de mediaan, het derde kwartiel en het maximum. Een boxplot is een grafische voorstelling van de 5-getallen-samenvatting.

KUNNEN

Een boxplot bespreken.

3.8 Spreiding ten opzichte van het gemiddelde

De boxplot tekenen als de 5-getallen-samenvatting gekend is.

De variatiebreedte en de interkwartielafstand berekenen van een rij gegevens.

KENNEN

√

n _2   ∑  (x i − x   )   s =  _________   i = 1      

n − 1

De steekproefstandaardafwijking is de positieve vierkantswortel van de gemiddelde kwadratische afwijking ten opzichte van het gemiddelde, voorzien van de Gausscorrectie: __________

____________ k _2   ∑   n  i ? ( x  i − x   )   k s = ____________   i = 1          , met n =  ∑   n i s ≈ n − 1

i = 1

ke x

√

_____________ k _2  i − x   )     ∑   n  i  ? ( m k i = 1  _____________            , met n =  ∑   n i

√

n − 1

i = 1

s   . De variatiecoëfficiënt V = __   _  x 

kij

_ x_____   i −  x    De standaardscore of z-score van een waarnemingsgetal x  i is het getal z i =       . s

KUNNEN

De standaardafwijking en de variatiecoëfficiënt berekenen van een rij gegevens of vanuit een frequentietabel. De betekenis van de variatiecoëfficiënt geven in het onderzoek naar de nauwkeurigheid van machines. De standaardscore gebruiken om de ligging van een gegeven ten opzichte van het gemiddelde te specifiëren.

CONTRACTWERK 1

4 5

HOOFDSTUK 3 I STATISTISCHE KENTALLEN

HOOFDSTUK 4 I DE NORMALE VERDELING

4.2 De normale kansdichtheidsfunctie

99 100

4.4 Berekeningen met de normale verdeling

102

4.5 De standaardnormale verdeling

104

4.6 Niet alle gegevens zijn normaal verdeeld

106

4.3 De normale verdeling met ICT

4.1 Inleidend voorbeeld

4.7 Opdrachten: deel 4 108 116

kij

ke x

Studiewijzer

nieuwe cartoon wordt aangeleverd bij correcties op eerste proef

HOOFDSTUK 4 I DE NORMALE VERDELING

4.1

Inleidend voorbeeld De pakjes koffie van een koffiebranderij bevatten volgens het etiket 500 gram. Om de nauwkeurigheid van de vulmachines te controleren heeft men van 245 lukraak van de band genomen pakjes koffie de massa, in g, bepaald. De resultaten vind je in de tabel.

_     = x 

gewicht

n  i

f  i

[482, 486[

5,31 %

[486, 490[

6,94 %

[490, 494[

11,84 %

[494, 498[

15,92 %

[498, 502[

19,59 %

[502, 506[

15,92 %

[506, 510[

12,24 %

Werken de machines voldoende nauwkeurig?

[510, 514[

6,94 %

[514, 518[

5,31 %

25 %

15 %

pl y

kij

10 %

Zijn de machines goed ingesteld?

ke x

20 %

Modale klasse =

Bekijk de diagrammen.

Me =

0.04

0.03

0.02

0.01

482

486

490

494

498

502

506

510

514

518

522

[482,486[ [486,490[ [490,494[ [494,498[ [498,502[ [502,506[ [506,510[ [510,514[ [514,518[

De mediaan en het gemiddelde liggen beide in de modale klasse. Dit is een typisch kenmerk van een symmetrische verdeling.

In het histogram is de hoogte van elk van de rechthoeken gelijk aan de relatieve frequentie van de bijbehorende klasse. De totale oppervlakte van het histogram is hierdoor gelijk aan de klassenbreedte. x −500  1     ______ −  __      2 ( 8,24 ) 2

1 2 3

1  _    De kromme is de grafiek van de functie f (x) = ________   ? e  8,24 ? √ 2p   Hierbij is e ≈ 2,718 het getal van Euler.

De relatieve frequentieverdeling kan benaderd worden door de oppervlakte te berekenen begrensd door de klokvormige grafiek, de x-as en de verticale rechten bepaald door de klassengrenzen.

HOOFDSTUK 4 I DE NORMALE VERDELING

4.2

De normale kansdichtheidsfunctie

4.2.1 Definitie Bij heel wat gegevens kan het histogram goed benaderd worden door een symmetrische, klokvormige curve. Omdat dergelijke verdelingen zo vaak voorkomen, worden deze gegevens ‘normaal verdeeld’ genoemd. Definitie

Normale kansdichtheidsfunctie −       (  2 1     De functie met voorschrift f (x) = ______   ______ ? e  √    2p ? s  

x −m 1 ____ __        s )

noem je een normale kansdichtheidsfunctie,

Het getal e is een irrationaal getal en is ongeveer gelijk aan 2,718.

4.2.2 Kenmerken van de grafiek

• De grafiek is klokvormig en symmetrisch ten opzichte van de rechte met vergelijking x = m. • De functie bereikt een maximum in x = m. • De grafiek bezit 2 buigpunten, namelijk als x = m - sen als x = m + s . (In een buigpunt maakt een kromme de overgang van hol naar bol of omgekeerd.) • De x-as is de horizontale asymptoot voor de grafiek.

μ–σ

μ+σ

ke x

met m het populatiegemiddelde en s de populatiestandaardafwijking.

4.2.3 Kansdichtheidsfunctie

kij

• D e functie f noem je een kansdichtheidsfunctie omdat je niet rechtstreeks vanuit het functievoorschrift kansen (geïdealiseerde relatieve frequenties) bepaalt, maar door de oppervlakte te berekenen tussen de grafiek, de x-as en 2 verticale rechten. • D e grafiek van de normale kansdichtheidsfunctie wordt ook de Gausscurve genaamd, naar de beroemde Duitse wiskundige Carl Friedrich Gauss. _ Het steekproefgemiddelde x      en de steekproefstandaardafwijking s zijn respectievelijke benaderingen voor m en s .

0.04

0.03

0.02

0.01

x – s = 500 – 8,24 482

486

490

494

x + s = 500 + 8,24 498 502 x = 500

506

510

514

518

522

De geschiedenis van de normale verdeling vind je op diddit.

HOOFDSTUK 4 I DE NORMALE VERDELING

4.3

De normale verdeling met ICT

4.3.1 De normale verdeling met VisuStat

VisuStat is ontwikkeld door de Katholieke Universiteit Brussel en is gratis te downloaden. Installeer de versie 2.0. VisuStat is een veelzijdig programma voor statistiek. Je kunt er onder andere • zelf steekproeven laten samenstellen (‘Beschrijvende Statistiek’); • het principe van de statistische stabiliteit bekijken (‘Het kansbegrip (empirisch)’); • met de binomiale verdeling werken (‘Discrete dichtheden’); • berekeningen maken in verband met de normale verdeling (‘Continue dichtheden’).

kij

ke x

Je gebruikt het gemiddelde en de standaardafwijking van de pakjes koffie (§ 4.1). Let er wel op dat VisuStat werkt met de kommanotatie voor een decimaal getal, niet met de puntnotatie.

De tweede grafiek die je ziet is de cumulatieve kansverdeling, een idealisering van de cumulatieve relatieve frequentieverdeling. De mogelijkheden bij ‘Oppervlakteberekening’ spreken voor zich. Het resultaat van de berekening vind je links onderaan. Laat VisuStat de volgende oppervlaktes berekenen en vergelijk met de frequentietabel van § 4.1. oppervlakte

relatieve frequentie

tussen 490 en 494:

tussen 502 en 514:

links van 506:

rechts van 510:

totale oppervlakte onder de grafiek:

2 3

4 5

100

HOOFDSTUK 4 I DE NORMALE VERDELING

4.3.2 De normale verdeling met de grafische rekenmachine Je kunt de normale kansdichtheidsfunctie met gemiddelde 500 en standaardafwijking 8,24 tekenen met normalepdf(X, m, s ) (Normal probability density function). y=

link

X,T,θ,n

U catalog

catalog

[

vars

2nd

[

distr

stat plot f1

P i

L entry solve

}

)

enter

Z L4

Τ w

O L4

Q L4

Q catalog

entry solve

enter

entry solve

enter

Τ w

trace

[

calc

2nd

In het grafisch venster bereken je de oppervlakte tussen 490 en 494:

In het rekenvenster kun je gebruikmaken van de functie normalecdf(ondergrens, bovengrens, m, s ):

enter

U catalog

catalog

[

P i

Τ w

Q L4

Z L4

ke x

entry solve

Q catalog

9 [

Τ w

vars

[

Z L4

distr

2nd

}

)

kij

Bereken de volgende oppervlaktes en vergelijk met de frequentietabel van § 4.1.

oppervlakte

relatieve frequentie

tussen 490 en 494:

tussen 502 en 514:

links van 506:

rechts van 510:

totale oppervlakte onder de grafiek:

Opmerking De grenzen –∞en +∞worden bij de TI84 vervangen door 99 99 • – 10  en 10  of • m - 5? s en m + 5? s .

HOOFDSTUK 4 I DE NORMALE VERDELING

101

4.4

Berekeningen met de normale verdeling

4.4.1 Voorbeeld 1 De tabel bevat gegevens over levend geboren eenlingen in Vlaanderen. geboortegewicht

gemiddelde (g)

standaardafwijking (g)

jongens

3 403

529,7

meisjes

3 275

507,8

• H oeveel procent van de meisjes weegt tussen 2 500 en 3 500 gram? Het geboortegewicht is normaal verdeeld.

oplossing met TI84

ke x

oplossing met VisuStat

• H oeveel procent van de jongens weegt meer dan 4 kg? oplossing met TI84

kij

oplossing met VisuStat

• H oeveel moet een jongen wegen om tot de zwaarste 10 % te behoren? oplossing met VisuStat

oplossing met TI84 Met de functie invNorm(procent, m, s) (

vars

)

bereken je de bovengrens van de lichtste 90 %, dus de ondergrens van de zwaarste 10 %.

2 3

invNorm(0.90,3403,529.7) =

4 5

102

distr

2nd

HOOFDSTUK 4 I DE NORMALE VERDELING

• B ereken het eerste kwartiel voor de meisjes: oplossing met VisuStat

oplossing met TI84

Hoeveel procent van de jongens weegt minder dan deze waarde?

• S ara woog bij haar geboorte 4 020 gram. Haar broer Joachim woog 4 170 gram. Wie woog relatief het zwaarst?

ke x

4.4.2 Voorbeeld 2

kij

De dosis van een product nodig voor een algemene anesthesie (verdoving) is normaal verdeeld met gemiddelde 50 mg en standaardafwijking 10 mg. De letale dosis (dit is de dosis die de dood veroorzaakt) van dat product is eveneens normaal verdeeld. Het gemiddelde is 110 mg en de standaardafwijking 20 mg. Als een anesthesist een dosis zou gebruiken die in 90 % van de gevallen voldoende is om een patiënt te verdoven, hoeveel sterfgevallen zouden er dan zijn?

HOOFDSTUK 4 I DE NORMALE VERDELING

103

4.5

De standaardnormale verdeling

4.5.1 De standaardnormale kansdichtheidsfunctie Als je alle waarnemingsgetallen x  i vervangt door hun standaardscore z  i , dan verkrijg je de functie 1     f (z) = ____   ___ ? e  √    2p  

1  z   2 −  __ 2

. y

• D e grafiek is symmetrisch ten opzichte van de rechte z = 0. • D e functie bereikt een maximum in z = 0 (het gemiddelde van de standaardscores is 0). • D e grafiek bezit 2 buigpunten, namelijk als z = –1 en als z = 1. (de standaardafwijking van de z-scores is 1). • D e x-as is de horizontale asymptoot voor de grafiek.

0.4

0.3

0.2

0.1

z –2

–1

–3

4.5.2 De emperical rule

Met behulp van de standaardnormale verdeling ga je na hoeveel procent van de normaal verdeelde gegevens hoogstens 1 keer, 2 keer of 3 keer de standaardafwijking afwijkt van het gemiddelde. met VisuStat

met TI84

kij

ke x

Je vinkt de standaardnormale verdeling aan en berekent de oppervlakte tussen –1 en 1, –2 en 2, –3 en 3.

Besluit

Bij een normale verdeling ligt ongeveer 68 % in [m - s, m + s], 95 % in [m - 2 ? s, m + 2 ? s] en 99,7 % in [m – 3 ? s, m + 3? s] . y

0.4

2 3

68 %

95 %

16 %

104

–3

–2

16 % –1

HOOFDSTUK 4 I DE NORMALE VERDELING

z 2

99,7 %

2,5 % –3

2,5 % –2

–1

z –3

–2

–1

4.5.3 Gebruik van de standaardnormale verdeling Voorbeeld 1 Intelligentie is een van de meest onderzochte begrippen in de wetenschappelijke psychologie. Het intelligentiequotiënt (IQ) heeft vooral betrekking op aanleg tot goed kunnen redeneren, logisch denken en ruimtelijk inzicht. De gemiddelde IQ-score is 100 en de standaardafwijking 15.

betekenis

procent van de bevolking

standaardscore

Vul de tabel aan.

uitzonderlijk laag: zwakbegaafd

–2 < z < –1

laag: onintelligent

–1 < z < 1

normaal begaafd

1<z<2

hoog: intelligent

z>2

uitzonderlijk hoog: hoogbegaafd

Voorbeeld 2

z < –2

Uit het onderzoek blijkt dat • de helft van de koolwitjes minstens 5,25 cm spanwijdte heeft; • een kwart hoogstens 4,65 cm spanwijdte heeft. Je mag ervan uitgaan dat de spanwijdte van de vleugels normaal verdeeld is. Bepaal het gemiddelde en de standaardafwijking.

kij

ke x

Een bioloog heeft van 300 koolwitjes de spanwijdte van de vleugels gemeten.

• Bij een normale verdeling is de mediaan gelijk aan het gemiddelde ⇒ m = 5,25.

• De standaardafwijking bereken je uit de standaardscore.

 Met de standaardnormale dichtheidsfunctie bepaal je dat voor een kwart

van de gegevens geldt dat z ⩽ −0,674 5.

x − m s

4,65 − 5,25  s

  ____      ⩽ −0,674 5 ⇔ ________         ⩽ − 0,674 5

− 0,60 –0,60  _____  s      ⩽ −0,674 5 ⇔ s = _______         = 0,890 −0,674 5

Besluit: Het gemiddelde is 5,25 cm en de standaardafwijking 0,890 cm. Opmerking

Met de TI84 kun je de standaardafwijking ook vinden door in Solver de vergelijking 0 = normalecdf(0,4.65,5.25,X)-0.25 of 0= invNorm(0.25,5.25,X)-4.65 te laten oplossen

HOOFDSTUK 4 I DE NORMALE VERDELING

105

4.6

Niet alle gegevens zijn normaal verdeeld Van sommige gegevens is algemeen geweten dat ze normaal verdeeld zijn. Veel natuurlijke kenmerken (de lengte van een mens, het intelligentiequotiënt, het gewicht van eieren, ...) kunnen beschreven worden met de normale verdeling. De theorie van de meetfouten bij laboratoriumonderzoek of automatisering steunt op de normale verdeling. In veel andere gevallen echter kan de normale verdeling niet toegepast worden.

4.6.1 Scheve verdelingen Voorbeeld 1

Uit een loonenquête van 2018 naar het maandelijks bruto-inkomen bij 95 000 werknemers, verkrijgt men de volgende verdeling in loonklassen. Het gemiddelde is 3 489 euro en de standaardafwijking 1 262,99 euro.

24.7 %

18.8 %

17.2 % 15.0 %

5.0 %

20.0 %

ke x

percentage van werknemers

25.0 %

10.0 %

30.0 %

11.3 %

7.7 %

3.7 %

2.8 %

kij

5.8 %

5.4 % 2.6 %

>6 00 0

[5 50 0,

60 00 [

55 00 [ [5 00 0,

[4 50 0, 50 00 [

[4 00 0, 45 00 [

[3 50 0,

40 00 [

35 00 [ [3 00 0,

[2 50 0,

30 00 [

25 00 [

[2 00 0,

[1 50 0,

20 00 [

0.0 %

maandelijks bruto inkomen

In de volgende figuur is geen rekening gehouden met de lonen boven 6 000 euro. y

werkelijke verdeling

normale verdeling

1 2 3

x 3 489

4 5

106

HOOFDSTUK 4 I DE NORMALE VERDELING

De figuur toont duidelijk dat een normale verdeling niet op zijn plaats is. Bij de verdeling van de inkomens ligt de maximale waarde links van het centrum en is er een ‘staart’ naar rechts, waardoor het gemiddelde rechts van het midden ligt. Je noemt deze verdeling daarom rechtsscheef. Bij een rechtsscheve verdeling geldt dus: Mo < Me < m.

Voorbeeld 2 In 2018 bedroeg de gemiddelde leeftijd waarop een Belgische vrouw stierf 83,5 jaar. De standaardafwijking was 13,55 jaar. Je ziet de normale kansdichtheidsfunctie met m = 83,5 en s = 13,55 en daarnaast een histogram voor de relatieve frequentieverdeling van de leeftijd waarop vrouwen overleden zijn in 2018.

De normale dichtheidsfunctie 80.00 % 69.64 %

50.00 % 40.00 %

30.00 %

22.42 %

4.11 %

30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 105 110 115 120 125 130 135

0 10 >

0[ 10 0,

2.58 %

[

0.74 %

0.52 %

[

0.00 %

10.00 %

[

0,01

20.00 %

0,02

60.00 %

aantal vrouwen in procent

70.00 %

leeftijd van overlijden

kij

ke x

Bij de verdeling van de levensverwachting ligt de maximale waarde rechts van het centrum en is er een ‘staart’ naar links, waardoor het gemiddelde links van het midden ligt. De verdeling is linksscheef. Bij een linksscheve verdeling geldt: m < Me < Mo. Bereken, door lineaire interpolatie, de mediaan en controleer de ligging ten opzichte van het gemiddelde.

HOOFDSTUK 4 I DE NORMALE VERDELING

107

4.6.2 Symmetrische verdelingen die niet normaal verdeeld zijn In het verkeer is de reactietijd de tijd die verloopt tussen het zien van een gevaar en het ogenblik dat het rempedaal wordt ingedrukt. De reactietijd is afhankelijk van verschillende factoren: leeftijd, vermoeidheid, alcoholverbruik, de positie van het gevaar ten opzichte van het gezichtsveld, ... In een experiment werd de reactietijd, in honderdsten van een seconde, gemeten van 70 mannelijke chauffeurs van 25 jaar, bij een identieke vooropgestelde situatie. Je ziet de resultaten in het histogram.

49 %

50 %

30 %

20 %

12 % 10 % 1% [72, 74[

[74, 76[

[76, 78[

13 %

[78, 80[

[80, 82[

[82, 84[

40 %

aantal chauffeurs in procent

60 %

[84, 86[

[86, 88[

[88, 90[

[90, 92[

[92, 94[

reactietijd in honderdsten seconden

ke x

Het histogram toont een bijna perfecte symmetrische verdeling. • B ereken het gemiddelde en de standaardafwijking. _  x   = _ • T eken de grafiek van de normale kansdichtheidsfunctie met m = x      en s = s. Je ziet:

kij

• V ul de tabel in. Gebruik lineaire interpolatie.

[m − 3 ? s, m + 3 ? s ] =

Besluit:

Paragraaf 4.7 (Opdrachten: deel 4) vind je op diddit.

108

aantal gegevens volgens de steekproef

[m − s, m + s ] =

[m − 2 ? s, m + 2 ? s ] = 1

aantal gegevens volgens de emperical rule

interval

HOOFDSTUK 4 I DE NORMALE VERDELING

Oefeningen REEKS A 1

Niet alle euromunten hebben exact dezelfde diameter. De diameter van de munten van 1 euro is normaal verdeeld met een gemiddelde van 23,25 mm en een standaardafwijking 0,10 mm. a) Hoeveel procent heeft een diameter die meer dan 23,40 mm is?

b) Van hoeveel procent ligt de diameter tussen 23,20 en 23,30 mm?

De leeftijd waarop een kind voor het eerst alleen kan lopen is gemiddeld 12,5 maanden met een standaardafwijking van 1,8 maanden. Je mag aannemen dat die leeftijd normaal verdeeld is.

c) Bereken hoe groot de 25 % grootste munten minstens zijn.

a) Wat is de kans dat een kind al loopt als het 11 maanden is?

b) Hoeveel procent van de kinderen loopt pas na de leeftijd van 15 maanden?

ke x

c) Bij hoeveel procent worden de eerste pasjes gezet tussen de 12 en 13 maanden?

d) Ouders beweren dat hun kind bij de 5 % vroegste lopers was. Hoe oud was het toen het begon te lopen?

kij

De Jonagold is een populaire appel. Het gewicht van de Jonagold is normaal verdeeld met een gemiddelde van 194 gram en een standaardafwijking van 29,5 gram. Na de pluk begin oktober worden op de veiling te veel appels aangevoerd. Om de prijs niet te laten instorten besluit men de 25 % lichtste appels niet op de markt te brengen.

a) Hoeveel moet een Jonagold wegen om op de markt te komen?

b) Wat is de kans dat je een Jonagold koopt die meer dan 220 g weegt?

c) Hoeveel moet een appel minstens wegen om tot de 20 % zwaarste appels te behoren? d) Hoeveel procent van de appels is ‘uitzonderlijk zwaar’? Vanaf welk gewicht mag je spreken van een uitzonderlijk zware appel?

HOOFDSTUK 4 I DE NORMALE VERDELING

109

REEKS B 4

Een automaat voor warme drank is zo ingesteld dat de bekertjes met gemiddeld 9,8 cl drank worden gevuld. De standaardafwijking is 0,7 cl. a) De bekertjes kunnen maximaal 11 cl drank bevatten.

Van hoeveel procent van de bekertjes mag je verwachten dat ze overlopen?

b) Bereken, zonder ICT, hoeveel procent van de bekertjes minder dan 9,1 cl bevat.

c) Je hebt één kans op vijf dat de bekertjes meer dan cl bevatten.

De lengte van de Amerikaanse man is gemiddeld 177,8 cm en de standaardafwijking 6,18 cm. De Belgische man wordt gemiddeld 181,7 cm groot met een standaardafwijking van 7,05 cm. Een Amerikaanse firma bouwt een wagen die groot genoeg is voor 99 % van de Amerikaanse mannen. Voor hoeveel procent van de Belgische mannen is die wagen te klein?

Een bedrijf maakt bouten en bijpassende moeren. De diameter van de bouten is normaal verdeeld met gemiddelde 2,0 mm en standaardafwijking 0,12 mm. Voor de diameter van de moeren is het gemiddelde 2,2 mm en de standaardafwijking 0,09 mm. De 10 % kleinste moeren worden niet in de handel gebracht. Welk deel van de bouten kan daardoor ook niet verkocht worden?

kij

ke x

Het gemiddelde IQ in België is 100. De standaardafwijking is 15. De gemiddelde Nederlander scoort 102 met een standaardafwijking van 17. a) Wat is het IQ dat je in België moet hebben om tot de 5 % meest intelligente mensen te behoren?

2 3

b) Hoeveel procent van de Nederlanders heeft een IQ dat hoger is?

110

HOOFDSTUK 4 I DE NORMALE VERDELING

Je ziet de grafiek van de normale kansdichtheidsfunctie met m = 10 en s= 2 (grafiek 1). Geef de waarden van m en svoor de andere kansdichtheidsfuncties. y

0,4

0,3

0,2

–1

m =

ke x

grafiek 2

0,1

s =

kij s =

s =

grafiek 4

m =

grafiek 6

m =

s =

grafiek 7

m =

s =

grafiek 3

m =

grafiek 5

m =

De inhoud van automatisch gevulde melkflessen is normaal verdeeld rond de inhoud waarop de machine wordt ingesteld. De standaardafwijking is 1,5 cl. Men wenst dat 75%van de flessen minstens 100 cl bevat. Op welke inhoud moet de vulmachine worden ingesteld?

HOOFDSTUK 4 I DE NORMALE VERDELING

111

De lengte van jonge sparren is normaal verdeeld met een gemiddelde van 25 cm. Van de boompjes is 5 % korter dan 20 cm. a) Hoeveel procent is naar verwachting langer dan 30 cm?

b) Bereken de standaardafwijking van de verdeling.

Op pakjes margarine staat meestal 250gr ℮. Dit betekent dat, volgens de Europese norm, niet meer dan 5%van die pakjes minder dan 250 gram mag bevatten. Het gewicht van pakjes margarine van het merk Marga is normaal verdeeld met een standaardafwijking van 6,5 gram.

a) Bereken het gemiddelde gewicht zodat precies voldaan wordt aan de Europese norm.

kij

ke x

b) De pakjes margarine van de firma Rine hebben een gemiddeld gewicht van 256 gram. Bereken de standaardafwijking om aan de Europese norm te voldoen.

De levensduur, in jaren, van koffiezetapparaten is normaal verdeeld. Bepaal het gemiddelde en de standaardafwijking uit de boxplot.

2 3

112

HOOFDSTUK 4 I DE NORMALE VERDELING

1.5

4.2

5.3

6.4

9.1

klasse

f  i

[5 300, 5 900[

6,25 %

[5 900, 6 500[

8,75 %

[6 500, 7 100[

10,00 %

[7 100, 7 700[

12,50 %

[7 700, 8 300[

30,00 %

[8 300, 8 900[

16,25 %

[8 900, 9 500[

10,00 %

[9 500, 10 100[

6,25 %

De tabel geeft de verdeling van de bevolking in België op 1 januari 2019. Ga na of de leeftijd van de Belgische bevolking normaal verdeeld is. Maak hiervoor gebruik van de statistische kentallen die je in hoofdstuk 3 hebt berekend. leeftijd

aantal

[0, 10[

1 278 302

[10, 20[

1 283 577

[20, 30[

1 410 058

[30, 40[

1 482 964

[40 ,50[

1 508 894

[50, 60[

1 592 883

[60, 70[

1 324 928

[70, 80[

902 812

[80, 90[

534 651

[90, 100[

112 337

• L igging van de centrummaten:

• E mperical rule:

interval

freq. tabel

[m − s, m + s ] =

[m − 3 ? s, m + 3 ? s ] =

[m − 2 ? s, m + 2 ? s ] =

E.R.

kij

ke x

In een school wordt een steekproef gedaan bij 80 leerlingen van de derde graad. Hun boekentas wordt gewogen op 10 gram nauwkeurig. Controleer of het gewicht van de boekentassen normaal verdeeld is. Maak hiervoor gebruik van de statistische kentallen die je in hoofdstuk 3 hebt berekend.

Onderzoek of de procentuele jaartotalen voor het vak wiskunde van de 114 leerlingen die vorig jaar aan onze school afstudeerden, voldoen aan de normale verdeling. Maak hiervoor gebruik van de frequentietabel van hoofdstuk 2, oefening 9.

HOOFDSTUK 4 I DE NORMALE VERDELING

113

REEKS C 16

De labrador retriever is een gezinshond. De schofthoogte (de afstand van de grond tot het hoogste punt van het schouderblad) voor de reu (het mannetje) is normaal verdeeld. Bereken het gemiddelde en de standaardafwijking als je weet dat 20 % een schofthoogte heeft die kleiner is dan 55,7 cm en 10 % hoger is dan 61,5 cm.

De kust is de droogste streek van België. Sinds het begin van de waarnemingen, in 1833, kende een kwart van de jaren hoogstens 750 mm neerslag en viel er slechts in 1 op de 20 jaren meer dan 870 mm neerslag. Als je ervan uitgaat dat de jaarlijkse hoeveelheid neerslag, in mm, normaal verdeeld is, bereken dan het gemiddelde en de standaardafwijking.

ke x

kij

De tabel toont de levensduur, in uren, van 225 beamerlampen. Ga na of de gegevens voldoen aan de normale verdeling.

levensduur

n  i

[1 000, 1 500[

[1 500, 2 000[

[2 000, 2 500[

[2 500, 3 000[

[3 000, 3 500[

[3 500, 4 000[

[4 000, 4 500[

[4 500, 5 000[

[5 000, 5 500[

114

HOOFDSTUK 4 I DE NORMALE VERDELING

Als de veranderlijken X en Y normaal verdeeld zijn met respectievelijke gemiddelden m   X en m   Y ______ en standaardafwijkingen s   X en s   Y , dan is ook X ± Y normaal verdeeld. Het gemiddelde van de verdeling is dan m   X ± m  Y en de standaardafwijking √  s  2X    + s  2Y    Deze eigenschap is enkel geldig als X en Y onafhankelijke veranderlijken zijn.

In een fabriek moet een werknemer in een periode van maximaal 5 minuten 2 onafhankelijke fasen van een productieproces afhandelen. Voor beide fasen is de afhandelingstijd normaal verdeeld met een gemiddelde van 135 seconden en een standaardafwijking van 12 seconden. Bereken de kans dat de werknemer niet aan de eis van 5 minuten zal voldoen.

Een bedrijf maakt bouten en bijpassende moeren. De diameter van de bouten is normaal verdeeld met gemiddelde 2,0 mm en standaardafwijking 0,12 mm. Voor de diameter van de moeren is het gemiddelde 2,2 mm en de standaardafwijking 0,09 mm. Er wordt een willekeurige bout en een willekeurige moer genomen. Bereken de kans dat de moer op de bout past.

kij

ke x

HOOFDSTUK 4 I DE NORMALE VERDELING

115

STUDIEWIJZER De normale verdeling 4.2 De normale kansdichtheidsfunctie KENNEN De grafiek van de normale kansdichtheidsfunctie is klokvormig en symmetrisch ten opzichte van de rechte met vergelijking x = m. De functie bereikt een maximum in x = m. De grafiek bezit 2 buigpunten, namelijk als x = m – s en als x = m + s . De x-as is horizontale asymptoot voor de grafiek. De parameter m is het populatiegemiddelde en s is de populatiestandaardafwijking.

4.4 Berekeningen met de normale verdeling KENNEN

ICT gebruiken om vraagstukken op te lossen met behulp van de normale kansdichtheidsfunctie.

4.5 De standaardnormale verdeling

KENNEN

x − m  Als je in het voorschrift van de normale kansdichtheidsfunctie de substitutie z = ____   s     (standaardscore van x) uitvoert, dan verkrijg je de standaardnormale verdeling.

De grafiek van de standaardnormale kansdichtheidsfunctie is klokvormig en symmetrisch ten opzichte van de rechte met vergelijking z = 0. De functie bereikt een maximum in z = 0. De grafiek bezit 2 buigpunten, namelijk als z = –1 en als z = 1. De x-as is horizontale asymptoot voor de grafiek.

ke x

Bij een normale verdeling ligt ongeveer 68 % van de gegevens in het interval [m − s, m + s ] , 95 % in het interval [m − 2 ? s, m + 2 ? s ] en 99,7 % in het interval [m − 3 ? s, m + 3 ? s ]

KUNNEN

De standaardnormale verdeling gebruiken in vraagstukken waarbij de onafhankelijkheid ten opzichte van de meeteenheden noodzakelijk is.

kij

4.6 Niet alle gegevens zijn normaal verdeeld KENNEN

Bij een rechtsscheve verdeling geldt: Mo < Me < m. Bij een linksscheve verdeling geldt: m < Me < Mo.

KUNNEN

Nagaan of een rij gegevens benaderd kan worden met behulp van een normale kansdichtheidsfunctie.

CONTRACTWERK 1 2 3

4 5

116

HOOFDSTUK 4 I DE NORMALE VERDELING

HOOFDSTUK 5 I REGRESSIE

118

5.2 Puntenwolk en regressielijn

118

5.3 Covariantie

120

5.4 De correlatiecoëfficiënt

123

5.5 De regressierechte

126

5.1 Inleiding

5.6 De determinatiecoëfficiënt

128

5.7 Opdrachten: deel 5 128 136

kij

ke x

Studiewijzer

HOOFDSTUK 5 I REGRESSIE

117

5.1

Inleiding Olijven helpen tegen veroudering

wiskunde & muziek

Puntenwolk en regressielijn

5.2.1 Lawaaihinder

5.2

Tot nu toe onderzocht je telkens 1 statistische variabele. Je deed aan eendimensionale statistiek. Je kunt ook meerdere soorten gegevens inwinnen, het verband ertussen bepalen en de sterkte van dat verband berekenen. In dat geval spreek je van meerdimensionale statistiek. In de tweedimensionale statistiek behandel je mogelijke verbanden tussen 2 veranderlijken. Regressie is een techniek om naar de mogelijke samenhang tussen een afhankelijke veranderlijke (y) en een onafhankelijke veranderlijke (x) te zoeken. Met andere woorden, je zoekt een functievoorschrift y = f (x). Je maakte er al eerder kennis mee in de leerwerkschriften over reële functies. In dit hoofdstuk zoek je vooral een eerstegraadsverband tussen y en x (lineaire regressie) en zoek je naar een kengetal voor de sterkte van dat verband.

kij

ke x

In een stad wordt een zomerfestival gehouden. Er zijn nogal wat klachten over lawaaihinder. De politie heeft die gesorteerd naar tijdstip, afstand tot de festivalweide en leeftijd van diegene die de klacht heeft ingediend. De resultaten zie je in de tabel. aantal klachten

afstand in m

aantal klachten

leeftijd in jaren

aantal klachten

500

1 000

1 500

2 000

2 500

3 000

3 500

4 000

4 500

5 000

5 500

6 000

tijdstip in h

1 2 3 4

118

HOOFDSTUK 5 I REGRESSIE

5.2.2 Puntenwolk en regressielijn • S tel de 3 tabellen grafisch voor door middel van een puntenwolk.

De oplossing met Excel vind je op diddit.

• B epaal telkens de best passende regressielijn.

5.2.3 Bespreking van de resultaten • V ul het verloop aan.

ke x

tijdstip

aantal klachten

afstand

leeftijd

kij

• D e best passende regressielijn voor de puntenwolken in verband met het aantal klachten in functie van het uur en in functie van de afstand tot de festivalplaats, is telkens een rechte. In het eerste geval liggen de punten wel ‘gemiddeld’ dichter bij de regressierechte dan in het tweede geval. • H et verband tussen het aantal klachten en de leeftijd is niet lineair, maar kwadratisch.

• V eronderstel dat het festival na middernacht nog doorgaat, hoeveel klachten zouden er zijn om 1 uur?

• H oeveel klachten komen er van op een afstand van 4 800 meter? • B epaal het aantal klachten van 70-jarigen: • G eef de betekenis van de richtingscoëfficiënt bij de lineaire regressielijnen.

• O p welke leeftijd zouden er volgens de kwadratische regressielijn het minst klachten zijn?

HOOFDSTUK 5 I REGRESSIE

119

5.3

Covariantie

5.3.1 Begripsvorming

Het verband is negatief als een stijgende waarde van de onafhankelijke veranderlijke in de meeste gevallen overeenkomt met een dalende waarde van de afhankelijke veranderlijke.

Het verband is positief als een stijgende waarde van de onafhankelijke veranderlijke in de meeste gevallen overeenkomt met een stijgende waarde van de afhankelijke veranderlijke.

Een puntenwolk is een grafische voorstelling van puntenkoppels (x, y).

kij

ke x

De regressielijn van een puntenwolk is de grafiek die zo goed mogelijk past bij de puntenkoppels.

Het verband noem je sterk als de punten, over het algemeen, vrij dicht bij de regressielijn liggen. Als de punten vrij ver van de regressielijn verwijderd liggen, spreek je van een zwak verband.

In de volgende paragrafen leer je een betekenis geven aan de formulering ‘zo goed mogelijk passen’ en ga je op zoek naar maatgetallen om de sterkte van het verband tussen 2 veranderlijken uit te drukken.

Het begrip regressie werd voor het eerst gebruikt door de Britse statisticus Sir Francis Galton, die ook bekend is door zijn werk over de normale verdeling en de betekenis van de standaardafwijking. Galton vond het vreemd dat de spreiding van de kenmerken van een mens (lengte, gewicht, IQ, ...) niet blijven toenemen. Je zou immers kunnen vermoeden dat er steeds grotere en steeds kleinere, steeds dommere en steeds slimmere mensen zullen zijn. Dit is echter niet zo: vaders die heel groot zijn krijgen meestal kinderen die iets kleiner zijn, ... Dit fenomeen noemde Galton ‘regressie (terugkeer) naar het gemiddelde’.

1 2 3 4

120

HOOFDSTUK 5 I REGRESSIE

5.3.2 Zwaartepunt van een tweedimensionale verdeling Beschouw een rij met n gegeven koppels (x  i , y   i) _ _ en stel dat x     het gemiddelde is van de x-waarden en y     het gemiddelde van de y-waarden. Zwaartepunt van een tweedimensionale verdeling _ _ Het punt ( x     ,  y ) noem je het zwaartepunt van een tweedimensionale verdeling.

Definitie

5.3.3 Covariantie I

_ x  i – x 

kwadrant IV

I II

x x

III

_ _ (x  i – x    )  ? (y  i –  y  )

III

_ y  i – y 

_ _ De rechten met vergelijking x = x      en y = y      verdelen het vlak van de puntenwolk in 4 kwadranten. Voor elk kwadrant ga je het teken na van de afwijkingen van de x- en de y-waarden ten opzichte van hun gemiddelde.

n _ _   )  ⋅ ( y  i – y     )  berekent, stel je vast dat als Als je daarna  ∑  (   x  i – x   i = 1

ke x

de som positief is, er meer punten van de wolk in I en III liggen dan in II en IV. Bij stijgende waarden van x behoren, globaal gezien, stijgende waarden van y.

kij

de som negatief is, er meer punten van de wolk in II en IV liggen dan in I en III. Bij stijgende waarden van x behoren, globaal gezien, dalende waarden van y.

Definitie

Covariantie De covariantie van een tweedimensionale tabel met n waargenomen koppels (x  i , y  i), n _ _   )  ⋅ ( y  i – y     )      ∑  (   x  i – x   i = 1 is het getal s xy = _________________        n – 1 De covariantie is de gecorrigeerde gemiddelde waarde van het product van de afwijkingen van de x- en de y-waarden ten opzichte van hun gemiddelde.

HOOFDSTUK 5 I REGRESSIE

121

5.3.4 Voorbeelden Psychologische test Een psycholoog beweert een test ontworpen te hebben die de ‘aanleg tot statistiek’ van individuen kan bepalen. Een leerkracht wiskunde wil nagaan of deze test klopt.

leerling punten T  1 punten T  2 45

Hij neemt daarom bij 15 leerlingen, zonder voorkennis statistiek, de psychologische test af, laat hen daarna gedurende 5 uur een stukje van de cursus statistiek instuderen, en neemt dan hierover een test af. De leerkracht wil nu nagaan in welke mate de punten op de test van de psycholoog, de punten op zijn test kunnen voorspellen. De punten, op 50, behaald op de psychologische test zijn de punten T  1. De punten, op 100, behaald op de statistiektest zijn de punten T 2.

ke x

Teken de bijbehorende puntenwolk en bereken de covariantie. Met Excel

Met de grafische rekenmachine

kij

Stel de lijsten PSYC1 en PSYC2 voor door een puntenwolk.

Voer het programma COVAR2 uit.

Geluidsoverlast bij een zomerfestival 1 2

tabel

covariantie

verband

Geeft de covariantie ons enige informatie over de sterkte van het verband? Waarom (niet)?

III

122

HOOFDSTUK 5 I REGRESSIE

5.4

De correlatiecoëfficiënt

5.4.1 Inleiding Neem het verband tussen de psychologische test en de punten behaald op de test van de wiskundeleraar. De covariantie is s  xy = 73,21. Stel dat je de punten voor de statistiektest op 50 quoteert in plaats van op 100. Dan worden alle gegevens y  i door 2 gedeeld. _ _ Ook het rekenkundig gemiddelde  y    wordt dan gedeeld door 2 en dus ook de factoren y  i –  y    in de formule voor de covariantie. De covariantie wordt dus gedeeld door 2.

Besluit: De covariantie is gevoelig voor een wijziging van de meeteenheid.

5.4.2 De correlatiecoëfficiënt

Correlatiecoëfficiënt

Definitie

De afhankelijkheid van de meeteenheid kun je oplossen door de gegevens te standaardiseren, met andere woorden door ze te vervangen door hun standaardscores.

ke x

De correlatiecoëfficiënt van een tabel met n waargenomen koppels (x  i , y  i) , _ _ n x  i – x      y  i – y      ______ ______ 1 _____     ⋅          . is het getal r =         ⋅   ∑    (   s     s   ) ( ) n – 1 i = 1 x y

Verband tussen de correlatiecoëfficiënt en de covariantie

kij

s xy  r =  _     s x ⋅ s y

Er zijn meerdere definities van het begrip correlatie. De definitie die je hebt gezien is die van de Engelse statisticus Karl Pearson (1857-1936). Karl Pearson doceerde vanaf 1894 als een van de eersten statistiek. Zijn belangrijkste bijdragen aan de statistiek: • H ij ontwikkelde een formule voor de correlatiecoëfficiënt. • P earson onderzocht de frequentieverdelingen die nu zijn naam dragen. • O m te beoordelen uit welke verdeling data getrokken zijn, ontwikkelde hij een chi-kwadraattoets (‘goodness of fit’) en de momentenmethode.

Dat Pearson in de wieg gelegd was om statisticus te worden kan worden geïllustreerd met het volgende verhaal. Toen hij nog een klein jongetje was, vertelde men hem dat hij moest stoppen met zuigen op zijn duim, omdat die anders steeds kleiner zou worden. Hij vergeleek toen de lengte van zijn ene duim met die van de andere en besloot dat hij werd voorgelogen. Hij hield zich - naast wiskunde, natuurkunde en sterrenkunde - ook bezig met religie, filosofie, geschiedenis, recht, politiek, biologie en evolutieleer. Zijn zoon Egon Pearson werd later ook statisticus. Hij ontwikkelde samen met Jerzy Neyman (rond 1930) de naar hen genoemde en ondertussen beroemde toetsingstheorie.

HOOFDSTUK 5 I REGRESSIE

123

5.4.3 Betekenis van de correlatiecoëfficiënt bij een lineair verband De correlatiecoëfficiënt is een getal tussen –1 en 1. 0 < | r | < 0,3

geen enkel verband

zeer zwak verband

| r | = 0

0,5 ⩽ | r | < 0,7

0,3 ⩽ | r | < 0,5

ke x

zwak verband

0,85 ⩽ | r | < 0,95

kij

0,7 ⩽ | r | < 0,85

matig verband

sterk verband

zeer sterk verband

0,95 ⩽ | r | < 1

| r | = 1

uitzonderlijk sterk verband

perfecte correlatie

1 2 3 4

124

HOOFDSTUK 5 I REGRESSIE

5.4.4 Voorbeelden Psychologische test Wat is de correlatie tussen de punten voor de psychologische test en de punten voor de statistiektest? Met Excel

Met de grafische rekenmachine De correlatiecoëfficiënt wordt berekend telkens een lineaire regressie L4

list

( ) uitgevoerd wordt. Wil je die ook op het scherm zien, dan zorg je dat de functie Stat Diagnostiek Aan geactiveerd is. stat

entry solve

quit

enter

mode

Druk

ke x

De correlatiecoëfficiënt is , er is dus een

correlatie.

Geluidsoverlast bij een zomerfestival

correlatie

verband

kij

tabel

III

5.4.5 Opmerkingen • D e correlatiecoëfficiënt is een maat voor de invloed van de onafhankelijke veranderlijke x op de afhankelijke veranderlijke y, die door een lineair verband wordt weergegeven. Je spreekt in dit geval over regressie van y op x. • E en wiskundeleerkracht stelt vast dat leerlingen die regelmatig gamen beter presteren op het examen. Er is dus een positief verband tussen beide veranderlijken. Volgt hieruit dat de leerlingen beter presteren omdat ze gamen? Wellicht niet. Het feit dat er een verband bestaat tussen 2 veranderlijken wil nog niet zeggen dat de ene veranderlijke de andere veroorzaakt.

HOOFDSTUK 5 I REGRESSIE

125

5.5

De regressierechte

5.5.1 De methode van de kleinste kwadraten Stel dat de rechte die de regressie van y op x uitdrukt, als vergelijking y = ax + b heeft. Hierbij noem je y de afhankelijke of verklaarde veranderlijke en x de onafhankelijke of verklarende veranderlijke. Bij elke x  i hoort een waargenomen y-waarde y   i en een voorspelde y-waarde   y   i . Het verschil tussen de waargenomen en de voorspelde y-waarde noem je het residu e   i = y  i –  y   i .

voorspelde waarde residu waargenomen waarde

∧

Na het uitvoeren van een regressie zijn de residu’s terug te vinden in de lijst RESIDU.8xl en kunnen ze ook met een statistische plot voorgesteld worden.

ke x

Als de regressierechte ‘goed past’ moeten de residu’s zo dicht mogelijk bij 0 liggen. Maar wat versta je onder ‘best passend’? Je zoekt de rechte waarbij ‘gemiddeld’ de punten van de puntenwolk zo dicht mogelijk bij deze rechte liggen, met andere woorden waarvoor de som van de ‘verticale afwijkingen’ tot de rechte zo klein mogelijk is. Omdat er zowel punten boven als onder de rechte liggen, hebben de afwijkingen verschillende tekens die elkaar neutraliseren als je er de som van berekent. Daarom wordt algemeen met het kwadraat van de verticale afwijkingen gewerkt. De best passende rechte is dan die rechte waarvoor de som van de kwadraten van de verticale afwijkingen minimaal is. Deze methode noem je daarom de methode van de kleinste kwadraten. De coëfficiënten a en b van de vergelijking y = ax + b worden zo bepaald dat de som van n

de kwadraten van de residuen   ∑   e     i  minimaal is. i = 1

kij

Men kan bewijzen dat a en b dan aan de volgende formules voldoen.

s  xy  _ _ De rechte met vergelijking y = ax + b is de best passende regressierechte als a = ____   2     en b = y     – a ⋅ x    .  s  x 

Formule

__ De regressierechte bevat het zwaartepunt (  , x  )      y van de tweedimensionale verdeling.

Als een dataset van metingen gegeven is, hoe vind je dan een ‘gemiddelde kromme (of baan)’ die de gemeten waarden zo goed mogelijk weergeeft? Laplace stelde in 1799 voor de som van de absolute waarden van de fouten te minimaliseren. Gauss stelde echter, in 1801, voor de som van de kwadraten van de fouten te minimaliseren. Door gebruik te maken van deze methode boekte Gauss succes in het berekenen van de baan van de planetoïde Ceres met een voldoende nauwkeurigheid, zodat ze opnieuw kon gelokaliseerd worden nadat ze voor meer dan een jaar onvindbaar was na haar ontdekking door de astronoom G. Piazzi van Palermo.

1 2 3 4

126

HOOFDSTUK 5 I REGRESSIE

5.5.2 De psychologische test Bepaal de vergelijking van de best passende regressierechte: Met Excel

Met de grafische rekenmachine

90 punten T2

80 70 60 50 40 30 15

Algemene bespreking van de vergelijking

• G eef de betekenis van het intercept b.

• G eef de betekenis van de richtingscoëfficiënt a.

punten T1

ke x

Bespreking van enkele individuele resultaten

• E r waren 3 studenten (4, 10 en 13) die op T 1een score van 20 behaalden.

Op basis van de regressierechte kun je een score van op T  2 voorspellen.  Leerling 4 behaalt in werkelijkheid 50, wat ongeveer overeenkomt met de verwachtingen.

Op de puntenwolk is leerling 4 dan ook dicht bij de best passende regressierechte gelegen.

kij

 Leerling 10 scoort 40 op T 2, wat betekent dat deze leerling minder goed heeft gepresteerd

dan verwacht. Hij bevindt zich in de puntenwolk onder de regressierechte.

 Leerling 13 daarentegen scoort 60 op T 2, 9 punten beter dan verwacht.

Zijn scores liggen flink boven de regressierechte.

• L eerling 6 behaalt 75 punten op T 2, wat 25 punten beter is dan leerling 4. Dit verschil was te verwachten, aangezien de leerling op T 1een score van 35 behaalde, 15 beter dan leerling 4. Op basis van dit verschil op T  1mag je een verschil van op T  2 verwachten. Leerling 6 heeft blijkbaar beter gescoord op T 2 dan verwacht. De regressierechte geeft een redelijk goede kijk op de invloed van de punten voor de test T 1 op de punten voor de test T 2. De schattingen doen de werkelijkheid niet al te veel geweld aan. Dit was min of meer te verwachten. De correlatiecoëfficiënt r = 0,80 duidt op een ‘sterke correlatie’.

HOOFDSTUK 5 I REGRESSIE

127

5.6

De determinatiecoëfficiënt

5.6.1 Definitie 2

De determinatiecoëfficiënt R  is een maat voor de kwaliteit van het regressiemodel, dat niet noodzakelijk lineair hoeft te zijn. Formule

_ verklaarde variatie van de data y  i t.o.v. y      ___________________________________   =      R         totale variatie 2

Bij een lineaire regressie is R  = r  (het kwadraat van de correlatiecoëfficiënt). 2 De onverklaarde variatie wordt bepaald door de aliënatiecoëfficiënt 1 – R  .

5.6.2 De psychologische test

De regressierechte heeft als vergelijking y = 1,21x + 26,82. 2

De correlatiecoëfficiënt is 0,80 ⇒ R   = r  = 0,64. 64 % van de variatie in de punten op T  2kan worden verklaard door de punten op T 1, via het regressiemodel. 36 % van de variatie in het aantal behaalde punten op T 2 hangt af van andere factoren dan de punten op T 1.

ke x

De determinatiecoëfficiënt betekent niet dat de punten voor T   2met een kans van 64 % juist kunnen voorspeld worden vanuit de punten op T   1. Het is de variatie in de punten van T   2die verklaard kan worden. Een andere misvatting is dat, als je de invloed van andere factoren op de punten van T  2 zou nagaan, je dan hoogstens 36 % als determinatiecoëfficiënt zou kunnen verkrijgen.

Opmerkingen

kij

• B ij het tekenen van de regressierechte in Excel kun je, door te kiezen voor ‘meer opties voor 2 trendlijnen’, R   laten weergeven.

• B ij het uitvoeren van een regressie als de Diagnostic-mode aan staat, 2 verschijnt niet alleen r maar ook r  .

1 2 3

Paragraaf 5.7 (Opdrachten: deel 5) vind je op diddit.

128

HOOFDSTUK 5 I REGRESSIE

Oefeningen REEKS B 1

De tabel geeft de gemiddelde lengte, in cm, van jongensbaby’s in functie van hun leeftijd in maanden. leeftijd

lengte

53,5

60,4

65,8

67,5

69,5

75,5

a) Teken een puntenwolk en geef de vergelijking van de regressierechte.

c) Geef de betekenis van de richtingscoëfficiënt.

b) Geef de betekenis van het intercept.

d) Schat de lengte van een jongensbaby van 8 maanden en 3 weken

ke x

• m et de regressierechte:

• d oor lineaire interpolatie van de gegevens:

kij

e) Schat, met de regressierechte, de lengte van een jongensbaby van 14 maanden.

f) Bereken de correlatiecoëfficiënt en geef de betekenis.

g) Bereken de determinatiecoëfficiënt en geef de betekenis.

h) Toon aan dat de regressierechte het volledige verloop van de groei van een jongen niet kan weergeven.

HOOFDSTUK 5 I REGRESSIE

129

hoogte (m)

temperatuur (°C)

Berlijn

9,1

Brocken

1 152

2,4

Boedapest

130

10,9

Dobratsch

2 140

0,1

Feuerkogel

1 592

3,3

Graz

342

9,4

Innsbruck

579

8,4

Klagenfurt

448

8,1

Lugano

276

Praag

374

7,9

Salzburg

437

8,6

Santis

2 496

–2,3

Wenen

203

9,1

Zugspitze

2 692

–5

station

In de tabel vind je enkele Europese weerstations met hun hoogte boven de zeespiegel en de gemiddelde jaartemperatuur.

a) Teken een puntenwolk en geef de vergelijking van de regressierechte.

ke x

b) Geef de betekenis van het intercept.

c) Geef de betekenis van de richtingscoëfficiënt.

kij

d) Is het in Innsbruck relatief warm of koud? Waarom?

e) Bereken de correlatiecoëfficiënt en geef de betekenis.

f) Bereken de determinatiecoëfficiënt en geef de betekenis.

1 2 3 4

130

g) Het weerstation in Ukkel ligt 100 m boven de zeespiegel. Schat, op basis van de regressierechte, de gemiddelde jaartemperatuur.

Controleer door de gemiddelde jaartemperatuur van Ukkel op te zoeken op het internet.

HOOFDSTUK 5 I REGRESSIE

Een farmaceutisch bedrijf produceert dieetpillen. Ze willen nagaan of er een verband bestaat tussen de procentuele afname van het vetgehalte in het lichaam en de toegediende dosis. In de tabel zie je de gegevens die ze verzameld hebben. procentuele afname vetgehalte

0,1

100

0,9

150

1,5

200

2,5

250

300

3,9

350

5,1

400

5,8

450

6,4

500

7,3

550

8,2

600

8,5

650

9,1

700

dosis per dag (mg)

9,2

a) Teken een puntenwolk en geef de vergelijking van de regressierechte.

ke x

b) In welke mate verandert de procentuele afname van het vetgehalte als de dosis met 100 mg wordt verhoogd?

kij

c) Toon aan dat het intercept geen betekenis heeft.

d) Schat de procentuele afname van het vetgehalte bij een dosis van 1 g per dag.

e) Welke dosis moet je nemen om 10 % vet te verliezen?

f) Bereken de correlatiecoëfficiënt en geef de betekenis.

g) Bereken de determinatiecoëfficiënt en geef de betekenis.

HOOFDSTUK 5 I REGRESSIE

131

In de tabel vind je het lichaamsgewicht, in kg, en het gewicht, in g, van de hersenen van 21 zoogdieren.

bever

1,35

8,1

koe

465

423

wolf

36,33

119,5

geit

27,66

115

cavia

1,04

5,5

ezel

187,1

419

paard

521

655

dwergaap

115

kat

3,3

25,6

giraf

539

680

gorilla

207

406

resusaap

6,8

179

kangoeroe

hamster

0,12

muis

0,023

0,4

konijn

2,5

12,1

schaap

55,5

175

panter

100

157

chimpansee

52,16

440

mol

0,122

varken

192

180

a) Teken een puntenwolk en geef de vergelijking van de regressierechte.

gewicht hersenen

b) Bepaal de correlatiecoëfficiënt en geef de betekenis.

lichaamsgewicht

zoogdier

c) Welk gegeven kan als ‘uitschieter’ beschouwd worden? Waarom?

d) Verwijder deze uitschieter en bepaal opnieuw de vergelijking van de regressierechte en de correlatie.

kij

ke x

De rest van de oefening maak je met de resultaten van vraag d.

e) Schat het gewicht van de hersenen van een zoogdier met een gewicht van 110 kg.

f) Hoeveel neemt het gewicht van de hersenen toe als het lichaamsgewicht met 10 kg toeneemt?

g) Kloppen de volgende clichés? 1 2 3 4

132

• ‘ stomme ezel’:

• ‘ domme koe’:

HOOFDSTUK 5 I REGRESSIE

De lengte van een metalen staaf is afhankelijk van de temperatuur: l  T = l   0 + l   0 ?a? T. Hierbij is l  T de lengte, in cm, bij een temperatuur T, in °C, l  0is de lengte bij 0 °C en ais de lineaire uitzettingscoëfficiënt. Een experiment om a te bepalen levert de volgende meetwaarden. T (in °C)

100

150

200

250

300

l (in cm)

25,04

25,07

25,08

25,11

25,12

a) Bepaal de vergelijking van de regressierechte.

De waarde van een weerstand is afhankelijk van de temperatuur: R  T = R  0 + R   0 ? a?T. Hierbij is R  T de weerstand, in Ω, bij een temperatuur T, in °C, R  0is de weerstand bij 0 °C en ais de temperatuurscoëfficiënt. Een experiment om a te bepalen levert de volgende meetwaarden.

ke x

c) Bereken de lineaire uitzettingscoëfficiënt.

b) Bepaal de waarde van l  0.

kij

T (in °C)

1 008,8

1 010,2

1 011,9

1 013,6

1 014,7

R (in Ω)

a) Bepaal de vergelijking van de regressierechte.

b) Bepaal de waarde van R  0.

c) Bereken de lineaire temperatuurscoëfficiënt.

HOOFDSTUK 5 I REGRESSIE

133

REEKS C Bij een onderzoek werd gezocht naar het verband tussen de hoofdomtrek y, in cm, en de lengte x, in cm, van 100 pasgeboren baby’s. Je vindt de resultaten in de tabel. x/y

totaal 3

totaal

17 33

100

a) Waarom heeft een spreidingsdiagram geen zin?

b) Bereken het gemiddelde en de standaardafwijking. _  x   = s x = _  y   = s y =

ke x

c) Geef de formule voor de covariantie van een tweedimensionale tabel met k verschillende waargenomen koppels (x  i , y  i ), met absolute frequentie N i .

d) Bereken de covariantie en geef de betekenis.

kij

e) Bereken de correlatiecoëfficiënt en geef de betekenis.

f) Bepaal de vergelijking van de regressierechte.

g) Geef de betekenis van de richtingscoëfficiënt.

h) Bereken de geschatte waarde voor de hoofdomtrek van een baby van 50 cm.

Hoeveel procent van de waargenomen y-waarden wijkt daar hoogstens 5 % van af?

i) Bereken de determinatiecoëfficiënt en geef de betekenis.

134

HOOFDSTUK 5 I REGRESSIE

Naar aanleiding van een onderzoek naar het verband tussen het gewicht en de lengte van jonge volwassenen, werd van 94 studenten tussen 18 en 22 jaar de lengte x, in cm, en het gewicht y, in kg, genoteerd. Dit zijn de resultaten. y/x

[158, 163[ [163, 168[ [168, 173[ [173, 178[ [178, 183[ [183, 188[ [188, 193[ [193, 198[ 160,5

165,5

170,5

[63, 68[ 65,5

[68, 73[ 70,5

[73, 78[ 75,5

[78, 83[ 80,5

[48, 53[ 50,5 [53, 58[ 55,5

[58, 63[ 60,5

175,5

185,5

190,5

195,5

[83, 88[ 85,5 1

[88, 93[ 90,5

180,5

[93, 98[ 95,5

a) Bereken het gemiddelde en de standaardafwijking. _  x   =

s x =

_  y   =

s y =

b) Bereken de covariantie.

ke x

c) Bereken de correlatiecoëfficiënt en geef de betekenis.

kij

d) Bepaal de vergelijking van de regressierechte.

e) Geef de betekenis van de richtingscoëfficiënt.

f) De Body Mass Index BMI = __   G2    . Hierbij is G het gewicht, in kg, en L de lengte in meter. L 

Vul de tabel aan (de ideale BMI ligt tussen 20 en 25). ∧

BMI

170

175

180

185

190

HOOFDSTUK 5 I REGRESSIE

135

STUDIEWIJZER Regressie 5.3 Covariantie KENNEN Een puntenwolk is een grafische voorstelling van puntenkoppels (x, y). De regressielijn van een puntenwolk is de grafiek die zo goed mogelijk past bij de puntenkoppels. __ Het punt (  , x  )      y noem je het zwaartepunt van de tweedimensionale verdeling. De covariantie van een tweedimensionale tabel met n waargenomen koppels (x  i , y   i), n _ _   ∑   (x i – x   )  ⋅ (y i – y   )  i = 1 is het getal s xy = ______________       .

n – 1

De covariantie berekenen en er de betekenis van geven.

KUNNEN

5.4 De correlatiecoëfficiënt

KENNEN

De correlatiecoëfficiënt van een_ tweedimensionale tabel met n waargenomen koppels (x  i , y   i ), _ n s xy x   – x       y   – y       i i _____    ⋅   _____      = _____   1       ⋅   ∑  (   s      s  ⋅ s      . is het getal r = _____ s   ) ( y ) n – 1 i = 1 x x y

KUNNEN

De correlatiecoëfficiënt berekenen en er de betekenis van geven.

5.5 De regressierechte

ke x

KENNEN

kij

De rechte met vergelijking y = ax + b is de best passende regressierechte s xy _ _   2    en b =     y – a ⋅     x . als ___ s  x 

KUNNEN

Vraagstukken oplossen met behulp van de regressierechte die behoort bij een puntenwolk.

5.6 De determinatiecoëfficiënt KENNEN _ verklaarde variatie van de data y it.o.v. y      2 R  = ________________________________            totale variatie

KUNNEN De determinatiecoëfficiënt berekenen en er de betekenis van geven.

CONTRACTWERK

1 2 3

136

HOOFDSTUK 5 I REGRESSIE