Deel XIII Beschrijvende statistiek

Page 1

Wiskunde In zicht een cursus wiskunde voor studierichtingen met component wiskunde derde graad algemeen secundair onderwijs geschreven door

Koen De Naeghel Deel XIII Beschrijvende statistiek

20/04/2019


CREATIVE COMMONS Naamsvermelding-NietCommercieel-GelijkDelen 3.0 (CC BY-NC-SA) Dit is de vereenvoudigde (human-readable) versie van de volledige licentie. De volledige licentie is beschikbaar op de webpagina http://creativecommons.org/licenses/by-nc-sa/3.0/nl/legalcode De gebruiker mag: het werk kopiëren, verspreiden en doorgeven Remixen - afgeleide werken maken

Onder de volgende voorwaarden: Naamsvermelding - De gebruiker dient bij het werk de door de maker of de licentiegever aangegeven naam te vermelden (maar niet zodanig dat de indruk gewekt wordt dat zij daarmee instemmen met je werk of je gebruik van het werk). Niet-commercieel - De gebruiker mag het werk niet voor commerciële doeleinden gebruiken. Gelijk delen - Indien de gebruiker het werk bewerkt kan het daaruit ontstane werk uitsluitend krachtens dezelfde licentie als de onderhavige licentie of een gelijksoortige licentie worden verspreid.

Met inachtneming van: Afstandname van rechten - De gebruiker mag afstand doen van een of meerdere van deze voorwaarden met voorafgaande toestemming van de rechthebbende. Publiek domein - Indien het werk of een van de elementen in het werk zich in het publieke domein onder toepasselijke wetgeving bevinden, dan is die status op geen enkele wijze beı̈nvloed door de licentie. Overige rechten - Onder geen beding worden volgende rechten door de licentie-overeenkomst in het gedrang gebracht: • Het voorgaande laat de wettelijke beperkingen op de intellectuele eigendomsrechten onverlet. • De morele rechten van de auteur. • De rechten van anderen, ofwel op het werk zelf ofwel op de wijze waarop het werk wordt gebruikt, zoals het portretrecht of het recht op privacy. Let op - Bij hergebruik of verspreiding dient de gebruiker de licentievoorwaarden van dit werk kenbaar te maken aan . derden door middel van een link naar http://creativecommons.org/licenses/by-nc-sa/3.0/nl/

Eerste druk: 2018 Versie: 20 april 2019 Gepubliceerd door: Online publicatie platform Issuu.com Auteursrecht omslagfoto: stylephotographs/123RF Stockfoto http://nl.123rf.com/profile stylephotographs Tekstzetsysteem: LATEX Royalty percentage: 0% c Koen De Naeghel, gelicenseerd onder een Creative Commons Naamsvermelding-NietCommercieel-GelijkDelen 3.0


Deel XIII

Toegepaste wiskunde - Beschrijvende statistiek

0, 15%

2, 35%

2, 35% 34%

34%

13, 5% µ − 3σ µ − 2σ

µ−σ

13, 5% µ

XIII

µ+σ

µ + 2σ

µ + 3σ

0, 15%


Inhoudsopgave

Deel Beschrijvende statistiek

1 Gegevens verzamelen en beschrijven, beschrijvende maten 1.1

Gegevens verzamelen en ordenen . . . . . . . . Populatie en steekproef . . . . . . . . . . . . . Gegevens verzamelen . . . . . . . . . . . . . . Toepassing - Historische blunders . . . . . . . Gegevens ordenen . . . . . . . . . . . . . . . . 1.2 Gegevens beschrijven . . . . . . . . . . . . . . Basisbegrippen . . . . . . . . . . . . . . . . . . Niet-gegroepeerde frequentietabel . . . . . . . Gegroepeerde frequentietabel . . . . . . . . . . Toepassing - Krantenartikels . . . . . . . . . . 1.3 Beschrijvende maten (karakteristieken) van een Centrummaten . . . . . . . . . . . . . . . . . . Spreidingsmaten . . . . . . . . . . . . . . . . . Boxplot . . . . . . . . . . . . . . . . . . . . . . Oefeningen . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . steekproef . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

1 . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

2 De normale verdeling 2.1 2.2 2.3

Van frequentiepolygoon naar normale verdeling . . . . . . . . . . . Informatie aflezen uit de normale verdeling . . . . . . . . . . . . . Studie van de normale verdeling . . . . . . . . . . . . . . . . . . . Toepassing 1 - Voorspellingsintervallen . . . . . . . . . . . . . . . Toepassing 2 - Wanneer is een steekproef normaal verdeeld? . . . Toepassing 3 - Oppervlaktes berekenen met behulp van een tabel 2.4 Normale verdelingen vergelijken . . . . . . . . . . . . . . . . . . . Oefeningen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2 2 3 4 5 6 6 8 11 14 15 15 19 22 24

34 . . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

34 37 41 45 45 46 47 49

A Tabel voor standaardnormale verdeling

53

Antwoorden op geselecteerde oefeningen

54

Referentielijst

57


Hoofdstuk 1

Gegevens verzamelen en beschrijven, beschrijvende maten Wat is statistiek? In het dagelijks taalgebruik bedoelt men met statistiek meestal het resultaat van een onderzoek, doorgaans verkregen door het uitvoeren van tellingen. Zo zien we in sportuitzendingen allerlei overzichten van prestaties van atleten verschijnen onder de aanduiding statistics. Die statistieken worden meestal weergegeven in een tabel of een grafiek. Dat uitvoeren van tellingen gebeurt vaak door een organisatie in opdracht van de overheid of een bedrijf. Er zijn ook heel wat instanties die gegevens verzamelen en ter beschikking stellen. Een betrouwbare bron is bijvoorbeeld de Algemene Directie Statistiek - Statistics Belgium, afgekort Statbel.1 Zo vonden we op de website van Statbel [0] de volgende statistiek over verkeersdoden. Kun je achterhalen wat je op deze grafiek kunt aflezen?

In een tweede betekenis is statistiek de naam van een vakgebied binnen de wiskunde. Het is de wetenschap van het verzamelen, ordenen, analyseren, interpreteren of verklaren en presenteren van gegevens. Binnen het vakgebied van de statistiek wordt onderscheid gemaakt tussen de volgende twee deelgebieden, waarvan het eerste in dit cursusdeel behandeld wordt. 3 Beschrijvende statistiek houdt zich bezig met het verzamelen en het bewerken van gegevens. De bedoeling is om op een (soms grote) hoeveelheid waarden een aantal bewerkingen toe te passen zodat de resultaten overzichtelijk worden. Hierbij denken we onder andere aan het maken van een tabel of grafiek en het berekenen van beschrijvende maten, zoals centrummaten, spreidingsmaten en boxplot. Beschrijvende statistiek kunnen we dan ook als volgt typeren: door meer overzicht ontstaat meer inzicht. 3 Verklarende statistiek (ook wel inductieve, wiskundige of inferentieĚˆle statistiek genoemd) heeft als bedoeling om op basis van de resultaten van waarnemingen te komen tot algemene uitspraken over het onderzochte verschijnsel. Enkele bekende methoden zijn toetsen van hypothesen en schatten van de numerieke karakteristieken en daarmee gelinkt het bepalen van de foutenmarge en betrouwbaarheidsinterval bij een gegeven betrouwbaarheidsniveau. Willen de resultaten van waarnemingen leiden tot waardevolle algemene uitspraken, dan zullen die waarnemingen voldoende willekeurig moeten zijn. Die willekeur kan begrepen door het opstellen van kansmodellen. Dat gebeurt in het vakgebied stochastiek, een onderdeel van de subtak kansrekenen binnen de toegepaste wiskunde. Op die manier kunnen we stochastiek opvatten als een brug tussen beschrijvende en verklarende statistiek. Dat wordt in het cursusdeel Kansrekenen 2 en verklarende statistiek behandeld. 1 Statbel of AD Statistiek, het vroegere Nationaal Instituut voor de Statistiek (NIS) en Algemene Directie Statistiek en Economische Informatie (ADSEI), is een van de algemene directies van de (Belgische) Federale Overheidsdienst Economie, K.M.O., Middenstand en Energie Belgium. Op de officieĚˆle website [0] kun je heel wat data vrij raadplegen zoals bevolkingsaantallen, inflatiecijfers, aantal faillissementen, meest populaire voornamen, aantal huwelijken, werkloosheidcijfers enzovoort.

XIII-1


1.1

Gegevens verzamelen en ordenen

Populatie en steekproef 3 Inleidend voorbeeld. Het ministerie van volksgezondheid wil zijn beleid inzake rookpreventie afstemmen op het rookgedrag van de mensen. Het ministerie vraagt zich af hoeveel sigaretten een Belgische roker per dag gemiddeld verbruikt. Uiteraard kan het ministerie niet aan alle rokende Belgen vragen hoeveel sigaretten zij per dag roken. Daarom houdt men een enquête door aan 5000 rokers de volgende vraag te stellen: Hoeveel sigaretten heeft u gisteren gerookt? (a) Op welke groep heeft het onderzoek betrekking? (b) Van welke groep verzamelt men effectief informatie?

Er zit meer in een sigaret dan je denkt.

3 Populatie. Elk statistisch onderzoek start met het verzamelen van gegevens. Daarbij zal men duidelijk moeten maken op welke verzameling van personen of objecten het onderzoek betrekking heeft. Deze totale verzameling, waarover dus informatie wordt gewenst, noemen we de populatie. Het is van belang dat de populatie operationeel gedefinieerd is, dat wil zeggen, dat men in de praktijk duidelijk moet kunnen bepalen of een bepaalde persoon of object al dan niet tot de populatie behoort. Zoiets ligt niet altijd voor de hand. Voorbeeld. Een gemeente voert een onderzoek naar de kenmerken van woningen in die gemeente. De populatie bestaat dus uit alle woningen van die gemeente. Maar wanneer is een gebouw een woning? En kunnen binnen een gebouw meerdere woningen worden onderscheiden? Daarenboven hoeven sommige elementen van de populatie niet eens te bestaan. Voorbeeld. Een fabriek beschouwt als populatie alle geproduceerde en nog te produceren apparaten. Men wil de kwaliteit controleren van een aantal recent geproduceerde apparaten, om op die manier uitspraken te doen over de kwaliteit van het productieproces. Dat gaat ook apparaten die nog gemaakt moeten worden. 3 Steekproef. Vaak is de populatie te groot om de informatie effectief te verzamelen en kiest men voor een kleinere groep. Dat deel van de populatie waarover we effectief informatie inzamelen noemen we de steekproef. We zeggen ook wel: een steekproef nemen of trekken uit de populatie. De belangrijkste taak van de statistiek is om uit een steekproef informatie af te leiden voor de volledige populatie. Het selecteren van populatie-elementen die in de steekproef terechtkomen moet dus op een doordachte manier gebeuren. Daartoe zijn allerlei methoden van steekproeven trekken ontwikkeld. In het algemeen is het wenselijk dat de steekproef (in vrij hoge mate) voldoet aan de volgende drie criteria. (1) De steekproef is representatief. Hiermee bedoelt men dat de steekproef een goede weergave moet zijn van de populatie. Dit houdt in dat de steekproef voldoende elementen van de verschillende groepen in de populatie bevat en in de zelfde verhouding. (2) De onderzoeker mag geen subjectieve keuze maken bij de selectie van de steekproefelementen. Als de onderzochte populatie-elementen volkomen willekeurig worden gekozen, bijvoorbeeld door loting, dan spreken we van een aselecte steekproef uit de populatie. Die aanduiding betekent letterlijk dat we niet-selectief geweest zijn bij het samenstellen van de steekproef. (3) De omvang van de steekproef is voldoende groot. Een probleem is vaak dat men - bij het trekken van een steekproef - de verhoudingen van de verschillende groepen in de populatie onvoldoende kent. Hoe kunnen we er dan voor zorgen dat de steekproef representatief is? Een aselecte steekproef zal er net voor zorgen dat de steekproef representatief is! 3 Inleidend voorbeeld (vervolg). Het ministerie van volksgezondheid ondervraagt rokers met de vraag Hoeveel sigaretten heeft u gisteren gerookt? Beoordeel de keuze van de steekproef naar de criteria aselect, representatief en omvang (indien mogelijk). (a) (b) (c) (d) (e)

Men Men Men Men Men

houdt de enquête enkel in Brussel. neemt de enquête af per email. ondervraagt 50 rokers. vraagt eerst aan de rokers of ze een vraag willen beantwoorden over hun rookgedrag. ondervraagt enkel rokers die vergezeld zijn van iemand. XIII-2


Gegevens verzamelen Men kan gegevens gebruiken die door anderen verzameld zijn, zoals bijvoorbeeld door Statbel [0]. Dit noemt men het raadplegen van een externe bron. Binnen een organisatie kan men vaak een interne bron raadplegen. Voorbeeld. De rector van een universiteit wil de leeftijdsopbouw van de docenten onderzoeken. Hij vraagt de gegevens op bij de personeelsdienst. Anderzijds kan de onderzoeker zelf de gegevens verzamelen. We onderscheiden daarbij twee hoofdvormen, namelijk de enquête en het experiment. 3 Enquête. Bij deze toepassing maakt de onderzoeker gebruik van een vragenformulier. Zo’n vragenlijst kan bestaan uit: . open vragen: de ondervraagde persoon (respondent) heeft de mogelijkheid het antwoord op de vraag zelf te formuleren, en/of . gesloten vragen: de respondent kan enkel kiezen uit vooraf vastgelegde antwoordmogelijkheden. Het maken van een goede vragenlijst is een kunst op zich. Enkele algemene aanbevelingen [0]. (1) Stel niet teveel vragen, maar beperk je tot het essentiële. (2) Maak bij het ontwerpen van een vragenlijst gebruik van het werk en van de ervaringen van andere onderzoekers. Het raadplegen van bestaande vragenlijsten is een nuttige bezigheid. (3) Vragen moeten eenvoudig, begrijpelijk en duidelijk zijn. Vragenlijsten zijn doorgaans te overladen, te ingewikkeld en te veeleisend voor de respondent. Verkies eenvoudige spreektaal boven hoogdravende woorden. (4) Over het algemeen moeten de vragen kort zijn, maar er zijn uitzonderingen. Het is mogelijk dat een lange vraag beter begrepen wordt omdat men de aandacht eerst uitdrukkelijk op het onderwerp vestigt. Zo wordt: Welke problemen met gezondheid heeft u gehad tijdens de voorbije 4 weken? duidelijker als ze zo wordt gesteld: De volgende vraag gaat over uw gezondheid. Welke problemen heeft u gehad tijdens de voorbije 4 weken? (5) Elke vraag mag slechts één onderwerp bevatten. Als de respondenten een antwoord geven op een meerdimensionale vraag, dan weet de onderzoeker niet welk gedeelte van de vraag precies beantwoord is. Een bijkomend onderwerp kan ook in de antwoordalternatieven verscholen zitten. Zo zijn bij de (slechte) vraag: Drinkt u wel eens alcoholische dranken? Antwoord met ja, soms of neen. de antwoorden ja en neen van een andere orde dan soms, denk aan vaak, regelmatig, zelden enzovoort. (6) Dubbele negaties moeten tot elke prijs vermeden worden. Uitspraken waarmee de respondent het eens of oneens kan zijn mogen niet negatief geformuleerd worden. Een voorbeeld van een slechte vraag is: Bent u akkoord dat leerkrachten niet mogen verplicht worden om leerlingen te controleren buiten de school? (7) Alle antwoordmogelijkheden moeten aan de respondent op een overzichtelijke wijze voorgelegd worden. Het onderwerp moet eerst komen en dan pas de antwoordmogelijkheden. Verbeter zelf de slechte vraag: Vindt u het een goede zaak, een kwalijke zaak of noch het een noch het ander dat België lid is van de EU? (8) Maak een onderscheid tussen vragen over feiten en opinies. (9) Overweeg zorgvuldig de volgorde van de vragen en de plaats van elke vraag in het geheel van de vragenlijst. (10) Voorzie de vragenlijst van een algemene inleiding en korte introducties bij de verschillende onderdelen. (11) Verzorg zeer goed de opmaak van de vragenlijst. Een belangrijk probleem kan de non-respons zijn, wat inhoudt dat de benaderde personen weigeren mee te doen aan de enquête. Gevolg van een grote non-respons kan zijn dat de verzameling van de wel ingevulde formulieren niet meer beschouwd kan worden als een representatieve steekproef uit de populatie. 3 Experiment. Verzamelen van gegevens door middel van een experiment komt vooral voor bij wetenschappelijke toepassingen. Kenmerkend is dat de onderzoeker zelf condities creëert waaronder het experiment plaatsvindt. Voorbeeld. Een onderzoeker bestudeert het effect van een medische behandeling. De proefpersonen worden in twee groepen verdeeld, namelijk een groep die de behandeling wel krijgt en een groep die de behandeling niet krijgt (de controlegroep). Met de waargenomen gegevens van de twee groepen probeert men dan tot conclusies te komen. XIII-3


Toepassing - Historische blunders Bij het interpreteren van een statistiek moet men altijd aandacht besteden aan de manier waarop de steekproef tot stand is gekomen en de wijze waarop conclusies worden getrokken. Belangrijke aspecten die men moet onderzoeken zijn de betrouwbaarheid van de steekproef en de variabiliteit in een steekproefgemiddelde. 3 Een steekproef wordt vertekend genoemd als ze onbetrouwbare informatie over de hele populatie oplevert. Dat is bijvoorbeeld het geval met steekproeven waarbij mensen vrijwillig beslissen om mee te doen, zoals televoting. Ook opportunistische steekproeven waarbij de eenheden zijn gemakkelijk of goedkoop te bereiken, bijvoorbeeld een enquête in een winkelstraat, zijn vertekend. 3 Ook goede steekproeven uit eenzelfde populatie leveren verschillende resultaten op. Dit fenomeen noemt men steekproefvariabiliteit. Het heeft als gevolg dat je nooit met 100% zekerheid besluiten kunt trekken over de hele populatie. Dit is niet hetzelfde als zeggen met statistiek kun je alles bewijzen. De bedoeling is juist deze variabiliteit te kunnen inschatten. We komen hierop terug bij het begrip betrouwbaarheidsintervallen in Deel Kansrekenen 2 en verklarende statistiek). Onderzoekers doen hun uiterste best om ervoor te zorgen dat de mensen die ze ondervragen representatief zijn. Ze selecteren een steekproef die op een aantal voor de onderzoeksvraag belangrijke kenmerken representatief is voor de hele populatie (een zogenaamde stratificatie, bijvoorbeeld leeftijd, opleidingsniveau, inkomen enzovoort). Zoals eerder vermeld kunnen we, zolang de steekproef aselect (dus volledig willekeurig) is, ervan uitgaan dat de responsen van de steekproef redelijk goed overeen zullen komen met die van de hele populatie. Maar in sommige beroemde gevallen probeerden mensen uitkomsten te generaliseren vanuit een niet willekeurig geselecteerde steekproef.2 Op die manier beging het Amerikaanse tijdschrift Literary Digest in 1936 een statistische blunder. Om de presidentsverkiezingen te voorspellen stuurde de Digest per briefkaart een enquête uit onder maar liefst 10 miljoen kiesgerechtigden. Zo’n 2, 3 miljoen briefkaarten kwamen ingevuld terug, een ontzettend groot aantal voor een steekproef. Op grond van zijn peiling voorspelde de Literary Digest vervolgens dat de Republikeinse kandidaat Alf Landon met 55% de presidentsverkiezingen zou gaan winnen. Ondanks het grote aantal respondenten bleek de voorspelling van het blad onjuist. Franklin Delano Roosevelt klopte Landon met maar liefst 61% van de stemmen en de poll van Literary Digest werd een historisch voorbeeld van hoe het niet moest. Er zijn twee theorieën over wat er misging. Ten eerste was de steekproef niet aselect samengesteld. Namen en adressen werden namelijk willekeurig getrokken uit telefoongidsen en registratielijsten van autobezitters. Daardoor werden mensen zonder auto en telefoon niet ondervraagd. Een niet te onderschatten groep, want op het dieptepunt van de Grote Depressie konden veel mensen zich geen telefoon of auto veroorloven. Laat dat net de arme mensen zijn geweest, die in het algemeen meer geneigd waren op Roosevelt te stemmen dan op Landon.

Literary Digest

(1919)

Een tweede theorie zegt dat de mensen die bereid waren de briefkaart terug te sturen vooral de hoger opgeleiden en de rijken waren, die vaker dan gemiddeld op Landon zouden stemmen. Onderzoek heeft laten zien dat waarschijnlijk beide effecten verantwoordelijk zijn geweest voor de uitglijder van Literary Digest. Moderne politieke peilingen zijn evenmin gevrijwaard van dergelijke fouten in de selectie van een steekproef. Tijdens de aanloop naar de presidentsverkiezingen van 1984 liet de campagnestaf van republikein Ronald Reagan telefonische peilingen uitvoeren waaruit bleek dat Reagan een comfortabele voorsprong had op de democraat Walter Mondale - tenzij de peiling op vrijdagavond plaatsvond. Paniek! Toen besefte de campagnestaf dat democraten gemiddeld armer zijn dan republikeinen en dat ze daarom op vrijdagavond minder vaak naar de film of uit eten gaan dan hun republikeinse landgenoten. De kans dat ze hun telefoon opnamen als de peilers belden was daarom groter.

Ronald Wilson Reagan (1911 - 2004) 2 Deze voorbeelden zijn ontleend aan [0] en [0] . The Literary Digest is deze methodologische ramp nooit te boven gekomen en ging kort na de publicatie van de peiling failliet.

XIII-4


Gegevens ordenen 3 Inleidend voorbeeld. Een pas afgestudeerde bedrijfskundige heeft een eerste baan gevonden bij een groot makelaarskantoor en krijgt als opdracht het woningaanbod van de gezamelijke makelaars in kaart te brengen. Een uitgebreide inventarisatie levert hem een bestand op van 120 woningen. Van iedere woning is een achttal kenmerken vermeld. Voor de eerste tien huizen levert dit de gegevens uit onderstaande tabel op [0].

3 Variabele. Bij de elementen van een populatie worden doorgaans een (beperkt) aantal kenmerken onderzocht. Deze kenmerken worden vaak aangeduid met de term variabele (ook wel veranderlijke genoemd). Bij een kwantitatieve variabele wordt de uitkomst kan door een getal worden weergegeven. Een kwalitatieve variabele betekent: de uitkomst is geen getal, maar een aanduiding, een kenmerk. Denk bijvoorbeeld aan de religieuze overtuiging van een persoon of een oordeel (goed, matig, slecht) over een leerkracht. 3 Indeling in schalen. Om te weten welke bewerkingen we mogen maken met een variabele, maken we een indeling in schalen. We onderscheiden vijf typen: nominale schaal, ordinale schaal, intervalschaal, ratioschaal en absolute schaal. Hun betekenis wordt hieronder veruidelijkt. schaal

omschrijving

voorbeelden

bewerkingen

nominaal

De variabele meet een kenmerk dat niet op een voor de hand liggende manier als een getal kan worden weergegeven. Toegekende codenummers kennen geen logische volgorde (ordening). Ordening, maar onderlinge verschillen hebben niet noodzakelijk dezelfde betekenis.

Haarkleur, geslacht, religie of de naam van de krant die iemand leest. Zinloze uitspraak: bij code blond = 0 en bruin = 1 is blond ≤ bruin.

geen

Het aantal sterren van een restaurant in de Michelin-gids. Zinloze uitspraak: Restaurant Hertog Jan heeft drie keer zoveel Michelinsterren restaurant Sans Cravate. De tijd die we aflezen op een klok. Zinloze uitspraak: om 4 uur is het twee keer zo laat als om 2 uur. Het gewicht van een individu, de wachttijd in de wachtkamer bij een tandarts en het inkomen van een volwassen Belg. Alle getallen die we verkrijgen door tellen, zoals het aantal kinderen in een gezin.

x≥y

ordinaal

interval

ratio

absoluut

Logische volgorde en het verschil tussen twee uitkomsten heeft een eenduidige betekenis, maar er is geen natuurlijk nulpunt. Logische volgorde, het verschil tussen twee uitkomsten heeft een eenduidige betekenis en er is een natuurlijk nulpunt. Maar er is keuze in meeteenheid. Logische volgorde, het verschil tussen twee uitkomsten heeft een eenduidige betekenis, er is een natuurlijk nulpunt en de meeteenheid ligt vast.

x≥y 2x x+y x≥y 2x x+y x = 2y x≥y 2x x+y x = 2y x=y+1

3 Inleidend voorbeeld (vervolg). Geef voor de volgende variabelen uit bovenstaande tabel aan of deze een nominale, ordinale, absolute, interval- of ratioschaal heeft. (a) Kamers (b) Bouwjaar (c) Centrale verwarming (c.v.) (d) Grond (e) Wijk XIII-5


1.2

Gegevens beschrijven

Wanneer we een groot aantal gegevens hebben verzameld en geordend, dan willen we meestal ook andere personen een idee geven van de resultaten. Daartoe is het noodzakelijk dat we de gegevens verwerken in een tabel of een grafiek. Bovendien komt op die manier het onderliggend patroon tot uiting. In deze paragraaf bespreken we de meest populaire presentaties (uitgebreide) frequentietabel en staafdiagram. We vermelden eerst enkele basisbegrippen. Daarna komen concrete voorbeelden aan bod.

Basisbegrippen Een steekproef X in één variabele is een (eindige) rij reële getallen x1 , x1 , . . . , x1 , x2 , x2 , . . . , x2 , x3 , x3 , . . . , x3 , . . . , xi , xi , . . . , xi , . . . {z } | {z } | {z } | {z } | n1 keer

n2 keer

n3 keer

ni keer

gerangschikt van klein naar groot. Zo’n rij noemt men de data van de steekproef. De termen xi van de rij noemt men de waarden (of waarnemingsgetallen of uitkomsten) van de steekproef. Het aantal keer dat het waarnemingsgetal xi voorkomt in de data noemt men de (absolute) frequentie van xi , notatie ni . Om een zicht te krijgen op de data van de steekproef, stelt men deze voor met een frequentietabel (linkerfiguur), die we meetkundig voorstellen aan de hand van een staafdiagram (ook histogram genoemd, rechterfiguur). waarde xi

frequentie ni

x1

n1

ni

x2

n2

n2

x3

n3

.. .

.. .

xi

ni

.. .

.. .

(frequentie) ni

n1 n3 ... x1

x2

x3

... xi

xi (waarden)

Tenzij anders vermeld tekenen we de staafjes zonder tussenruimten. Bij voorkeur hebben alle staafjes dezelfde breedte. Indien dat niet zo is, dan moet men ervoor zorgen dat de onderlinge verhoudingen van de staafjes (oppervlakten) dezelfde is als de corresponderende verhoudingen van de frequenties. Een manier om dat te doen als hoogte van een staaf de zogenaamde frequentiedichtheid te nemen, dat is de frequentie gedeeld door de breedte. Door in het staafdiagram de bovenste middens van de staafjes met elkaar te verbinden verkrijgen we het frequentiepolygoon (zie figuur).

(frequentie) ni

n2

n1 n3 ... x1

x2

x3

XIII-6

xi (waarden)


De grootte van een steekproef is het aantal waarden in de data van de steekproef, notatie n. In symbolen: def

n = n1 + n2 + · · · + ni + · · · =

X

nk

k

Meetkundige betekenis. Als alle staafjes breedte 1 hebben, dan is de grootte van een steekproef n gelijk aan de totale oppervlakte van de staafjes in het staafdiagram. De grootte van de populatie noteren we met N (al is dit getal niet altijd gekend). De cumulatieve frequentie van xi is het aantal waarden kleiner of gelijk aan xi , notatie ci of cni . In symbolen: def

ci = n1 + n2 + · · · + ni =

i X

nk

k=1

Meetkundige betekenis. Als alle staafjes breedte 1 hebben, dan is de cumulatieve frequentie ci gelijk aan de oppervlakte van de eerste i staafjes. De relatieve frequentie van xi is het percentage dat xi voorkomt in de data van de steekproef, notatie fi . In symbolen ni n

def

fi =

Vaak herschaalt men het staafdiagram door als hoogte van de staafjes de relatieve frequenties aan te duiden in plaats van de absolute frequenties. Men spreekt dan ook wel van het relatief staafdiagram. Meetkundige betekenis. P Als alle staafjes breedte 1 hebben, dan is nij het relatief staafdiagram de oppervlakte van alle staafjes gelijk aan k fk = 1. De cumulatieve relatieve frequentie van xi is het percentage van het aantal waarden kleiner of gelijk aan xi , notatie cfi . In symbolen: def

cfi =

ci n

Samenvoegen van deze frequenties levert de uitgebreide frequentietabel: waarde xi

frequentie ni

x1

n1

x2

n2

x3 .. .

n3 .. .

relatieve frequentie fi n1 n n2 n n3 n .. .

cumulatieve frequentie ci n1 n1 + n2 n1 + n2 + n3 .. .

cumulatieve relatieve frequentie cfi n1 n n1 + n2 n n1 + n2 + n3 n .. .

Het sompolygoon (of ogief) verkrijgt men door de waarden uit te zetten tegen de cumulatieve frequenties (zie figuur).

(cumulatieve frequentie) ci c4 c3

c2 c1

x1

x2

x3

XIII-7

x4

xi (waarden)


Niet-gegroepeerde frequentietabel 3 Modelvoorbeeld (boterhammen). Tijdens de middagpauze vroegen we aan dertig boterhameters: Hoeveel boterhammen heeft u vandaag mee? De resultaten worden in de volgende tabel weergegeven [0]: 4

2

4

2

0

2

2

5

3

1

1

4

4

3

3

2

3

3

3

4

3

4

5

3

2

2

4

1

3

2

In dit voorbeeld is (vul aan): . grootte van de steekproef: n = . . . . data van de steekproef X: de resultaten in de tabel rangschikken van klein naar groot

. uitkomsten (waarden) van de steekproef: de verschillende getallen in de data x1 = x2 = x3 = x4 = x5 = x6 = Om een zicht te krijgen op de data van de steekproef stellen we deze voor in de frequentietabel, op zijn beurt voorgesteld door het staafdiagram (vul aan en teken). Door in het staafdiagram de bovenste middens van de staafjes met elkaar te verbinden verkrijgen we het frequentiepolygoon (teken). waarde xi

ni

frequentie ni

9

0

8

1

7

2

6

3

5 4

4

3 5

2 1

n = 30

1

XIII-8

2

3

4

5

xi


Histogram en frequentiepolygoon met behulp van de grafische rekenmachine. . Wissen van vorige lijsten: 2ND

MEM

4:ClrAllLists

ENTER

ENTER

. Invoeren van de frequentietabel: L1 waarden, L2 frequenties. STAT

1:EDIT

. Instellingen van Plot 1 wijzigen: On, Type staafdiagram, Xlist:L1, Freq:L2. 2ND

STAT PLOT

1:Plot1

. Instellingen van WINDOW wijzigen: Xscl is de breedte van de staafjes, Xmin is waar eerste staafje begint. WINDOW

GRAPH

. Instellingen van Plot 2 wijzigen: On, Type frequentiepolygoon, Xlist:L1, Ylist:L2. 2ND

STAT PLOT

2:Plot2

GRAPH

XIII-9


3 Modelvoorbeeld (boterhammen - vervolg). De kok toont interesse in de resultaten van onze enquête in verband met de boterhameters. Hij stelt de volgende vragen. (a) (b) (c) (d)

Hoeveel Hoeveel Hoeveel Hoeveel

van de ondervraagden heeft 3 boterhammen mee? procent van de ondervraagden heeft 3 boterhammen mee? van de ondervraagden heeft hoogstens 3 boterhammen mee? procent van de ondervraagden heeft hoogstens 3 boterhammen mee?

Oplossing. We kunnen deze vragen beantwoorden door de frequentietabel uit te breiden (vul aan). waarde xi

frequentie ni

0

1

1

3

2

8

3

9

4

7

5

2 n = 30

relatieve frequentie fi

cumulatieve frequentie cni

cumulatieve relatieve frequentie cfi

1 = 100%

Uitgebreide frequentietabel berekenen met behulp van de grafische rekenmachine. . Berekenen van de relatieve frequenties: STAT

1:Edit

L3

L2

/

3

0

ENTER

. Berekenen van de cumulatieve frequenties: STAT

1:Edit

L4

2ND

LIST

OPS

6:cumSum

L2

)

ENTER

. Berekenen van de cumulatieve relatieve frequenties: L5=cumSum(L3) of L5=L4/30. STAT

1:Edit

L5

2ND

LIST

OPS

XIII-10

6:cumSum

L3

)

ENTER


Gegroepeerde frequentietabel 3 Modelvoorbeeld (geboortegewicht). Het ziekenfonds wil weten wat het gewicht is van een pasgeboren meisje. Men meet het gewicht van 100 pasgeboren Belgische meisjes, de resultaten worden in de volgende tabel weergegeven (in kilogram, afgerond op 10 gram nauwkeurig) [0]. 1,63

1,86

2,31

2,40

2,41

2,45

2,54

2,63

2,68

2,72

2,73

2,77

2,77

2,81

2,84

2,86

2,90

2,91

2,95

2,99

2,99

3,02

3,04

3,08

3,09

3,12

3,13

3,13

3,14

3,15

3,17

3,17

3,18

3,18

3,20

3,20

3,21

3,21

3,21

3,22

3,22

3,22

3,23

3,23

3,25

3,26

3,26

3,27

3,27

3,30

3,30

3,31

3,31

3,31

3,34

3,35

3,37

3,39

3,40

3,40

3,41

3,45

3,45

3,45

3,49

3,52

3,53

3,53

3,54

3,54

3,56

3,56

3,58

3,58

3,63

3,64

3,67

3,67

3,69

3,72

3,76

3,77

3,79

3,79

3,80

3,81

3,87

3,91

3,93

3,94

3,95

3,95

4,08

4,08

4,13

4,13

4,22

4,31

4,45

4,58

In dit voorbeeld is: . data van de steekproef X: de resultaten in de tabel rangschikken van klein naar groot (reeds gebeurd), . uitkomsten (waarden) van de steekproef: de verschillende getallen in de data (vul aan) x1 =

x2 =

x3 =

x4 =

enzovoort.

Om een zicht te krijgen op de data van de steekproef, stelt men deze voor in een frequentietabel en nadien aan de hand van een staafdiagram. Er zijn twee redenen om dit niet zomaar te doen: (1) er zijn teveel uitkomsten, en (2) er zijn te weinig uitkomsten die frequent voorkomen, zodat in het staafdiagram teveel staafjes hoogte 1 zouden hebben. Daarom verdelen we de data in zogenaamde klassen. We gaan als volgt te werk: . aantal klassen: 10, grootste uitkomst − kleinste uitkomst 4, 58 − 1, 63 = = 0, 295 ≈ 0, 3, aantal klassen 10 . beginklasse: de kleinste uitkomst is 1, 63 dus het lijkt aangewezen om te starten bij 1, 6.

. klassenbreedte: bereken

Zo komen we tot een gegroepeerde frequentietabel, bijhorend histogram en frequentiepolygoon (vul aan en teken). klasse

klassemidden xi

frequentie ni

[1, 6; 1, 9[

ni

30

[1, 9; 2, 2[ 25

[2, 2; 2, 5[ [2, 5; 2, 8[

20

[2, 8; 3, 1[ [3, 1; 3, 4[

15

[3, 4; 3, 7[ 10

[3, 7; 4, 0[ [4, 0; 4, 3[

5

[4, 3; 4, 6[ n = 100

0 1.6

XIII-11

1.9

2.2

2.5

2.8

3.1

3.4

3.7

4.0

4.3

xi


Histogram en frequentiepolygoon met behulp van de grafische rekenmachine. . Wissen van vorige lijsten: 2ND

MEM

4:ClrAllLists

ENTER

ENTER

. Invoeren van de gegroepeerde frequentietabel: L1 klassenmiddens, L2 frequenties. STAT

1:EDIT

. Instellingen van Plot 1 wijzigen: On, Type staafdiagram, Xlist:L1, Freq:L2, Plot 2 wijzigen: Off. 2ND

STAT PLOT

1:Plot1

2ND

STAT PLOT

2:Plot2

. Instellingen van WINDOW wijzigen: Xscl is de breedte van de staafjes, Xmin is waar eerste staafje begint. WINDOW

GRAPH

. Instellingen van Plot 2 wijzigen: On, Type frequentiepolygoon, Xlist:L1, Ylist:L2. 2ND

STAT PLOT

2:Plot2

GRAPH

XIII-12


3 Modelvoorbeeld (geboortegewicht - vervolg). Vera is zwanger van een meisje en toont interesse in de resultaten van de meting uitgevoerd door het ziekenfonds. Ze stelt de volgende vragen. (a) Hoeveel van de baby’s weegt tussen de 3, 10 kg en 3, 40 kg? (b) Hoeveel procent van de baby’s weegt tussen de 3, 10 kg en 3, 40 kg? (c) Hoeveel van de baby’s weegt minder dan 3, 10 kg? (d) Hoeveel procent van de baby’s weegt minder dan 3, 10 kg? We kunnen deze vragen beantwoorden door de gegroepeerde frequentietabel uit te breiden (vul aan). klasse

klassemidden xi

frequentie ni

[1, 6; 1, 9[

1, 75

2

[1, 9; 2, 2[

2, 05

0

[2, 2; 2, 5[

2, 35

4

[2, 5; 2, 8[

2, 65

7

[2, 8; 3, 1[

2, 95

12

[3, 1; 3, 4[

3, 25

33

[3, 4; 3, 7[

3, 55

21

[3, 7; 4, 0[

3, 85

13

[4, 0; 4, 3[

4, 15

5

[4, 3; 4, 6[

4, 45

3

relatieve frequentie fi

n = 100

cum. frequentie cni

cum. rel. frequentie cfi

1 = 100%

Uitgebreide frequentietabel berekenen met behulp van de grafische rekenmachine. . Berekenen van de relatieve frequenties: STAT

1:Edit

L3

L2

/

1

0

0

ENTER

. Berekenen van de cumulatieve frequenties: STAT

1:Edit

L4

2ND

LIST

OPS

6:cumSum

L2

)

ENTER

. Berekenen van de cumulatieve relatieve frequenties: L5=cumSum(L3) of L5=L4/100. XIII-13


Toepassing - Krantenartikels Bekijk de advertentie hiernaast. Welke bedenkingen kun je hierbij maken?3 3 De tekst vermeldt een stijging van 59%, zonder meer. Maar 59% van wat? Het aantal kaderleden van het voorgaande jaar 2001? De lezer moet de grafiek al goed bekijken om te weten wat men bedoelt. Blijkbaar is het aantal kaderleden in 2002 met 59% gegroeid ten opzichte van het aantal kaderleden in 2000. 3 De tekst vermeldt dat het aantal kaderleden onder haar lezers verdubbeld is tijdens de ‘voorbijgaande jaren’. Welke cijfers vergelijkt men hiervoor? Deze keer geeft zelfs de grafiek ons geen idee hoe we deze verdubbeling moeten interpreteren. 3 Ook de grafiek zelf toont enkele gebreken, waardoor de grafische voorstelling een valse indruk opwekt. . Op de horizontale as corresponderen gelijke afstanden met ongelijke tijdsintervallen. . Op de verticale as laat men alleen waarden zien in een gebied vrij ver van het nulpunt (het gaat immers om een absolute schaal). In dat geval moet men een onderbreking in de as aanbrengen. Men kan dit laten blijken met een zogenaamde scheurlijn. Dat is een zigzaglijntje waaraan de lezer onmiddellijk kan zien dat een gedeelte van de as niet getekend is.

Advertentie De Morgen (2002)

Plotten we een correcte grafiek, dan krijgen we een andere indruk. Ten slotte vermelden we nog dat de assen niet benoemd zijn (wat is uitgezet op de horizontale en verticale as?), al kan de lezer deze assen benoemen aan de hand van de context. In het tweede voorbeeld ga je zelf aan de slag. Bespreek beide grafische voorstellingen. Wat is er goed aan en wat is minder goed? Maak desnoods een nieuwe grafiek met behulp van je grafische rekenmachine (door twee uiterste punten met elkaar te verbinden).

De Standaard, 14/01/09

De Standaard, 27/06/08 3 Deze

voorbeelden zijn ontleend aan [0].

XIII-14


1.3

Beschrijvende maten (karakteristieken) van een steekproef

Centrummaten In beschrijvende statistiek bedoelt men met een centrummaat een kengetal voor het centrum van de steekproefdata. We bespreken de centrummaten (steekproef)gemiddelde, mediaan en modus aan de hand van voorbeelden. 3 Modelvoorbeeld (boterhammen - vervolg). Tijdens de middagpauze vroegen we aan 30 boterhameters Hoeveel boterhammen heeft u vandaag mee? De data van de steekproef wordt in de volgende tabel weergegeven: 0

1

1

1

2

2

2

2

2

2

2

2

3

3

3

3

3

3

3

3

3

4

4

4

4

4

4

4

5

5

In de vorige paragraaf vonden we de frequentietabel en het staafdiagram.

ni waarde xi

frequentie ni

0

1

1

3

2

8

3

9

4

7

5

2

9 8 7 6 5 4 3 2

n = 30

1 0

We berekenen de volgende centrummaten.

1

2

3

4

5

xi

. Het (steekproef)gemiddelde x is het (rekenkundig) gemiddelde van de data. Tel alle data van de steekproef op en deel door de grootte van de steekproef. Hier wordt dit:

0 + 1 + 1 + 1 + ··· + 5 + 5 1 · 0 + 3 · 1 + ··· + 2 · 5 = = ... 30 30 In het vervolg berekenen we het gemiddelde rechtstreeks vanuit de frequentietabel: x=

x=

n1 · x1 + n2 · x2 + . . . n

. De mediaan Me is een maat voor het midden van de data: 50% van de data is kleiner dan de mediaan en 50% van de data is groter dan de mediaan. Als n oneven is, dan de mediaan is het middelste getal in de data. Als n even is: de mediaan is het gemiddelde van de middelste twee getallen in de data. Meetkundige betekenis. De mediaan Me is het getal waarvoor de oppervlakte van de staafjes links ongeveer gelijk is aan de oppervlakte van de staafjes rechts. Hier wordt dit: Me = . . . . De modus Mo is een maat voor het getal dat het meest voorkomt in de data. Neem de waarde met de grootste frequentie. Komen meerdere getallen het meest voor, dan is de modus onbepaald. Meetkundige betekenis. De modus M o is de waarde xi die bij het hoogste staafje hoort. Hier wordt dit: Mo = . . . XIII-15


Gemiddelde en mediaan met behulp van de grafische rekenmachine. . Invoeren van de frequentietabel: L1 waarden, L2 frequenties. STAT

1:EDIT

. Berekenen van het gemiddelde en de mediaan: 2ND

QUIT

STAT CALC 1:1-Var Stats

L2

>

CALCULATE

L1

3 Modelvoorbeeld (verenigingen). Het CLB wil naar aanleiding van de studieproblematiek bij Brugse jongeren onderzoeken welke rol buitenschoolse activiteiten spelen in het leven van jongeren. Hiervoor stelt men in elke Brugse school aan 35 willekeurig gekozen leerlingen de volgende vraag: In hoeveel verenigingen bent u actief ? De resultaten voor het Onze-Lieve-Vrouwecollege Assebroek worden in de volgende tabel weergegeven [0]. 0

0

0

0

0

0

0

0

0

0

0

0

0

0

1

1

1

1

1

1

1

1

1

1

2

2

2

2

2

2

2

3

3

3

3

Bereken het gemiddelde, de mediaan en de modus. Controleer je uitkomsten met je grafische rekenmachine. Oplossing.

XIII-16


3 Modelvoorbeeld (geboortegewicht - vervolg). Het ziekenfonds wil weten wat het gewicht is van een pasgeboren meisje. Men meet het gewicht van 100 pasgeboren Belgische meisjes, de resultaten worden in de volgende tabel weergegeven (in kilogram, afgerond op 10 gram nauwkeurig). 1,63 2,73 2,99 3,17 3,22 3,30 3,41 3,56 3,76 3,95

1,86 2,77 3,02 3,17 3,22 3,31 3,45 3,56 3,77 3,95

2,31 2,77 3,04 3,18 3,23 3,31 3,45 3,58 3,79 4,08

2,40 2,81 3,08 3,18 3,23 3,31 3,45 3,58 3,79 4,08

2,41 2,84 3,09 3,20 3,25 3,34 3,49 3,63 3,80 4,13

2,45 2,86 3,12 3,20 3,26 3,35 3,52 3,64 3,81 4,13

2,54 2,90 3,13 3,21 3,26 3,37 3,53 3,67 3,87 4,22

2,63 2,91 3,13 3,21 3,27 3,39 3,53 3,67 3,91 4,31

2,68 2,95 3,14 3,21 3,27 3,40 3,54 3,69 3,93 4,45

2,72 2,99 3,15 3,22 3,30 3,40 3,54 3,72 3,94 4,58

In de vorige paragraaf vonden we de gegroepeerde frequentietabel en het staafdiagram. klasse

klassemidden xi

frequentie ni

[1, 6; 1, 9[

1, 75

2

[1, 9; 2, 2[

2, 05

0

[2, 2; 2, 5[

2, 35

4

[2, 5; 2, 8[

2, 65

7

[2, 8; 3, 1[

2, 95

12

[3, 1; 3, 4[

3, 25

33

[3, 4; 3, 7[

3, 55

21

[3, 7; 4, 0[

3, 85

13

[4, 0; 4, 3[

4, 15

5

[4, 3; 4, 6[

4, 45

3

ni

30

25

20

n = 100

15

10

5

0 1.6

1.9

2.2

2.5

2.8

3.1

3.4

3.7

4.0

4.3

xi

We kunnen het gemiddelde, de mediaan en de modus op twee manieren berekenen. . Vanuit de oorspronkelijke data: gemiddelde: x =

1, 63 + 1, 86 + · · · + 4, 58 = ... 100

mediaan: Me = . . . modus: Mo = . . .

want . . . want . . .

. Vanuit de gegroepeerde frequentietabel: gemiddelde: x =

2 · 1, 75 + 0 · 2, 05 + · · · + 3 · 4, 45 = ... 100

mediaan: Me = . . . modus: Mo = . . .

want . . . want . . .

Centrummaten berekenen vanuit de oorspronkelijke data is iets nauwkeuriger dan centrummaten berekenen vanuit de gegroepeerde frequentietabel, maar is erg tijdrovend. Daarom maken we de volgende afspraak. Bereken de centrummaten van gegroepeerde gegevens steeds vanuit de gegroepeerde frequentietabel! XIII-17


Gemiddelde en mediaan met behulp van de grafische rekenmachine. . Invoeren van de gegroepeerde frequentietabel: L1 klassenmiddens, L2 frequenties. 1:EDIT

STAT

. Berekenen van het gemiddelde en de mediaan:4 2ND

QUIT

ENTER

L1

L2

)

>

ENTER

STAT CALC 1:1-Var Stats

3 Modelvoorbeeld (snelheidscontrole). Bij een snelheidscontrole aan de Maalse Steenweg te Brugge werd van 100 auto’s de snelheid opgetekend. Hiernaast vind je de resultaten (in km/uur, afgerond op 1 km/uur nauwkeurig) [0]. Bereken het gemiddelde, de mediaan en de modus vanuit de gegroepeerde frequentietabel (neem ongeveer 10 klassen).5 Formules opschrijven! Controleer je uitkomsten met je grafische rekenmachine. Oplossing.

61

50

68

80

79

86

39

62

78

52

57

45

43

53

56

40

58

60

67

61

61

61

81

64

63

59

89

75

94

57

85

46

71

76

88

64

59

73

60

74

48

55

47

61

65

65

61

91

44

56

34

82

50

57

74

71

75

72

49

52

73

69

54

62

67

72

67

54

88

71

66

75

75

57

54

78

51

46

74

73

91

82

81

66

65

70

65

52

44

75

70

72

68

53

80

61

55

55

60

60

4 Eigenlijk gaan we een beetje kort door de bocht wanneer we als mediaan het midden van de mediale klasse (de klasse met de hoogste frequentie) nemen. Iets subtieler is een methode waarbij we precies gaan uitmeten waar de mediaan zou moeten liggen, verondersteld dat de waarnemingen gelijkmatig verdeeld liggen binnen een klasse. Hiervoor kan de volgende formule gebruikt worden: Me = L + r − 21 fb waarbij L de benedengrens is van de mediale klasse, r het rangnummer van de waarneming binnen de mediale klasse, b de breedte van de mediale klasse en f het aantal waarnemingen in de mediale klasse. Ook voor de modus zijn verfijnde berekeningsmethoden beschikbaar. We vermelden die niet, maar volstaan met de opmerking dat we, ter bepaling van de modus, op zoek moeten naar de klasse met de hoogste frequentiedichtheid. Deze klasse noemt men de modale klasse. 5 Om een groot aantal resultaten in klassen te verdelen, kun je gebruik maken van de grafische rekenmachine, zie Oefening 13.

XIII-18


Spreidingsmaten In beschrijvende statistiek bedoelt men met een spreidingsmaat een kengetal voor de spreiding van de steekproefdata. We bespreken de spreidingsmaten standaardafwijking, variantie en interkwartielafstand aan de hand van voorbeelden. 3 Voorbeeld (boterhammen - vervolg). Tijdens de middagpauze vroegen we aan 30 boterhameters Hoeveel boterhammen heeft u vandaag mee? De resultaten worden in de volgende tabel weergegeven: 0

1

1

1

2

2

2

2

2

2

2

2

3

3

3

3

3

3

3

3

3

4

4

4

4

4

4

4

5

5

We wensen nu de spreiding van de data te meten. Spreiding is altijd ten opzichte van een referentie. We onderscheiden twee mogelijkheden. . Variantie en standaardafwijking. We meten de spreiding ten opzichte van het gemiddelde x. In een eerdere berekening vonden we x = 2, 8. We gaan als volgt te werk. (1) Trek van de data het gemiddelde x = 2, 8 af. -2,8

-1,8

-1,8

-1,8

-0,8

-0,8

-0,8

-0,8

-0,8

-0,8

-0,8

-0,8

0,2

0,2

0,2

0,2

0,2

0,2

0,2

0,2

0,2

1,2

1,2

1,2

1,2

1,2

1,2

1,2

2,2

2,2

(2) Om te weten hoe ver (op welke afstand) de data gespreid ligt van het gemiddelde, horen we enkel positieve getallen te hebben. Daarom nemen we het kwadraat.6 7,84

3,24

3,24

3,24

0,64

0,64

0,64

0,64

0,64

0,64

0,64

0,64

0,04

0,04

0,04

0,04

0,04

0,04

0,04

0,04

0,04

1,44

1,44

1,44

1,44

1,44

1,44

1,44

4,84

4,84

(3) De gemiddelde waarde van deze spriedingsgetallen is dan de variantie s2X van de steekproef X: s2X =

7, 84 + 3, 24 + 3, 24 + · · · + 4, 84 = ... 30 − 1

Het getal sX is de standaardafwijking (of standaarddeviatie) van de steekproef: sX =

» s2X = . . .

We kunnen de variantie en de standaardafwijking ook vanuit de frequentietabel berekenen: waarde xi

frequentie ni

0

1

1

3

2

8

3

9

4 5

xi − x −2, 8

spreiding van de waarde t.o.v. het gemiddelde (xi − x)2 7, 84

−1, 8

3, 24

−0, 8

0, 64

0, 2

0, 04

7

1, 2

1, 44

2

2, 2

4, 84

n = 30 Zo wordt de formule voor de variantie gegeven door:7 def

s2X =

n1 (x1 − x)2 + n2 (x2 − x)2 + . . . = n−1

P

i

ni (xi − x)2 n−1

en de formule voor de standaardafwijking wordt dan: P 2 n1 (x1 − x)2 + n2 (x2 − x)2 + . . . def i ni (xi − x) sX = = n−1 n−1 6 We 7

hadden ook de absolute waarde kunnen P nemen, dan bekomt men de gemiddelde absolute afwijking (GAA). ni (xi −x)2

i Bij de formule van de variantie s2X = delen we door n − 1, terwijl men zou verwachten dat we moeten delen door n. n−1 P 2 Dat komt omdat we de som n (x − x) niet delen door het aantal termen (dat zijn er n), maar door het aantal vrijheidsgraden. Enkel i i i op die manier zal de variantie s2X een zogenaamde objectieve schatter zijn van de variantie van de populatie (zie §2.2). Dat het aantal vrijheidsgraden van de spreiding gelijk is aan n − 1, kunnen we als volgt inzien. Stel dat we maar één waarnemingsgetal hebben (n = 1), dan is er geen sprake van spreiding. Als we maar twee waarnemingsgetallen hebben (n = 2), dan gaat enkel de tweede informatie kunnen bezorgen over de mogelijke spreiding. Algemeen bezorgen enkel de observaties bovenop de eerste informatie over de spreiding en dat zijn er dus n − 1.

XIII-19


. Interkwartielafstand. We meten de spreiding ten opzichte van de mediaan Me. In een eerdere berekening vonden we Me = 3. We gaan als volgt te werk. (1) Het eerste kwartiel Q1 is de mediaan van de eerste 50% van de data. Hier wordt dit: Q1 = . . . 0

1

1

1

2

2

2

2

2

2

2

2

3

3

3

3

3

3

3

3

3

4

4

4

4

4

4

4

5

5

(2) Het derde kwartiel Q3 is de mediaan van de tweede 50% van de data. Hier wordt dit: Q3 = . . . 0

1

1

1

2

2

2

2

2

2

2

2

3

3

3

3

3

3

3

3

3

4

4

4

4

4

4

4

5

5

(3) De interkwartielafstand IKA is afstand tussen het eerste kwartiel en het derde kwartiel.8 In symbolen: IKA = Q3 − Q1 Meetkundige betekenis. De interkwartielafstand is de breedte van de middelste 50% van de data. Hier wordt dit: IKA = Q3 − Q1 = . . . Standaardafwijking en kwartielen met behulp van de grafische rekenmachine. . Invoeren van de frequentietabel: L1 waarden, L2 frequenties. . Berekenen van de standaardafwijking en de kwartielen: STAT

8 Ook

L1

L2

2ND

QUIT

CALCULATE

wel interkwartiel range (IQR) genoemd.

XIII-20

STAT CALC 1:1-Var Stats

>

ENTER

1:Edit


3 Modelvoorbeeld (geboortegewicht - vervolg). Het ziekenfonds wil weten wat het gewicht is van een pasgeboren meisje. Men meet het gewicht van 100 pasgeboren Belgische meisjes, de resultaten worden in de volgende tabel weergegeven (in kilogram, afgerond op 10 gram nauwkeurig). 1,63 2,73 2,99 3,17 3,22 3,30 3,41 3,56 3,76 3,95

1,86 2,77 3,02 3,17 3,22 3,31 3,45 3,56 3,77 3,95

2,31 2,77 3,04 3,18 3,23 3,31 3,45 3,58 3,79 4,08

2,40 2,81 3,08 3,18 3,23 3,31 3,45 3,58 3,79 4,08

2,41 2,84 3,09 3,20 3,25 3,34 3,49 3,63 3,80 4,13

2,45 2,86 3,12 3,20 3,26 3,35 3,52 3,64 3,81 4,13

2,54 2,90 3,13 3,21 3,26 3,37 3,53 3,67 3,87 4,22

2,63 2,91 3,13 3,21 3,27 3,39 3,53 3,67 3,91 4,31

2,68 2,95 3,14 3,21 3,27 3,40 3,54 3,69 3,93 4,45

2,72 2,99 3,15 3,22 3,30 3,40 3,54 3,72 3,94 4,58

Spreidingsmaten berekenen vanuit de oorspronkelijke data is iets nauwkeuriger dan spreidingsmaten berekenen vanuit de gegroepeerde frequentietabel, maar is erg tijdrovend. Daarom maken we opnieuw de afspraak: Bereken de spreidingsmaten van gegroepeerde gegevens steeds vanuit de gegroepeerde frequentietabel! . We berekenen de standaardafwijking vanuit de gegroepeerde frequentietabel van de steekproef X. In een eerdere berekening vonden we x ≈ 3, 33. klasse

klassemidden xi

frequentie ni

[1, 6; 1, 9[

1, 75

2

[1, 9; 2, 2[

2, 05

0

[2, 2; 2, 5[

2, 35

4

[2, 5; 2, 8[

2, 65

7

[2, 8; 3, 1[

2, 95

12

[3, 1; 3, 4[

3, 25

33

[3, 4; 3, 7[

3, 55

21

[3, 7; 4, 0[

3, 85

13

[4, 0; 4, 3[

4, 15

5

[4, 3; 4, 6[

4, 45

3

xi − x

spreiding van het klassemidden t.o.v. het gemiddelde (xi − x)2

n = 100 Zo vinden we de variantie 2

sX = en de standaardafwijking sX =

»

P

s2X = . . .

i

ni (xi − x)2 = ... n−1

. We berekenen de interkwartielafstand: eerste kwartiel Q1 = . . . derde kwartiel Q3 = . . . interkwartielafstand IKA = Q3 − Q1 = . . . Controle met behulp van de grafische rekenmachine. 1:Edit

STAT CALC 1:1-Var Stats

XIII-21

>

STAT


Boxplot In beschrijvende statistiek is een boxplot van een steekproef een samenvatting van vijf karakteristieken waarvan we al enkele besproken hebben. We geven toelichting aan de hand van voorbeelden. 3 Voorbeeld (boterhammen - vervolg). Tijdens de middagpauze vroegen we aan 30 boterhameters Hoeveel boterhammen heeft u vandaag mee? De resultaten worden in de volgende tabel weergegeven (data van de steekproef X): 0

1

1

1

2

2

2

2

2

2

2

2

3

3

3

3

3

3

3

3

3

4

4

4

4

4

4

4

5

5

We berekenen achtereenvolgens: . het minimum min = . . . . het eerste kwartiel Q1 = . . . . de mediaan (of het tweede kwartiel) Me = Q2 = . . . . het derde kwartiel Q3 = . . . . het maximum max = . . . Deze vijf getallen stellen we voor in een zogenaamde (simpele) boxplot links, met betekenis rechts.9

Q1

| 0

1

2

3

4

5

x

0

{z

25% van de waarden

1

Q3

Me

min

max

} | {z } | {z } | {z } 25%

2

25%

3

25%

4

5

Boxplot met behulp van de grafische rekenmachine. . Invoeren van de frequentietabel: L1 waarden, L2 frequenties. . Instellingen van Plot 1 wijzigen: On, Type (simpele) boxplot, Xlist:L1, Freq:L2. . Instellingen van WINDOW wijzigen: Xmin < min, Xmax > max, Ymin=0, Ymax=1.

9

Daarnaast is er ook de gewone boxplot, waarbij we als lijnstukken links en rechts lengte 1, 5(Q3 − Q1 ) nemen, eventueel verkort tot de laagste resp. hoogste waarde en waarbij eventuele uitbijters (waarden van de data buiten deze lijnstukken) worden aangeduid met het symbool â—Ś. Bij het uiteinde van de lijnstukken tekenen we geen verticaal streepje meer.

XIII-22

x


Bij gegroepeerde gegevens is het bepalen van de boxplot bepalen vanuit de oorspronkelijke data net iets nauwkeuriger dan de boxplot bepalen vanuit de gegroepeerde frequentietabel, maar is erg tijdrovend. Dus ook hier maken we de afspraak: Maak de boxplot van gegroepeerde gegevens steeds vanuit de gegroepeerde frequentietabel! 3 Voorbeeld (geboortegewicht - vervolg). Het ziekenfonds wil weten wat het gewicht is van een pasgeboren meisje. Men meet het gewicht van 100 pasgeboren Belgische meisjes, de resultaten worden in de volgende tabel weergegeven (in kilogram, afgerond op 10 gram nauwkeurig). 1,63 2,73 2,99 3,17 3,22 3,30 3,41 3,56 3,76 3,95

1,86 2,77 3,02 3,17 3,22 3,31 3,45 3,56 3,77 3,95

2,31 2,77 3,04 3,18 3,23 3,31 3,45 3,58 3,79 4,08

2,40 2,81 3,08 3,18 3,23 3,31 3,45 3,58 3,79 4,08

2,41 2,84 3,09 3,20 3,25 3,34 3,49 3,63 3,80 4,13

2,45 2,86 3,12 3,20 3,26 3,35 3,52 3,64 3,81 4,13

2,54 2,90 3,13 3,21 3,26 3,37 3,53 3,67 3,87 4,22

2,63 2,91 3,13 3,21 3,27 3,39 3,53 3,67 3,91 4,31

2,68 2,95 3,14 3,21 3,27 3,40 3,54 3,69 3,93 4,45

2,72 2,99 3,15 3,22 3,30 3,40 3,54 3,72 3,94 4,58

In de vorige paragraaf vonden we de gegroepeerde frequentietabel en het staafdiagram van de steekproef X. klasse

klassemidden xi

frequentie ni

[1, 6; 1, 9[

1, 75

2

[1, 9; 2, 2[

2, 05

0

[2, 2; 2, 5[

2, 35

4

[2, 5; 2, 8[

2, 65

7

[2, 8; 3, 1[

2, 95

12

[3, 1; 3, 4[

3, 25

33

[3, 4; 3, 7[

3, 55

21

[3, 7; 4, 0[

3, 85

13

[4, 0; 4, 3[

4, 15

5

[4, 3; 4, 6[

4, 45

3

ni

30

25

20

n = 100

15

10

5

0 1.6

1.9

2.2

2.5

2.8

3.1

3.4

3.7

Bepaal de boxplot van de steekproef X. Controleer je resultaat met je grafische rekenmachine. Oplossing.

XIII-23

4.0

4.3

xi


Oefeningen 1 Gegevens verzamelen en beschrijven, beschrijvende maten 1.1 Gegevens verzamelen en ordenen

Basis ? 1 2

1.2 Gegegevens beschrijven 1.3 Beschrijvende maten van een steekproef

17 18

??

Verdieping ? ??

3 4 5 6

7 8

9 10

12

13

14 15

19 20 21 22 23

24 25 26 27

28 29

Uitbreiding ? ??

11

16 30

Oefeningen bij §1.1 B

Oefening 1. Leden van een politieke partij overwegen om een bekende Vlaming als lijsttrekker naar voor te schuiven tijdens de volgende verkiezingen. Om te bepalen welke kandidaat geschikt is, willen de partijleden een schatting van het aantal kiezers die deze kandidaat zullen steunen. De tijdsduur en de kosten om elke kiezer individueel te ondervragen liggen veel te hoog. Daarom worden willekeurig 400 kiezers geselecteerd. Wat is de populatie en wat is de steekproef?

B

Oefening 2. Geef voor de volgende variabelen aan of deze een nominale, ordinale, absolute, interval- of ratioschaal heeft: (a) de speelduur van compact disks; (b) de kleur van rozen; (c) de industrietak waarin werknemers een baan hebben; (d) de jaaromzet (geld) van bedrijven; (e) het aantal sterren dat de moeilijkheidsgraad van puzzelboekjes aangeeft; (f) de hoogte boven de zeespiegel van wintersportdorpen.

B?

Oefening 3. Geef voor elk van de volgende gevallen aan of de genoemde verzameling als een steekproef of als een populatie mag worden beschouwd: (a) de 150 leden in de Kamer van Volksvertegenwoordigers; (b) de 200 personen die zijn geı̈nterviewd bij een straatenquête; (c) de 150 automobilisten die moesten stoppen voor een alcoholcontrole; (d) de 740 leden van een studentenvereniging.

B?

Oefening 4. Bij een betoging kun je de betogers beschouwen als een steekproef uit de bevolking. Moet een regering rekening houden met de signalen van zo’n betoging en daar conclusies over trekken voor het hele land? Motiveer je antwoord aan de hand van de geziene begrippen.

B?

Oefening 5. Een jeugdhuis vraagt om extra infrastructuur aan het stadsbestuur omdat uit een enquête onder 120 willekeurige bezoekers van het jeugdhuis is gebleken dat het gemiddelde aantal kinderen per gezin in de stad 2, 2 bedraagt. Men verwacht dus een toename van het aantal leden. Moet het stadsbestuur ingaan op de vraag van het jeugdhuis? Motiveer je antwoord.

XIII-24


B?

Oefening 6. Een onderzoeker wil de werkzaamheid van een nieuwe leermethode bestuderen. Twintig leerlingen van een school waar deze nieuwe methode gebruikt wordt, ondergaan een test na één jaar (score op 10 punten). Op basis van deze resultaten berekent de onderzoeker het rekenkundig gemiddelde en bekomt 6, 55. Mag hij beweren dat de gemiddelde score van alle leerlingen die de nieuwe methode gevolgd of ooit zullen volgen (ongeveer) gelijk is aan 6, 55? Motiveer je antwoord.

B??

Oefening 7. Beschrijf bij elk van de volgende voorbeelden de populatie en de steekproef. Beoordeel de keuze van de steekproef naar de criteria aselect en representatief. (a) De Lijn wil de uurregeling van de autobuslijn Brugge - Moerkerke optimaliseren voor de reizigers die reeds de buslijn nemen. Daarom wordt er 7 dagen na elkaar een enquête afgenomen bij telkens 10 willekeurige reizigers verspreid over heel de dag. (b) Het bestuur van Cercle Brugge wil nagaan wanneer hun supporters de thuismatchen willen hebben: op zaterdagavond of op zondagnamiddag. Hiervoor worden de leden van de spionkop ondervraagd. (c) De directie van de school wil nagaan in welke mate de leerlingen de planning in hun agenda gebruiken. Zij vragen de klastitularissen om de agenda’s van klasnummer 1 binnen te brengen. (d) De stad Gent wil weten hoe allochtone inwoners denken over de politiediensten in hun stad. Een vragenlijst wordt opgesteld en door een politieagent op 250 adressen (lukraak onder de allochtone bevolking) aangeboden. Het gezinshoofd van het gezin wordt gevraagd de lijst in te vullen.

B??

Oefening 8. Voldoen de volgende vragen aan de algemene aanbevelingen voor een goede vragenlijst? Motiveer telkens je antwoord. (a) Sommige dancings zijn niet toegankelijk voor mindervaliden. Vindt u dat de overheid dit moet verbieden of vindt u van niet? (b) De overheid wil de meest bekwame medewerkers aantrekken voor haar topfuncties en moet deze topfuncties openstellen voor kandidaten van binnen en buiten de administratie. (helemaal akkoord, akkoord, geen mening, niet akkoord, helemaal niet akkoord)

dancing Versuz

, Hasselt

(c) Gaat u te voet, met de fiets, of met een ander vervoersmiddel naar school? (d) Bent u voor of tegen een wet die het bezit van wapens verbiedt? (e) Welk sierraad zou je het liefst cadeau krijgen? (armband, ketting, ring, horloge, oorbellen) (f) Leef je met de seizoenen mee? (ja, nee) (g) Bent u voor de bouw van meer kerncentrales zodat we voldoende elektriciteit hebben om aan de behoeften van het land te voldoen, of bent u tegen de bouw van meer kerncentrales zelfs als dit minder elektriciteit zou betekenen?

V

Oefening 9. Om de vraag te beantwoorden of ouders, indien ze zouden mogen kiezen, nog kinderen zouden willen, wordt een oproep gelanceerd in een dagblad. Er komen 180 reacties waaruit blijkt dat 30% geen kinderen meer zou willen. Is het verkregen percentage betrouwbaar voor de ganse populatie? Waarom (niet)?

V

Oefening 10. Zinvol of zinloos? Beoordeel de volgende beweringen. Motiveer je antwoord. (a) De weerman beweert dat gisteren, om 2 uur, de temperatuur in Gent twee keer hoger was dan in Amsterdam. (b) Een onderzoeker meet een reactietijd van 2 seconden en een reactietijd van drie seconden. Hij beweert dat het verschil van beide 1 is. (c) Een onderzoeker heeft bij het meten van de lengte van mannen een gemiddelde van 1, 8 meter gevonden en bij het meten van de lengte van vrouwen een gemiddelde van 1, 62 meter verkregen. Hij beweert dat mannen gemiddeld 0, 9 keer groter zijn dan vrouwen.

XIII-25


V?

Oefening 11. In het volgende voorbeeld worden verschillende regels voor een goede vragenlijst overtreden. Welke? In 1983 werden in volle maatschappelijke discussie over de plaatsing van Pershing raketten daarover vragen gesteld door twee verschillende onderzoeksbureaus. De ene peiling in opdracht van Panorama wees uit dat 78, 8% van de Belgen tegenstander was van de plaatsing van raketten. De andere peiling van PourquoiPas?/CSOP over de plaatsing van kernraketten in België kwam tot de bevinding dat 62% van de Belgen voor de plaatsing van raketten was (Pourquoi-Pas?, 19 okt., 1983, p.5). De Panoramavraag luidde als volgt: Bent u voor of tegen de plaatsing van kernwapens in België? (Voor: 16, 9%; Tegen: 78, 8%; Geen antwoord: 4, 3%). De vraag van Pourquoi-Pas zag er zo uit: Welke van de volgende oplossingen hebben uw voorkeur om beter de verdediging van België en Europa te waarborgen? 3 dat België beslist om op z’n grondgebied Pershing raketten te plaatsen onder controle van het Atlantisch bondgenootschap? (34, 9%) 3 dat België beslist om op z’n grondgebied Pershing raketten te plaatsen onder uitsluitende controle van de Belgische regenering? (27, 1%) 3 dat België de plaatsing van Pershing raketten op z’n grondgebied weigert. (34, 1%) 3 (weet niet: 3, 9%)

Oefeningen bij §1.2 B?

Oefening 12 (verenigingen). Het CLB wil naar aanleiding van de studieproblematiek bij Brugse jongeren onderzoeken welke rol buitenschoolse activiteiten spelen in het leven van jongeren. Hiervoor stelt men in elke Brugse school aan 35 willekeurig gekozen leerlingen de volgende vraag: In hoeveel verenigingen bent u actief ? De resultaten voor het Onze-Lieve-Vrouwecollege Assebroek worden in de volgende tabel weergegeven. 0

1

0

2

2

0

1

0

0

0

1

1

0

1

1

3

1

0

0

2

0

0

1

0

3

3

2

1

2

0

2

2

3

0

1

Intercommunaal Zwembad (Interbad) , Brugge

(a) Maak de frequentietabel, het staafdiagram en het frequentiepolygoon. Controleer je resultaat met je grafische rekenmachine. (b) Maak de uitgebreide frequentietabel. (c) Hoeveel procent van de ondervraagden is in 1 vereniging actief? (d) Hoeveel ondervraagden is in hoogstens 1 vereniging actief? B??

Oefening 13 (snelheidscontrole). Bij een snelheidscontrole aan de Maalse Steenweg te Brugge werd van 100 auto’s de snelheid opgetekend. Hiernaast vind je de resultaten (in kilometer per uur, afgerond op 1 km/u nauwkeurig). (a) Maak een gegroepeerde frequentietabel (neem ongeveer 10 klassen), het staafdiagram en het frequentiepolygoon. Controleer je resultaat met je grafische rekenmachine. Aanwijzing. Sorteer de waarden met je grafische rekenmachine. Verdeel daarna data in klassen en lees de frequenties af op je rekenmachine (zie schermafdrukken hieronder). (b) Maak de uitgebreide frequentietabel.

61

50

68

80

79

86

39

62

78

52

57

45

43

53

56

40

58

60

67

61

61

61

81

64

63

59

89

75

94

57

85

46

71

76

88

64

59

73

60

74

48

55

47

61

65

65

61

91

44

56

34

82

50

57

74

71

75

72

49

52

73

69

54

62

67

72

67

54

88

71

66

75

75

57

54

78

51

46

74

73

91

82

81

66

65

70

65

52

44

75

70

72

68

53

80

61

55

55

60

60

(c) Hoeveel auto’s reden tussen 60 km/u en 90 km/u? (d) De maximum toegelaten snelheid was op de plaats van optekening 50 km/u. Een bekeuring volgt als de bestuurder sneller dan 54 km/u rijdt. Hoeveel procent van de bestuurders kreeg een bekeuring? XIII-26


Om een groot aantal resultaten in klassen te verdelen, kun je gebruik maken van de grafische rekenmachine. Eerst voer je alle data in. Daarna sorteer je de waarden van klein naar groot met behulp van het commando SortA. Op die manier kun je meteen de kleinste en de grootste waarde bepalen, zodat je de klassenbreedte kunt berekenen. Ten slotte kun je van elke klasse de frequentie bepalen door eerst het staafdiagram met behulp van je grafische rekenmachine te plotten en daarna het commando TRACE te gebruiken. . Invoeren van data in lijst L1 en sorteren: STAT

Edit

STAT

2:SortA(

L1

)

ENTER

. Data verdelen in klassen: bepalen van aantal klassen, de klassenbreedte en de beginklasse.10 Lees de kleinste en de grootste uitkomst af met behulp van de gesorteerde lijst op de grafische rekenmachine. Edit

>

>

STAT

. Staafdiagram plotten: Xscl is de breedte van de staafjes, Xmin is waar eerste staafje begint. STAT PLOTS

1:Plot1

GRAPH

. Aflezen van frequenties met behulp van het commando TRACE. TRACE

>

>

10 Aangezien

de variabele continu is waarvan we weten dat de uitkomsten tot op een eenheid werden afgerond, moeten we bedenken dat elke gemeten waarde een afgerond getal is. In de data zou 30 dus staan voor een werkelijke snelheid tussen 29, 5 en 30, 5 kilometer per uur. Een klasse [30, 36[ zou in een histogram moeten weergegeven worden met als echte grenzen 29, 5 en 35, 5.

XIII-27


V

Oefening 14. Een journalist wil een onderzoek omtrent de lonen van arbeiders doen. Hij ondervraagt 100 arbeiders. Eén van zijn vragen is de volgende. Wat is uw huidige netto loon? Vink het gepaste hokje aan. Tussen 1000 en 1250 euro Tussen 1250 en 1500 euro Tussen 1500 en 1750 euro Tussen 1750 en 2000 euro Tussen 2000 en 3000 euro Tussen 3000 en 4000 euro De resultaten zijn: Looncategorieën

[1000, 1250[

[1250, 1500[

[1500, 1750[

[1750, 2000[

[2000, 3000[

[3000, 4000[

Aantal arbeiders

6

10

13

20

28

23

(aantal arbeiders per categorie)

Om het resultaat van zijn onderzoek meer leesbaar te maken, besluit de journalist een histogram te maken. Boven elke categorie tekent hij een rechthoek waarvan de hoogte gelijk is aan het aantal arbeiders in de overeenkomstige categorie:

30

20

10

1000 1250 1500 1750 2000

3000

4000 (loon)

(a) Waarom komt de indruk die het histogram opwekt niet overeen met de werkelijkheid? (b) Teken een nieuw histogram waarvan de visuele indruk wel overeenkomt met de werkelijkheid. Let hierbij op dat je geen nieuwe categoriën invoert, je beschikt immers enkel over de data uit de tabel.

V

Oefening 15. Bij een onderzoek naar het spaargeld van 100 personen op hun bankrekening is de volgende tabel ontstaan: Banksaldo

[0, 2000[

[2000, 5000[

[5000, 10000[

[10000, 20000[

[20000, 50000[

Frequentie

17

18

15

20

30

Teken een histogram dat bovenstaande gegevens correct weergeeft.

U

Oefening 16. Toon aan dat voor een steekproef X met grootte n de volgende formules gelden. (a)

X

ni = n

(c)

i

(b) x =

X

fi = 1

i

X

fi xi

(d)

i

X i

XIII-28

ni (xi − x) = 0


Oefeningen bij §1.3 B

Oefening 17. In klas A van 9 leerlingen was het gemiddelde op een toets wiskunde 6, 2. In klas B van 18 leerlingen werd dezelfde toets afgenomen en was het gemiddelde 6, 6. Wat is het gemiddelde over de twee klassen heen?

B

Oefening 18. Voor het vak geschiedenis zitten twee klasgroepen A en B samen. In groep A zitten er 12 leerlingen. Op de laatste overhoring behaalde deze groep een gemiddelde van 6, 5. Groep B behaalde een gemiddelde van 7 en het gemiddelde van beide groepen was 6, 7. Hoeveel leerlingen telt groep B?

B?

Oefening 19. Bij het proeven van een nieuw soort bier konden de proefkonijnen hun appreciatie uitdrukken in een schaal van 1 (helemaal niet goed) tot 6 (uitstekend). Onderstaand histogram geeft de verdeling van de frequenties weer. De pijlen duiden het gemiddelde, de modus en de mediaan aan. (a) Welke pijl komt overeen met welke centrummaat? (b) Welke schaal heeft de variabele?

(frequentie)

(c) Zijn de centrummaten gemiddelde, modus en mediaan allemaal zinvol?

ni

30

alcoholvrij bier

20

10

1

2

3

4

5

xi

6

(appreciatie) ? B?

?

?

Oefening 20. Twee onderzoekers willen een beeld vormen van de inkomensongelijkheid van de Belgische gezinnen. Als indicator voor de welvaart neemt de ene onderzoeker het aantal auto’s per gezinslid, de andere onderzoeker neemt het aantal computers per gezinslid. Beiden onderzoeken dezelfde steekproef van 450 gezinnen. Volgens welke onderzoeker zal de inkomensongelijkheid het grootst zijn? Motiveer je antwoord. aantal auto’s per gezinslid

frequentie

aantal computers per gezinslid

frequentie

0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3

19 4 7 13 22 80 78 88 64 33 20 9 11 2

0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3

27 9 17 18 18 68 70 70 59 55 10 14 9 6

XIII-29


B?

Oefening 21. Men vraagt aan 15 artsen naar het aantal keizersneden dat ze dat jaar uitgevoerd hebben. (a) In een eerste enquete zijn de antwoorden als volgt: 20

25

25

27

28

31

33

34

36

37

44

50

59

85

86

Bereken het gemiddelde, mediaan, standaardafwijking en teken de boxplot. (b) Stel dat de laatste arts 250 keizersneden had uitgevoerd. De nieuwe data wordt dus als volgt: 20

25

25

27

28

31

33

34

36

37

44

50

59

85

250

Herbereken het gemiddelde, mediaan, standaardafwijking en teken de boxplot. B?

Oefening 22. Een snackbar ontvangt twintig klanten tussen 11 u. en 12 u. Hun individuele rekening was (in euro): 10,2

6,2

13,5

19,7

19,2

7,9

8,4

7,1

6,1

7,4

22,4

6,0

10,6

18,6

6,4

8,6

8,6

9,6

12,8

9,8

Tussen 12 u. en 13 u. ontvangt dezelfde snackbar dertig klanten met een individueel verbruik van (in euro): 16,7

14,3

15,4

14,6

8,8

8,9

20,8

7,4

13,3

17,4

12,3

19,5

15,9

18,4

13,0

14,7

15,1

12,3

12,9

17,4

9,9

21,4

16,9

14,1

17,0

21,7

20,2

13,2

12,6

12,1

(a) Bereken het gemiddeld verbruik en de standaardafwijking van het verbruik van de eerste reeks klanten. (b) Bereken het gemiddeld verbruik en de standaardafwijking van het verbruik van de tweede reeks klanten. (c) Maak een boxplot van het verbruik van de eerste reeks klanten en een boxplot van de tweede reeks klanten. Wat kan je hieruit besluiten? B?

Oefening 23. Testaankoop wenst de levensduur van gloeilampen te testen. Ze laten daartoe van twee merken gloeilampen telkens 25 lampen onafgebroken branden tot ze doorbranden. De resultaten worden gegeven in aantal dagen van 24 uur (op 1 dag nauwkeurig).

Merk A:

Merk B:

53

53

55

57

58

58

61

63

65

65

65

67

68

69

72

73

75

77

78

81

83

85

85

85

87

24

25

71

71

73

73

75

76

76

77

79

82

82

85

90

93

93

95

100

100

101

102

105

105

105

In een vergelijkende reclame worden de volgende uitspraken gedaan.

de eerste gloeilamp (Thomas Edison 1879)

(a) Merk B beweert dat hun lampen gemiddeld 20% langer branden dan de lampen van Merk A. Controleer deze uitspraak aan de hand van de mediaan en het gemiddelde. (b) Merk A beweert dat de lampen van Merk B een grotere spreiding vertonen dan hun lampen. Hoe kan Merk A die uitspraak rechtvaardigen? (c) Merk B beweert dat de helft van hun lampen minstens even goed scoort als de beste 25% van de lampen van Merk A. Uit welke voorstellingswijze kunnen we die uitspraak voor deze steekproef vlot controleren? XIII-30


B??

Oefening 24. In een casino raakt een fervente gokker in discussie met de manager van het casino. De gokker beweert dat de door de casino gebruikte dobbelstenen vervalst zijn. Om tot een compromis te komen besluiten de heren de eerlijkheid van de dobbelstenen te testen door ze samen 108 keer op te gooien. De resultaten worden weergegeven in nevenstaande tabel.

2

2

2

2

2

2

2

3

3

3

3

3

3

3

3

3

3

3

3

4

4

4

4

4

4

4

4

4

4

4

5

5

5

5

5

5

5

5

5

5

5

5

6

6

6

6

6

6

6

6

(a) Maak de frequentietabel, het staafdiagram en de frequentiepolygoon. Controleer je resultaat met je grafische rekenmachine.

6

7

7

7

7

7

7

7

8

8

8

8

8

8

8

8

8

8

8

8

9

9

9

9

9

9

9

9

9

9

(b) Maak de uitgebreide frequentietabel.

9

10

10

10

10

10

10

10

10

10

(c) In hoeveel procent van de gevallen gooien ze precies 7?

10

10

10

11

11

11

11

11

11

11

(d) In hoeveel procent gooien ze hoogstens 7?

11

12

12

12

12

12

12

12

(e) Bereken de centrummaten gemiddelde, de mediaan en de modus. Controleer je resultaat met je grafische rekenmachine. (f) Bereken de spreidingsmaten variantie, de standaardafwijking en de interkwartielafstand. Controleer je resultaat met je grafische rekenmachine. (g) Teken de boxplot. Controleer je resultaat met je grafische rekenmachine.

B??

Oefening 25. Op het erf van Tristan zijn oma lopen heel wat kippen. Tristan besluit om gedurende een week alle eieren te wegen. Hieronder zie je de resultaten (in gram). 65

54

71

82

81

67

62

75

64

76

87

44

65

80

56

52

59

51

64

68

60

49

48

57

59

68

64

92

49

60

45

62

64

69

64

40

84

54

61

76

64

64

83

67

66

73

78

75

53

56

62

90

78

94

61

76

72

58

65

69

86

50

74

78

89

74

70

58

89

73

66

75

75

57

54

78

51

46

74

73

(a) Maak een gegroepeerde frequentietabel (neem ongeveer 10 klassen), het staafdiagram en het frequentiepolygoon. Controleer je resultaat met je grafische rekenmachine. (b) Maak de uitgebreide frequentietabel. (c) Hoeveel procent van de eieren heeft een gewicht tussen 60 gram en 65 gram? (d) Hoeveel procent van de eieren weegt hoogstens 70 gram? (e) Hoeveel procent van de eieren weegt minstens 65 gram? (f) Bereken de centrummaten gemiddelde, mediaan en modus. Formules opschrijven! (g) Bereken de spreidingsmaten variantie, standaardafwijking en interkwartielafstand. Formules opschrijven! (h) Teken de boxplot.

XIII-31


B??

Oefening 26. Een aardappelverwerkingsbedrijf heeft voor 100 willekeurig gekozen aardappelen het gewicht bepaald per gram (op twee decimalen nauwkeurig). 73,92

100,46

131,76

95,73

99,66

95,92

112,22

101,82

124,91

114,71

56,87

125,31

82,39

93,04

143,39

100,99

113,76

72,61

86,22

128,90

94,39

106,88

132,67

92,67

111,58

117,92

69,60

108,59

104,72

111,83

96,84

89,02

77,48

108,09

144,29

117,07

93,64

107,69

105,18

46,37

100,56

106,58

81,84

81,60

138,63

99,58

56,31

94,15

77,78

105,40

98,44

101,26

125,54

133,61

103,20

137,63

71,49

119,57

92,30

77,65

109,12

128,34

31,36

96,55

100,61

117,53

119,52

53,07

107,84

130,66

141,27

110,72

79,30

98,48

99,44

139,58

116,06

129,52

94,10

98,04

63,81

101,74

52,67

134,56

116,76

107,75

105,26

133,29

65,02

102,40

108,02

102,28

97,05

78,10

102,66

117,77

141,16

100,97

118,33

118,57

(a) Stel een gegroepeerde frequentietabel op met benedengrens van de eerste klasse 31 en klassenbreedte 13. (b) Hoeveel procent van de aardappelen weegt minder dan 109 gram? (c) Hoeveel procent van de aardappelen wijken hoogstens 12% af van de doorsnee-aardappel van 109 gram? (d) Hoeveel procent van de aardappelen weegt meer dan 109 gram? (e) Teken het histogram en de frequentiepolygoon voor de relatieve frequenties. (f) Vul aan: De aardappelen in de middelste helft van de data wegen tussen . . . g en . . . g.

B??

Oefening 27. De leeftijd van moeders werd opgetekend als ze hun eerste kind kregen. 21

16

19

25

16

26

32

34

19

20

28

31

38

20

29

24

26

25

32

23

31

20

18

15

31

32

30

29

28

17

22

22

22

29

27

28

31

33

26

37

20

22

25

29

31

32

30

30

22

23

25

17

18

16

24

25

26

32

34

28

29

30

32

24

20

19

31

35

20

29

26

22

19

22

25

24

21

26

29

30

(a) Maak een gegroepeerde frequentietabel (klassebreedte 2 jaar). (b) Hoeveel procent van de moeders kreeg het eerste kindje na de leeftijd van 25 jaar? (c) Hoeveel procent van de moeders kreeg het eerste kindje tussen de leeftijd van 23 jaar en 29 jaar? (d) Teken het histogram en de frequentiepolygoon. (e) Bepaal het gemiddelde, mediaan, standaardafwijking en kwartielen. (f) Teken de boxplot. (g) Vera bevalt van een meisje. Hoe oud moet Vera zijn als je weet dat ze tot de middelste 50% van de steekproef behoort?

XIII-32


V

Oefening 28. Vijftig personen nemen deel aan een test. Ze krijgen een gehele score toegekend op 30 punten. De volgende tabel geeft een overzicht van de resultaten. Score

[5, 10[

[10, 15[

[15, 20[

[20, 25[

Frequentie

10

20

15

5

(frequentie)

Welk staafdiagram is de correcte weergave van bovenstaande gegevens? Motiveer je antwoord.

20

10

(frequentie)

5

10

15

20

25 (score)

20

10

7

V

12

17

22

(score)

Oefening 29. Kies telkens vier gehele getallen van 0 tot 10 (die getallen hoeven niet verschillend te zijn) zodat: (a) die getallen de kleinst mogelijke standaardafwijking hebben, (b) die getallen de grootst mogelijke standaardafwijking hebben.

U?

Oefening 30. Gegeven een steekproef met gemiddelde x en standaardafwijking s. Bewijs de volgende eigenschappen. (a) Als alle waarnemingen xi met een positieve factor a worden vermenigvuldigd, veranderen het gemiddelde en de standaardafwijking met dezelfde factor. (b) Als alle waarnemingen xi met een vast getal b worden opgeteld, dan verandert het gemiddelde met hetzelfde getal, maar de standaardafwijking blijft ongewijzigd. ! X n 2 2 2 (c) s = fi xi − x n−1 i

XIII-33


Hoofdstuk 2

De normale verdeling De belangrijkste taak van de statistiek is om uit een steekproef informatie af te leiden voor de volledige populatie. Dat kan door het staafdiagram te benaderen met de grafiek van een functie, om op die manier de steekproef te modelleren en gefundeerde manier uitspraken te doen. 2

Bij deze opzet speelt de functie e−x een centrale rol. Heel wat steekproeven kunnen namelijk gemodelleerd worden met een transformatie van deze functie. In dat geval zeggen we dat de steekproef normaal verdeeld is.1 In dit hoofdstuk leren we werken met dit model: overgang van frequentiepolygoon naar normale verdeling, informatie aflezen en normale verdelingen vergelijken. Ook de belangrijkste eigenschappen komen aan bod.

2.1

Van frequentiepolygoon naar normale verdeling

3 Op ontdekking (zonnepanelen). Een firma zet deur-aan-deurverkopers in om zonnepanelen aan de man te brengen. Voor een aantal verkopers wordt bijgehouden hoeveel contracten ze wekelijks individueel afsluiten. Een steekproef over een langere periode levert de resultaten in onderstaande tabel [0]. Zo sluiten 8, 6% van de verkopers gemiddeld 12 contracten per week af. aantal contracten per week

relatieve frequentie

aantal contracten per week

relatieve frequentie

0

0,5%

10

11,2%

1

1,1%

11

10,2%

2

1,6%

12

8,6%

3

2,1%

13

6,4%

4

4,3%

14

3,7%

5

5,9%

15

2,1%

6

7,5%

16

1,1%

7

9,1%

17

1,1%

8

10,7%

18

0,5%

9

12,3%

zonnepanelen

(a) Plot het staafdiagram en de frequentiepolygoon. Oplossing. We gaan te werk zoals in Hoofdstuk 1.

2

1 Dat bij heel wat steekproeven het frequentiepolygoon goed benaderd wordt door de grafiek van een geschikte transformatie van e−x , kan wiskundig verklaard worden met de zogenaamde centrale limietstelling, zie Deel Kansrekenen 2 en verklarende statistiek.

XIII-34


GRAPH

STAT PLOTS 2:Plot2...On

GRAPH

(b) Wat is de totale oppervlakte van de staafjes? Oplossing.

(c) Bereken het gemiddelde x en de standaardafwijking s = sX met je grafische rekenmachine. Oplossing. STAT CALC 1:1-Var Stats

L1

L2

CALCULATE

(d) Plot het staafdiagram samen met de grafiek van de volgende functie. Wat merk je op? 2 1 − 1 x−x f (x) = √ ·e 2 s 2π · s Oplossing. Het frequentiepolygoon wordt erg goed benaderd door de grafiek van de functie f . STAT PLOTS 2:Plot2...Off

Y=

GRAPH

De grafiek van f kan ook geplot worden met behulp van het commando normalpdf.2 Y=

2ND DISTR 1

Paste

GRAPH

2 Het commando staat voor normal probability density function, de Engelse term voor normale kansdichtheidsfunctie, zie Deel Kansrekenen 2 en verklarende statistiek.

XIII-35


Dat het frequentiepolygoon van een steekproef goed benaderd wordt door de functie f , blijkt eerder de regel dan de uitzondering te zijn. In dat geval kunnen we dan ook zeggen dat de waarden van de steekproef normaal verdeeld zijn. De functie f noemt men dan ook de normale verdeling met gemiddelde x en standaardafwijking s, die we voortaan noteren met N (x, s2 ). In symbolen: N (x, s2 ) = √

1 −1 ·e 2 2π · s

x−x s

2

De grafiek van deze functie wordt de Gausskromme, normale kromme, dichtheidskromme of klokkromme genoemd.3 De laatste term verwijst naar de vorm van een antieke klok zoals die op figuur hiernaast te zien is. Als voor een steekproef X het frequentiepolygoon goed benaderd wordt door de Gausskromme, dan zeggen we dat de steekproef X normaal verdeeld is. In symbolen:

antieke klok 2

X ∼ N (x, s ) Zo betekent de schrijfwijze X ∼ N (85, 4) dat de steekproef X normaal verdeeld is met gemiddelde 85 en standaardafwijking 2. Om na te gaan of een steekproef normaal verdeeld is, moet het staafdiagram (of frequentiepolygoon) met relatieve frequentiedichtheid (relatieve frequentie gedeeld door de breedte van de staafjes) vergeleken worden met de normale verdeling N (x, s2 ), waarbij x en s vervangen worden door respectievelijk het gemiddelde en de standaardafwijking van de steekproef. 3 Modelvoorbeeld (koffie). De pakjes koffie van een bepaald merk zouden in principe 500 g moeten wegen. Om de nauwkeurigheid van de automatische vulmachine te controleren heeft men 245 pakjes koffie lukraak van de band genomen en de massa (in gram, op 0, 1 gram nauwkeurig) genoteerd. De resultaten zien we in onderstaande gegroepeerde frequentietabel) en staafdiagram. Is deze steekproef normaal verdeeld? Verklaar je antwoord. Maak gebruik van je grafische rekenmachine en noteer je werkwijze.

klasse

klassemidden xi

freq.

ni

ni

45

[482, 486[

484

13

40

[486, 490[

488

17

35

[490, 494[

492

29

30

[494, 498[

496

39

25

[498, 502[

500

48

20

[502, 506[

504

39

15

[506, 510[

508

30

10

[510, 514[

512

17

5

[514, 518[

516

13

0 484

488

492

496

500

Oplossing.

3 Genoemd

naar Carl Friedrich Gauss

, doch eerder ontdekt door Abraham de Moivre

XIII-36

1733.

504

508

512

516

xi


2.2

Informatie aflezen uit de normale verdeling

3 Op ontdekking (zonnepanelen - vervolg). Een firma zet deur-aan-deurverkopers in om zonnepanelen aan de man te brengen. Voor een aantal verkopers wordt bijgehouden hoeveel contracten ze wekelijks individueel afsluiten. aantal contracten relatieve aantal contracten relatieve per week frequentie per week frequentie 0

0,5%

10

11,2%

1

1,1%

11

10,2%

2

1,6%

12

8,6%

3

2,1%

13

6,4%

4

4,3%

14

3,7%

5

5,9%

15

2,1%

6

7,5%

16

1,1%

7

9,1%

17

1,1%

8

10,7%

18

0,5%

9

12,3%

In de vorige paragraaf vonden we het histogram met bijbehorende Gausskromme.

y N (x, s2 ) met

0.10

(

x = 9, 015 s = 3, 385

0.05

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

x

De directie van de firma wil de verzamelde gegevens uit de steekproef nu gebruiken om het rendement van alle verkopers te vergelijken. (a) Hoeveel procent van alle verkopers sluit gemiddeld tien contracten per week af? . Van de verkopers uit de steekproef sluit . . . . . . . . . % gemiddeld tien contracten per week af (zie tabel). . Hoe kunnen we dit percentage aflezen van het histogram? . . . . We gaan ervan uit dat de populatie zich gedraagt zoals de Gausskromme. Het percentage van de populatie dat gemiddeld tien contracten per week afsluit, is dan de totale oppervlakte tussen de Gausskromme, de x-as en de rechten x = 9, 5 en x = 10, 5. Je grafische rekenmachine berekent deze bepaalde integraal met het commando normalcdf( 9.5, 10.5, x, s).4 2ND DISTR 2:normalcdf(

Paste

ENTER

Antwoord. Ongeveer . . . . . . % van alle verkopers sluit gemiddeld tien contracten per week af. 4 De

term normalcdf staat voor normal cumulative density function. Een alternatief is het commando ShadeNorm.

XIII-37


(b) Verkopers die gemiddeld minder dan vijf contracten per week verkopen, worden ontslagen. Hoeveel procent van de verkopers wordt ontslagen? . Van de verkopers uit de steekproef sluit . . . . . . . . . % gemiddeld minder dan vijf contracten per week af. . Hoe kunnen we dit percentage aflezen van het histogram? . . . . We gaan ervan uit dat de populatie zich gedraagt zoals de Gausskromme. Het percentage van de populatie dat gemiddeld minder dan vijf contracten per week afsluit, is dan de totale oppervlakte onder de Gausskromme van −∞ tot x = 4, 5. Je grafische rekenmachine berekent dit met het commando normalcdf( −E99, 4.5, x, s).5 2ND DISTR 2:normalcdf(

-

2ND

EE etc.

Paste

ENTER

Antwoord. Ongeveer . . . . . . . . . % van alle medewerkers wordt ontslagen. (c) Verkopers die gemiddeld minstens vijftien contracten per week afsluiten, krijgen opslag. Hoeveel procent van de verkopers krijgt opslag? Als we er opnieuw vanuit gaan dat de populatie van alle verkopers zich gedraagt zoals de Gausskromme, is het percentage van verkopers die opslag krijgt gelijk aan de oppervlakte onder de Gausskromme van 14, 5 tot +∞. Commando. Antwoord. (d) Stefanie is een verkoopster met ambitie, en wilt tot de beste 25% behoren. Wat is het gemiddeld aantal contacten dat ze wekelijks moet afsluiten? . Wil Stefanie tot de beste 25% van de steekproef behoren, dan moet ze gemiddeld minstens . . . . . . . . . contacten per week afsluiten. . Hoe kunnen we dit getal aflezen van het histogram? . . . . We gaan ervan uit dat de populatie zich gedraagt zoals de Gausskromme. Dan moeten we de x-waarde bepalen waarvoor de oppervlakte onder de Gausskromme N (x, s2 ) van x tot +∞ gelijk is aan 0, 25. Je grafische rekenmachine berekent dit met het commando invNorm(0.25, x, s, RIGHT).6 2ND DISTR 3:invNorm(

Tail:RIGHT

Paste

ENTER

Antwoord. Ze moet gemiddeld ongeveer . . . . . . contracten per week afsluiten om bij de beste 25% te behoren. 5 In dit voorbeeld zou de ondergrens 0 volstaan, i.e. normalcdf( 0, 4.5, x, s). Het is de gewoonte om bij zo’n voorbeeld de ondergrens onafhankelijk te maken van de context, zodat men in elke (praktische) situatie die zelfde ondergrens kan gebruiken. Men kiest dan best een erg klein getal, maar nog haalbaar voor de grafische rekenmachine, bijvoorbeeld −1099 . De eigenschappen van de Gausskromme garanderen ons dat het wijzigen van de oorspronkelijke ondergrens (hier 0) in de onafhankelijke ondergrens (we kiezen −1099 ) de eindresultaten nauwelijks beı̈nvloed. 6 Gebruikers van de grafische rekenmachine TI84-Plus gebruiken het commando invNorm(0.75, x, s), hetgeen overeenkomt met de optie Tail:LEFT.

XIII-38


3 Modelvoorbeeld (koffie - vervolg). De pakjes koffie van een bepaald merk zouden in principe 500 g moeten wegen. Om de nauwkeurigheid van de automatische vulmachine te controleren heeft men 245 pakjes koffie lukraak van de band genomen en de massa (in gram, op 0, 1 gram nauwkeurig) genoteerd. De resultaten worden in de tabel van het gelijknamige modelvoorbeeld in de vorige paragraaf weergegeven, waar we volgend histogram (met totale oppervlakte van de staafjes gelijk aan 1) en bijbehorende Gausskromme vonden.

ni 2

N (x, s ) met

0.0459

(

x = 500 s = 8, 24

0.0408 0.0357 0.0306 0.0255 0.0204 0.0153 0.0102 0.0051 0 484

488

492

496

500

504

508

512

516

xi

De directie van de fabriek wil de steekproef nu gebruiken om uitspraken te doen over het gewicht eender welk pakje koffie dat door de machine gevuld werd en gevuld zal worden (dus de volledige populatie). Men gaat ervan uit dat de populatie zich gedraagt zoals de Gausskromme. (a) Hoeveel procent van de pakjes zit in de gewichtsklasse [494, 498[? (b) Hoeveel procent van de pakjes weegt meer dan 512 g? (c) Hoeveel procent van de pakjes heeft een gewicht van minder dan 502 g? (d) Hoeveel procent van de pakjes heeft een gewicht tussen 482 g en 518 g? Vergelijk met dezelfde vraag voor de steekproef. Komen de antwoorden overeen? Waarom (niet)? (e) Hoeveel moet een pakje wegen om tot de zwaarste 15% van alle pakjes te behoren? Licht telkens je werkwijze toe aan de hand van een schets. Noteer ook de commando’s die je ingevoerd hebt. Oplossing.

XIII-39


Algemeen beschouwen we een populatie waaruit een steekproef X met grootte n getrokken is. In Hoofdstuk 1 werden de volgende formules voor het gemiddelde x en standaardafwijking s van de steekproef gezien: P P 2 i ni · xi i ni (xi − x) x= en s = . n n−1 In principe kan men voor de populatie gelijkaardige formules opstellen. Noemen we N de grootte van de populatie, met waarden xi en frequenties Ni , dan is gemiddelde µ en standaardafwijking σ van de populatie bij afspraak gelijk aan: P P 2 i Ni (xi − µ) i Ni · x i µ= en σ = . N N

In de praktijk kunnen deze formules niet gebruikt worden om het gemiddelde en de standaardafwijking van de populatie te berekenen. Vaak kent kent men de grootte N van de populatie niet, laat staan dat frequenties Ni van de waarden xi van de populatie gekend zijn. Dat is net de reden waarom steekproeven worden getrokken: om op die manier de populatie te kunnen inschatten.

Is de steekproef normaal verdeeld, dan kan men er mits het voldoende groot, aselect en respresentatief zijn van die steekproef erop vertrouwen dat ook de populatie normaal verdeeld is.7 In dat geval neemt men aan dat het gemiddelde x en standaardafwijking s van de steekproef zogenaamde schatters zijn voor respectievelijk het gemiddelde µ en de standaardafwijking σ van de populatie. Met andere woorden: als X ∼ N (x, s) dan stelt men: µ≈x

en

σ≈s

en dan wordt aangenomen dat de populatie normaal verdeeld is met Gausskromme N (µ, σ 2 ). Op deze manier kunnen we op een verantwoorde manier uitspraken doen over de populatie. 3 Modelvoorbeeld. Bij een onderzoek in tien grote kraamklinieken (meer dan 750 bevallingen per jaar) in Vlaanderen werd het gewicht van mannelijke baby’s bij de geboorte geregistreerd. Het gewicht bleek gemiddeld 3425 gram te zijn met een standaardafwijking van 539 gram. Tevens bleek dat de gegevens beschouwd kunnen worden als normaal verdeeld. (a) Wat beschouwt men als het gemiddelde en de standaardafwijking van de populatie? Gebruik de correcte notaties. (b) Hoeveel procent van de pasgeboren jongens had een gewicht dat groter was dan 4 kg?

oude kraamkliniek Oostmeers, Brugge

(c) Hoeveel procent van de pasgeboren jongens had een gewicht tussen 2750 g en 3500 g? (d) Hoeveel moet een mannelijke baby wegen om tot het eerste kwartiel te behoren? Oplossing.

7 Er bestaan criteria om te beslissen of een steekproef al dan niet als normaal verdeeld kan worden beschouwd, zie bijvoorbeeld Toepassing 2 van de volgende paragraaf.

XIII-40


2.3

Studie van de normale verdeling

In deze paragraaf bespreken we enkele belangrijke eigenschappen van de normale verdeling. We gaan dus uit van een variabele x van de populatie die beschreven wordt door de functie N (µ, σ 2 ) = √

1 x−µ 2 1 · e− 2 ( σ ) 2π σ

Zo’n normale verdeling wordt gekenmerkt door twee parameters, namelijk het gemiddelde µ en de standaardafwijking σ. Door µ en σ te variëren kunnen we de klasse van normale verdelingen voortbrengen. Om deze normale verdelingen en de variatie daarvan beter te begrijpen, beperken we ons eerst tot een bijzonder geval.

De standaardnormale verdeling De bijzondere normale verdeling waarbij µ = 0 en σ = 1 noemt men de standaardnormale verdeling x2 1 N (0, 1) = √ · e− 2 2π

3 Volledig onderzoek (herhaling). We passen de technieken uit Deel Afgeleiden toe. 1. Domein dom f = {x ∈ R | f (x) bestaat} = R 2. Tekentabel De x-waarden in de tekentabel van een functie zijn de nulwaarden en de randwaarden van het domein. x2 1 . Nulwaarden f : los op f (x) = 0 ⇔ √ · e|−{z2} = 0 dus geen nulwaarden. 2π >0 . Tekentabel f :

x

f (x)

+

3. Asymptoten . V.A. kanshebbers: randwaarden van dom f die niet tot dom f behoren, dus geen. . H.A. we berekenen x2 1 1 lim f (x) = lim √ · e− 2 = √ · e−∞ = 0 x→±∞ 2π 2π

x→±∞

dus de rechte y = 0 is een H.A. voor x → ±∞ aan de grafiek van f . . S.A. geen voor x → ±∞ want reeds een H.A. voor x → ±∞ aan de grafiek van f . 4. Tekentabel f 0 x2 1 . f 0 (x) = √ · e− 2 · (−x) 2π . Nulwaarden f 0 : los op f 0 (x) = 0 ⇔ x = 0 . Randwaarden dom f 0 : analoog als bij dom f is dom f 0 = R dus geen randwaarden. . Tekentabel f 0 : x 0

5. Tekentabel f

f 0 (x)

+

0

f (x)

%

max

00

&

x2 x2 x2 1 1 1 . f 00 (x) = √ · e− 2 · (−1) + √ · e− 2 · (−x) · (−x) = √ · e− 2 · x2 − 1 2π 2π 2π 00 00 2 . Nulwaarden f : los op f (x) = 0 ⇔ x − 1 = 0 ⇔ x = ±1 . Randwaarden dom f 00 : analoog als bij dom f is dom f 00 = R dus geen randwaarden. . Tekentabel f 00 : x −1 1 f 00 (x) f (x)

+

0

bgpnt XIII-41

− 0 bgpnt

+


6. Samenvattende tabel −1

x

0

1

f 0 (x)

+

+

+

0

f 00 (x)

+

0

0

+

f (x)

bgpnt 6

- max

?bgpnt

7. Grafiek

y √1 2π

N (0, 1)

−1

x

1

3 Stelling (integraal van Gauss, integraal van Euler-Poisson). De totale √ 2 oppervlakte tussen de grafiek van e−x en de x-as is gelijk aan π. In symbolen:8

Z

+∞

2

e−x dx =

π

−∞

Bijgevolg is de totale oppervlakte tussen de standaardnormale verdeling en de x-as gelijk aan 1. y

N (0, 1) Simón-Denis Poisson (1781 - 1840)

1 = 100% x

3 Bijzondere oppervlaktes. Met behulp van de grafische rekenmachine vinden we de volgende bijzondere oppervlaktes onder de grafiek van de standaardnormale verdeling.

y

y N (0, 1)

N (0, 1)

68, 3% −1

N (0, 1)

95, 5% 1

Y= 2ND DISTR 1:normalpdf(

8 Het

y

x

−2 2ND CALC

99, 7% 2

R 7: f(x)dx

x

−3

3

2ND DISTR 2:normalcdf(

linkerlid is een zogenaamde oneigenlijke integraal, hier gelijk aan de limiet voor p → +∞ van de bepaalde integraal

Dit resultaat wordt doorgaans toegeschreven aan Poisson 1823, doch eerder aangetoond door Abraham de Moivre

XIII-42

1733.

Rp

−p

2

e−x dx.


De normale verdeling Passen we de transformaties uitrekken en verschuiven volgens de x-as en de y-as toe op de standaardnormale verdeling, dan kunnen we de normale verdeling met gemiddelde µ en standaardafwijking σ verkrijgen. Door bij elke stap de informatie op de grafiek bij te houden, kunnen we op die manier de verwante eigenschappen van een normale verdeling inzien. 3 Transformaties van normale verdelingen. We kunnen elke normale verdeling N (µ, σ 2 ) met gemiddelde µ en standaardafwijking σ verkrijgen door transformaties toe te passen op de standaardnormale verdeling. Voer deze transformateis uit. Schets bij elke functie de bijbehorende grafiek waarop je de invloed van de parameters µ en σ op de top, de buigpunten en de totale oppervlakte tussen de grafiek en de x-as bijhoudt (neem voor de schetsen bijvoorbeeld σ = 2). y √1 2π

N (0, 1)

N (0, 1)

1 x2 y = √ · e− 2 2π

vervang y door . . .

rek uit volgens y-as met factor . . .

y = ...

vervang . . . door . . .

rek uit volgens x-as met factor . . .

y = ...

vervang . . . door . . .

verschuif volgens x-as met . . . naar rechts

N (µ, σ 2 )

x−µ 2 1 1 y= √ · e− 2 ( σ ) 2π · σ

XIII-43

−1

1

x


3 Eigenschap. De normale verdeling N (µ, σ 2 ) met gemiddelde µ en standaardafwijking σ kan verkregen worden door transformaties toe te passen op de standaardnormale verdeling. De grafiek van N (µ, σ 2 ) is dus van de vorm

N (µ, σ 2 )

µ

µ−σ

x

µ+σ

Uit de grafiek van de normale verdeling lezen we de volgende eigenschappen af. (a) De rechte y = 0 is een horizontale asymptoot voor x → ±∞ aan de grafiek.

(b) De top heeft als abscis µ.

(c) De buigpunten hebben als abscis µ ± σ. 3 Transformaties van oppervlaktes. Bij overgang van de standaardnormale verdeling naar een normale verdeling N (µ, σ 2 ) rekken we eerst de y-as uit met factor 1/σ en daarna rekken we de x-as uit met factor σ. Bijgevolg is ook de totale oppervlakte onder de grafiek van de normale verdeling gelijk aan 1.

N (µ, σ 2 ) 1 = 100%

µ

x

Dit principe kan nu als volgt veralgemeend worden. Beschouw de oppervlakte tussen de grafiek van de standaardnormale verdeling, de x-as, de rechte x = 0 en een willekeurige verticale rechte x = z (linkerfiguur). Na het uitvoeren van de bovenstaande transformaties komt dit overeen met de oppervlakte tussen de grafiek van de normale verdeling, de x-as en de rechten x = µ en x = µ + zσ (rechterfiguur).

y

N (µ, σ 2 ) N (0, 1)

Opp.

Opp. 0

z

x

µ

µ+z·σ

x

3 Bijzondere oppervlaktes. Passen we de vorige bespreking toe voor z = 1, z = 2 en z = 3 dan vinden we de volgende bijzondere oppervlaktes onder de grafiek van een willekeurige normale verdeling met gemiddelde µ en standaardafwijking σ. Dit kan met behulp van de grafische rekenmachine gecontroleerd worden (neem een willekeurige µ en σ 6= 0).

N (µ, σ 2 )

N (µ, σ 2 )

68, 3%

µ−σ µ µ+σ

N (µ, σ 2 )

95, 5% x

µ − 2σ

µ

XIII-44

99, 7%

µ + 2σ

x

µ − 3σ

µ

µ + 3σ


Toepassing 1 - Voorspellingsintervallen De drie intervallen [µ − σ, µ + σ], [µ − 2σ, µ + 2σ] en [µ − 3σ, µ + 3σ] staan bekend als de één-, twee- en driesigmagebieden. Voor de prakijk vertaalt men de hiervoor gevonden kansen als volgt: een éénsigma-gebied bevat zo’n 68% van de uitkomsten, een tweesigma-gebied ruim 95% en een driesigma-gebied bevat meer dan 99% van de waarnemingen. Aan deze berekende kansen kunnen we bijvoorbeeld zien dat de kans om een waarneming buiten een driesigma-gebied te vinden buitengewoon klein is (namelijk minder dan 0, 27%). De tweesigma- en driesigma-grenzen worden in de praktijk veel gebruikt bij de controle van bepaalde productieprocessen. Wordt bij een bepaald proces, waarvan µ en σ bekend zijn, een uitkomst gevonden buiten het driesigma-gebied, dan is het bijna zeker dat het productieproces ontregeld is geraakt. De één-, twee- en driesigma-gebieden zijn typische voorbeelden van voorspellingsintervallen. Hieronder verstaan we intervallen op de x-as, symmetrisch ten opzichte van het gemiddelde, waarbinnen met een vooraf gegeven kans een uitkomst dient te vallen. Het meest wordt gewerkt met het 95%-voorspellingsinterval. 3 Modelvoorbeeld. De tijd die nodig is voor het lossen en opnieuw laden van een bepaald type containerschip wordt beschreven door een variabele die normaal verdeeld is met µ = 180 minuten en σ = 20 minuten. Bepaal een 95%voorspellingsinterval voor de afhandeltijd van een willekeurig containerschip van dat type. Oplossing. Het grootste containerschip ter wereld is de OOCL Hong Kong met een capaciteit van 21 413 containers.

Toepassing 2 - Wanneer is een steekproef normaal verdeeld? Nagaan of de statistische gegevens eventueel normaal verdeeld zijn, gebeurt in de eerste instantie door te redeneren over de data en te onderzoeken of een histogram van deze gegevens klokvormig is. Daarnaast kan men dan nagaan of aan de zogenaamde 68-95-99, 7-regel is voldaan.9 Dit betekent dat ongeveer 68% van de waarnemingen binnen het interval [µ − σ, µ + σ] vallen, ongeveer 95% van de waarnemingen binnen het interval [µ − 2σ, µ + 2σ] en ruim 99% van de waarnemingen binnen het interval [µ − 3σ, µ + 3σ] vallen. Deze regel wordt ook wel de empirische regel genoemd.10 3 Modelvoorbeeld. Onderstaande tabel geeft de punten van een bepaalde klas voor een toets wiskunde. score op 20

11

12

13

14

15

16

17

18

19

20

relatieve frequenties

1%

2%

3%

7%

12%

51%

11%

6%

5%

2%

Ga na of deze gegevens normaal verdeeld zijn aan de hand van de empirische regel. Oplossing.

9 Een

correctere analyse gebeurt door de relatieve cumulatieve frequenties uit te zetten in een assenstelsel van zogenaamd normaal waarschijnlijkheidspapier. 10 Met empirisch bedoelen we: op de werkelijkheid en de ervaring gebaseerd, in tegenstelling tot theoretisch gefundeerde theorieën.

XIII-45


Toepassing 3 - Oppervlaktes berekenen met behulp van een tabel Hierboven hebben we gezien hoe een oppervlakte onder de grafiek van de standaardnormale verdeling (linkerfiguur) niet verandert na het toepassen van transformaties tot een willekeurige normale verdeling (rechterfiguur).

y

N (µ, σ 2 ) N (0, 1)

Opp.

Opp. 0

z

x

µ

µ+z·σ

x

Op die manier kan het aflezen van informatie op een willekeurige normale verdeling eigenlijk gebeuren op de standaardnormale verdeling. Met behulp van een tabel van benaderde waarden zoals in Bijlage A, kunnen voorgaande oefeningen nu opgelost worden zonder het gebruik van grafische rekenmachine. 3 Modelvoorbeeld. Voor een benzinestation is het aantal liters Euro-loodvrij dat per week wordt afgezet weer te geven als een variabele, dat normaal verdeeld is met gemiddelde 7000 liter en standaardafwijking 800 liter. Hoe groot is de kans dat in een willekeurige week de afzet minder is dan 6400 liter? Los op zonder gebruik te maken van je grafische rekenmachine. Hanteer Bijlage A. Werkwijze uitschrijven! Oplossing.

XIII-46


2.4

Normale verdelingen vergelijken

3 Op ontdekking (zonnepanelen en zonneboilers). Stefanie is een deuraan-deurverkoopster met ambitie. Daarom houdt ze er twee banen op na: het verkopen van zonnepanelen bij firma A en het verkopen van zonneboilers bij firma B. Bij beide firma’s zijn de verkoopcijfers van al hun medewerkers normaal verdeeld. De gegevens zijn in onderstaande tabel samengevat.

zonnepanelen

zonneboilers

gemiddelde

µA = 9, 02

µB = 4, 25

standaardafwijking

σA = 3, 39

σB = 1, 70

12

6

score Stefanie

zonneboiler

(a) Schets beide normale verdelingen in één assenstelsel. (b) Hoe merk je dat op de schets dat µA > µB ? En waaraan zie je dat σA > σB ? (c) Waarin is Stefanie (relatief) het best: het verkopen van zonnepanelen of het verkopen van zonneboilers? (d) Beide normale verdelingen kunnen getransformeerd worden naar de standaardnormale verdeling. Op die manier komen de scores 12 en 6 van Stefanie overeen met scores op de standaardnormale verdeling. Bepaal deze z-scores. (e) Hoe kun je op basis van deze z-scores besluiten waarin Stefanie (relatief) het best is? Oplossing. (a) Om een normale verdeling te plotten, maken we gebruik van het commando normalpdf. Y= 2ND DISTR 1:normalpdf(

Paste

WINDOW

XIII-47

GRAPH


In de vorige paragraaf hebben we gezien hoe een oppervlakte onder de grafiek van de standaardnormale verdeling (linkerfiguur) niet verandert na het toepassen van transformaties tot een willekeurige normale verdeling (rechterfiguur). Bij deze transformatie wordt elke waarde z bij de standaardnormale verdeling (links) getransformeerd naar de waarde µ + zσ bij de normale verdeling (rechts).

y

N (µ, σ 2 ) N (0, 1)

Opp.

Opp. z

0

x

µ

µ+z·σ

x

We kunnen nu ook omgekeerd redeneren. Bij elke x-waarde bij de normale verdeling (rechterfiguur) hoort een z-waarde bij de standaardnormale verdeling (linkerfiguur). Dat getal z noemt men de z-score van x. Uit de bespreking van hierboven volgt nu dat het verband tussen een waarde x en zijn z-score wordt gegeven door: x=µ+z·σ Meetkundige betekenis. De z-score van een waarde x is het aantal standaardafwijkingen dat x van het gemiddelde verwijderd is.

y

N (µ, σ 2 ) N (0, 1)

Opp.

Opp. 0

x−µ σ

x

µ

x

x

3 Modelvoorbeeld. Een voorbeeldige leerling uit de klas behaalde voor tussentijdse evaluatie wiskunde in het eerste trimester 81, 2%. Het gemiddelde van de klas was toen 66, 8% en de standaardafwijking was 9, 4. Dezelfde leerling behaalde voor tussentijdse evaluatie in het tweede trimester (periode van januari tot de paasvakantie) 84, 8%. Het gemiddelde van de klas was toen 67, 7% en de standaardafwijking was 13, 0. in welk trimester presteerde de leerling relatief gezien het best? Je mag aannemen dat de resultaten van de klas telkens normaal verdeeld waren. Oplossing.

XIII-48


Oefeningen 2 De normale verdeling

Basis ?

Verdieping ? ??

??

2.1 Van frequentiepolygoon naar normale verdeling

1

2.2 Informatie aflezen van de normale verdeling

5 6 7 8

9 10 11

12

13 14 15

2.3 Studie van de normale verdeling 2.4 Normale verdelingen vergelijken

17 18

19 20

21 22

23

Uitbreiding ? ??

2 3 4 16

24 25 26

Oefeningen bij ยง2.1 B

Oefening 1. Welke gegevens zijn vermoedelijk normaal verdeeld? (a) Het gewicht van een zak wortelen met vermelding van 1 kg. (b) De duur van de rechtstreekse treinrit tussen Gent en Brugge. (c) De resultaten van het toelatingsexamen geneeskunde. (d) De heupomtrek bij volwassen vrouwen. groot koolwitje (Pieris brassicae)

(e) De snelheid van geflitste wagens in de bebouwde kom. (f) Het inkomen van alle werknemers van een groot bedrijf. (g) De spanwijdte van de vleugels van koolwitjes. B??

Oefening 2. De tijd die 90 studenten nodig hebben voor een laboproef is zorgvuldig opgemeten. Deze tijden (opgemeten in minuten) staan in nevenstaande tabel. (a) Bepaal de gegroepeerde frequentietabel (klassenbreedte 5 minuten). (b) Bereken het gemiddelde en de standaardafwijking. (c) Plot het histogram. Lijkt de steekproef normaal verdeeld?

B??

69

72

71

92

67

73

53

78

76

61

69

67

85

90

79

67

75

71

74

92

78

84

80

80

68

64

77

83

56

69

73

93

66

73

70

60

70

65

79

72

66

64

69

73

62

88

49

59

76

87

82

69

77

66

52

85

64

72

57

61

69

73

57

70

60

58

63

77

58

84

64

55

82

66

69

56

71

78

71

89

63

62

79

72

79

89

78

70

76

65

Oefening 3. In een fabriek worden op machinale wijze appelen verpakt (per zes stuks). Het gewicht van 70 pakken wordt nauwkeurig gemeten. De resultaten zijn (in gram): 1136

1099

1162

1123

1139

1121

1184

1154

1217

1151

1182

1190

1134

1108

1133

1192

1140

1077

1129

1136

1180

1062

1043

1239

1178

1112

1111

1112

1148

1130

1131

1089

1092

1176

1060

1097

1171

1179

1124

1208

1092

1069

1115

1103

1109

1209

1168

1083

1059

1006

1069

1124

1136

1196

1099

1145

1192

1139

1208

1124

1137

1107

1143

1167

1136

1255

1143

1171

1120

1137

(a) Bepaal de gegroepeerde frequentietabel (klassenbreedte 25 gram). (b) Bereken het gemiddelde en de standaardafwijking. (c) Plot het histogram. Lijkt de steekproef normaal verdeeld? XIII-49


B??

Oefening 4. De leeftijd van moeders werd opgetekend als ze hun eerste kind kregen. 21

16

19

25

16

26

32

34

19

20

28

31

38

20

29

24

26

25

32

23

31

20

18

15

31

32

30

29

28

17

22

22

22

29

27

28

31

33

26

37

20

22

25

29

31

32

30

30

22

23

25

17

18

16

24

25

26

32

34

28

29

30

32

24

20

19

31

35

20

29

26

22

19

22

25

24

21

26

29

30

(a) Maak een gegroepeerde frequentietabel (klassebreedte 2 jaar). (b) Bereken het gemiddelde en de standaardafwijking. (c) Plot het histogram. Lijkt de steekproef normaal verdeeld?

Oefeningen bij §2.2 B

Oefening 5. De tijd die 90 studenten nodig hebben voor een laboproef is normaal verdeeld is met gemiddelde 71, 67 minuten en standaardafwijking 9, 95 minuten. (a) Hoeveel procent van de studenten heeft minder dan 1 uur nodig? (b) Hoeveel procent van de studenten heeft meer dan 1 uur, maar minder dan 75 minuten nodig? (c) Hoeveel procent van de studenten werkt langer dan 75 minuten?

B

Oefening 6. Het gewicht van een pak appelen is normaal verdeeld is met gemiddelde 1133, 9 gram en standaardafwijking 48 gram. (a) Hoeveel procent van de pakken weegt minder dan 1, 1 kg? (b) Hoeveel procent van de pakken weegt meer dan 1, 2 kg? (c) Hoeveel procent van de pakken weegt tussen 1, 1 kg en 1, 2 kg?

B

Oefening 7. De massa van een lading geplukte peren is normaal verdeeld met gemiddelde 120 gram en standaardafwijking 20 gram. De teler wil deze peren in 5 gewichtsklassen verdelen die allemaal evenveel peren bevatten. Wat is de klassengrens van de 20% peren die het zwaarst wegen?

B

Oefening 8. Aan een test voor een staatsexamen nemen 220 kandidaten deel. Ze krijgen een score op 100 toegekend. De normaal verdeelde uitslag heeft als gemiddelde 68 en standaardafwijking 12. Welke score is vereist als enkel de 22 beste benoemd worden?

B?

Oefening 9. De tijdsduur van lokale telefoongesprekken is normaal verdeeld met een gemiddelde van 9, 5 minuten en een standaardafwijking van 3 minuten. (a) Welke tijdsduur wordt door 5% van de gesprekken overschreden? (b) Hoeveel procent van de gesprekken duurt minder dan 5 minuten?

B?

Oefening 10. De lengte van snoeken in een kreek is normaal verdeeld met Âľ = 77, 5 cm en Ďƒ = 4, 7 cm. (a) Welk percentage van die snoeken zal langer zijn dan 82 cm? (b) De 25% kleinste snoeken worden door vissers terug in het water gezet. Hoe lang moet een snoek minstens zijn om op de markt te komen? (c) De 10% langste snoeken krijgen het etiket supersnoek. Vanaf welke lengte is een snoek een supersnoek? XIII-50

snoek (Esox lucius)


B?

Oefening 11. De tijd om in het labo chemie een bepaalde proef uit te voeren is normaal verdeeld met een gemiddelde van 54 minuten en een standaardafwijking van 8 minuten. (a) In hoeveel procent van de gevallen duurt de proef langer dan één uur? (b) Hoeveel tijd moet een leerkracht chemie voor de proef voorzien zodat hij met een zekerheid van 90% kan zeggen stellen dat de proef binnen de gestelde tijd klaar is?

B??

Oefening 12. De lengte van de Japanse man is normaal verdeeld met gemiddelde 165, 5 cm en standaardafwijking 4, 75 cm. De lengte van de Nederlandse vrouw is normaal verdeeld met gemiddelde 169, 6 cm en standaardafwijking 5, 5 cm. (a) De Japanner Hoshi meet 168 cm. Bij de hoeveel procent grootste mannen van zijn land hoort hij? (b) Op reis in Nederland valt zijn oog op de Nederlandse vrouw Sofie. Hoe groot is de kans dat Sofie groter is dan hij? (c) Een Belg van 1, 65 m staat naast een vrouw uit Nederland. Hoe groot is de kans dat de Belg kleiner is dan de vrouw?

V

Oefening 13. Er moet een doorgang gemaakt worden die gebruikt zal worden door personen wiens lengte normaal verdeeld is met gemiddelde 1, 72 m en standaardafwijking 7 cm. Hoe laag mag deze doorgang zijn als niet meer dan 4% van de personen het hoofd mag stoten?

V

Oefening 14. De slaapduur bij een verdovingsmiddel is normaal verdeeld met µ = 6 uur en σ = 1, 5 uur. Mag een anesthesist bij toediening van dit middel voor 99% zeker zijn dat de patiënt minstens 3 uur verdoofd blijft?

V

Oefening 15. De dosis van een bepaald product nodig voor een algemene anesthesie is normaal verdeeld met gemiddelde 50 mg en standaardafwijking 10 mg. De letale dosis (dit is de dosis die de dood kan veroorzaken) van dat product is eveneens normaal verdeeld met gemiddelde 110 mg en standaardafwijking 20 mg. Veronderstel dat men zonder verdere controle - bij een anesthesie een dosis zou gebruiken die in 90% van de gevallen voldoende is om de patiënt te verdoven. Hoeveel sterfgevallen zou men dan hebben?

U?

Oefening 16 (hoofdeigenschap van variantie van een populatie). Gegeven is een populatie met gemiddelde µ en variantie σ. Bewijs dat de variantie van een populatie is het gemiddelde van de kwadraten min het kwadraat van het gemiddelde. In symbolen: X σ2 = fi x2i − µ2

Noriyuki Morita (1932 - 2005)

i

Oefeningen bij §2.3 en §2.4 B

Oefening 17. De gemiddelde lengte van jongens van 16 jaar is ongeveer 163 cm met een standaardafwijking van 7 cm. Voor meisjes van dezelfde leeftijd is dit respectievelijk 157 cm en 7, 5 cm. Indien een bepaalde jongen van deze leeftijd 165 cm meet en een bepaald meisje 159 cm, wie van beide is dan relatief de grootste?

B

Oefening 18. De duur van een zwangerschap bij de vrouw is normaal verdeeld met een gemiddelde van 266 dagen en een standaardafwijking van 16 dagen. Bepaal een 95%-voorspellingsinterval voor de duur van een zwangerschap van een willekeurige vrouw.

B?

Oefening 19. Een staatsexamen op 100 punten waarvan de uitslag als normaal verdeeld mag beschouwd worden, heeft als gemiddelde 70 punten en als standaardafwijking 15 punten. Annelore behaalde 58 punten en Bea 91 punten. De z-score van Carsten was −1, die van Daisy 1, 6. De uitslag van Evert is zo dat 30% van de andere deelnemers een betere uitslag behaalden. (a) Bepaal de z-scores van Annelore en Bea. (b) Hoeveel procent van de deelnemers behaalde een score tussen die van Annelore en Bea? (c) Wat was het resultaat van Carsten, Daisy en Evert? XIII-51


B?

Oefening 20. Onderstaande tabel geeft de (jaarlijkse) inkomsten van 177 gezinnen uit Illinois (inkomen Ă— $1000). klasse

[0, 10[

[10, 20[

[20, 30[

[30, 40[

[40, 50[

[50, 60[

[60, 70[

[70, 80[

frequentie

4

12

13

42

31

20

17

9

klasse

[80, 90[

[90, 100[

[100, 110[

[110, 120[

[120, 130[

[130, 140[

[140, 150[

[150, 160[

frequentie

6

3

8

2

1

1

1

1

(a) Teken het histogram. (b) Lijkt deze steekproef normaal verdeeld? Waarom (niet)? (c) Ga na of deze gegevens normaal verdeeld zijn aan de hand van de empirische regel. B??

Oefening 21. Van 74 dertienjarige kinderen werd het IQ gemeten. De resultaten staan in onderstaande tabel. 111

104

113

132

124

103

110

107

89

109

111

126

115

107

100

104

108

124

116

93

112

107

102

113

127

127

106

105

114

91

130

128

119

111

112

115

114

128

136

97

103

105

111

114

128

106

86

123

110

97

103

118

118

102

93

107

100

106

113

119

110

119

103

112

105

120

123

120

110

114

98

90

96

112

(a) Ga met behulp van je grafische rekenmachine na dat het gemiddelde van deze steekproef gelijk is aan 110, 7 en dat de standaardafwijking gelijk is aan s = 10, 9. (b) Ga na of deze gegevens normaal verdeeld zijn aan de hand van de empirische regel. B??

Oefening 22. De lengte van de Amerikaanse man is normaal verdeeld met gemiddelde 175, 5 cm en standaardafwijking 5, 8 cm. De lengte van de Nederlandse man is normaal verdeeld met gemiddelde 182, 5 cm en standaardafwijking 6, 15 cm. (a) Een Amerikaanse firma bouwt een wagen die groot genoeg is voor 99% van de Amerikaanse mannen. Voor hoeveel procent van de Nederlandse mannen is die wagen te klein? (b) Wie is relatief het grootst: Donald J. Trump (1, 88 m) of de Nederlandse clown Adriaan (1, 92 m)?

V

Oefening 23. Twee toestellen snijden kurken voor wijnflessen. De eerste snijdt kurken met een diameter die normaal verdeeld is met een gemiddelde van 3 cm en standaardafwijking van 0, 1 cm. Ook bij het tweede is de diameter normaal verdeeld, met gemiddelde 3, 04 cm en standaardafwijking 0, 02 cm. Enkel kurken met een diameter tussen 2, 9 cm en 3, 1 cm worden aanvaard. We nemen lukraak een kurk. Nu blijkt dat deze kurk te groot is en dus niet aanvaard wordt. Wat is de kans dat de kurk door het eerste toestel gemaakt werd? Los op zonder gebruik te maken van je grafische rekenmachine. Hanteer Bijlage A. Werkwijze uitschrijven!

Clown Bassie Bastiaan van Toor (â—Ś 1935)

V?

Oefening 24. In een fabriek worden flessen automatisch gevuld. De inhoud van de flessen is normaal verdeeld rond de ingestelde vulinhoud. De standaardafwijking bedraagt 6 cc. De fabricant wenst dat 90% van de flessen een minimale inhoud van 500 cc hebben. Op welke vulinhoud moet de machine worden afgesteld?

V?

Oefening 25. Een vulmachine vult flessen met 505 cc frisdrank. We veronderstellen dat het vullen normaal verdeeld is. Nu bevat 15% van de flessen minder dan 500 cc. Bereken de standaardafwijking.

V?

Oefening 26. Als Thomas thuis om 7.40 u. vertrekt naar school is hij in 4% van de gevallen te laat voor de les die om 8.20 u. begint. Vertrekt hij om 7.35 u. dan is hij in slechts 1% van de gevallen te laat. In de veronderstelling dat Thomas zijn reistijd naar school normaal verdeeld is, hoe laat moet hij dan thuis vertrekken om in niet meer dan 0, 5% van de gevallen te laat te komen? XIII-52


Bijlage A

Tabel voor standaardnormale verdeling y Z

0

1,54

x2 1 √ · e− 2 dx ≈ 0, 4382 2π {z } |

N (0, 1) 43, 82%

N (0,1)

z

, 00

, 01

, 02

0

, 03

, 04

, 05

, 06

x

z = 1, 54 , 07

, 08

, 09

0, 0

, 0000

, 0040

, 0080

, 0120

, 0160

, 0199

, 0239

, 0279

, 0319

, 0359

0, 1

, 0398

, 0438

, 0478

, 0517

, 0557

, 0596

, 0636

, 0675

, 0714

, 0754

0, 2

, 0793

, 0832

, 0871

, 0910

, 0948

, 0987

, 1026

, 1064

, 1103

, 1141

0, 3

, 1179

, 1217

, 1255

, 1293

, 1331

, 1368

, 1406

, 1443

, 1480

, 1517

0, 4

, 1554

, 1591

, 1628

, 1664

, 1700

, 1736

, 1772

, 1808

, 1884

, 1879

0, 5

, 1915

, 1950

, 1985

, 2019

, 2054

, 2088

, 2123

, 2157

, 2190

, 2224

0, 6

, 2258

, 2291

, 2324

, 2357

, 2389

, 2422

, 2454

, 2486

, 2518

, 2549

0, 7

, 2580

, 2612

, 2642

, 2673

, 2704

, 2734

, 2764

, 2794

, 2823

, 2852

0, 8

, 2881

, 2910

, 2939

, 2967

, 2996

, 3023

, 3051

, 3078

, 3106

, 3133

0, 9

, 3159

, 3186

, 3212

, 3238

, 3264

, 3289

, 3315

, 3340

, 3365

, 3389

1, 0

, 3413

, 3438

, 3461

, 3485

, 3508

, 3531

, 3554

, 3577

, 3599

, 3621

1, 1

, 3643

, 3665

, 3686

, 3708

, 3729

, 3749

, 3770

, 3790

, 3810

, 3830

1, 2

, 3849

, 3869

, 3888

, 3907

, 3925

, 3944

, 3962

, 3980

, 3997

, 4015

1, 3

, 4032

, 4049

, 4066

, 4082

, 4099

, 4115

, 4131

, 4171

, 4162

, 4177

1, 4

, 4192

, 4207

, 4222

, 4236

, 4251

, 4265

, 4279

, 4292

, 4306

, 4319

1, 5

, 4332

, 4345

, 4357

, 4370

, 4382

, 4394

, 4406

, 4418

, 4429

, 4441

1, 6

, 4452

, 4463

, 4474

, 4484

, 4495

, 4505

, 4515

, 4525

, 4535

, 4545

1, 7

, 4554

, 4564

, 4573

, 4582

, 4591

, 4599

, 4608

, 4616

, 4625

, 4633

1, 8

, 4641

, 4649

, 4656

, 4664

, 4671

, 4678

, 4686

, 4693

, 4699

, 4706

1, 9

, 4713

, 4719

, 4726

, 4732

, 4738

, 4744

, 4750

, 4756

, 4761

, 4767

2, 0

, 4772

, 4778

, 4783

, 4788

, 4793

, 4798

, 4803

, 4808

, 4812

, 4817

2, 1

, 4821

, 4826

, 4830

, 4834

, 4838

, 4842

, 4846

, 4850

, 4854

, 4857

2, 2

, 4861

, 4864

, 4868

, 4871

, 4875

, 4878

, 4881

, 4884

, 4887

, 4890

2, 3

, 4893

, 4896

, 4898

, 4901

, 4904

, 4906

, 4909

, 4911

, 4913

, 4916

2, 4

, 4918

, 4920

, 4922

, 4925

, 4927

, 4929

, 4931

, 4932

, 4934

, 4936

2, 5

, 4938

, 4940

, 4941

, 4943

, 4945

, 4946

, 4948

, 4949

, 4951

, 4952

2, 6

, 4953

, 4955

, 4956

, 4957

, 4959

, 4960

, 4961

, 4962

, 4963

, 4964

2, 7

, 4965

, 4966

, 4967

, 4968

, 4969

, 4970

, 4971

, 4972

, 4973

, 4974

2, 8

, 4974

, 4975

, 4976

, 4977

, 4977

, 4978

, 4979

, 4979

, 4980

, 4981

2, 9

, 4981

, 4982

, 4982

, 4983

, 4984

, 4984

, 4985

, 4985

, 4986

, 4986

3, 0

, 4987

, 4987

, 4987

, 4988

, 4988

, 4989

, 4989

, 4989

, 4990

, 4990

XIII-53


Antwoorden op geselecteerde oefeningen Hoofdstuk 1 (1) populatie: alle kiezers, steekproef: de 400 geselecteerde kiezers (2) (a) ratioschaal (b) nominale schaal (c) nominale schaal (d) ratioschaal (e) ordinale schaal (f) ratioschaal (3) (a) populatie (b) steekproef (c) steekproef (d) populatie (7) (a) populatie: de reizigers van de buslijn Brugge-Moerkerke, steekproef: de 70 willekeurige reizigers, wel representatief, wel aselect (b) populatie: de supporters van Cercle Brugge, steekproef: de leden van de spionkop, niet representatief, niet aselect (c) populatie: alle leerlingen van de school, steekproef: de leerlingen met klasnummer 1, niet representatief, niet aselect (d) populatie: alle allochtone inwoners van Gent, steekproef: de 250 gezinshoofden, niet representatief, niet aselect (8) (a) dubbele negatie (b) meerdere onderwerpen (c) eerst het onderwerp, pas daarna de keuzemogelijkheden (d) dubbele negatie (e) antwoordmogelijkheid geen (f) onduidelijke vraag (g) subjectieve vraagstelling, onderscheid tussen feiten en opinies (10) (a) zinloos (b) zinloos (c) zinvol (12) (c) 28, 57 . . . % (d) 68, 57 . . . % (13) (c) 62 auto’s (d) 80% (17) 6, 466 . . . (18) Groep B telt 8 leerlingen. (19) (b) ordinale schaal (c) Modus en mediaan zijn zinvol, gemiddelde is zinloos. XIII-54


(20) Volgens de tweede onderzoeker zal de inkomensongelijkheid het grootst zijn. (21) (a) x = 41, 33 . . ., Me = 34 en s = 20, 6074 . . . (b) x = 52, 266 . . ., Me = 34 en s = 57, 1332 . . . (22) (a) x = 10, 955 en s = 5, 0967 . . . (b) x = 14, 94 en s = 3, 7393 . . . (24) (c) in 6, 48 . . . % van de gevallen (d) in 53, 70 . . . % van de gevallen (e) x = 6, 88 . . ., Me = 7 en Mo = / (f) s2 = 9, 2398 . . ., s = 3, 0397 . . . en IKA = 5, 5 (26) (b) 64% (c) 17% (d) 36% (f) De middelste helft weegt tussen 89, 5 g en 115, 5 g. (28) Het tweede staafdiagram is de correcte weergave van de gegevens.

Hoofdstuk 2 (1) (a) normaal verdeeld (b) niet normaal verdeeld (c) normaal verdeeld (d) normaal verdeeld (e) niet normaal verdeeld (f) niet normaal verdeeld (g) normaal verdeeld (2) (b) x = 71, 66 . . . en s = 9, 950 . . . (c) De steekproef lijkt normaal verdeeld. (5) (a) 12, 04 . . . % (b) 51, 06 . . . % (c) 36, 89 . . . % (6) (a) 24, 00 . . . % (b) 8, 42 . . . % (c) 67, 57 . . . % (7) 136, 83 . . . gram (8) 83, 37 . . . % (9) (a) 14 minuten en 26, 07 . . . seconden (b) 6, 68 . . . % (10) (a) 16, 91 . . . % (b) 74, 32 . . . cm (c) 83, 52 . . . cm (11) (a) 22, 66 . . . % (b) 64 minuten en 15, 14 . . . seconden (12) (a) 29, 93 . . . % (b) 61, 44 . . . % (c) 79, 85 . . . % (13) De doorgang moet minstens 184, 25 . . . cm lang zijn. XIII-55


(14) neen (15) 0, 91 . . . % (17) De jongen is relatief de grootste. (19) (a) Annelore −0, 8, Bea 1, 4 (b) 70, 73 . . . %

(c) Carsten 55 punten, Daisy 94 punten, Evert 77, 86 . . . punten (22) (a) 14, 55 . . . % (b) Trump is relatief het grootst. (24) 507, 68 . . . cc (25) 4, 82 . . . cc (26) Thomas moet vroeger dan 7.32 u. en 49, 98 . . . seconden vertrekken.

XIII-56


Referentielijst [1] E. Aronson, T.D. Wilson, R.M. Akert, Social Psychology, Pearson Education, Limited, 2010. [2] J. Billiet, H. Waege, Een samenleving onderzocht: Methoden van sociaal-wetenschappelijk onderzoek, Uitgeverij De Boeck nv, Antwerpen, 2005. [3] P. Bogaert, M. De Feyter, F. Geeurickx, R. Van Nieuwenhuyze, E. Willockx, Van Basis tot Limiet 6 leerboek statistiek uitgebreide versie , Die Keure, 2004. [4] A. Buijs, Statistiek om mee te werken, Wolters-Noodhoff, 2008. [5] P. Coppens, V. Descheemaeker, G. Gijbels, T. Jansen, P. Janssen, S. Janssens, P. Matthijs, F. Michiels, F. Roggeman, J. Schepers, Pienter leerboek wiskunde voor het derde jaar 5, Van In, 2006. [6] J. De Langhe, N. Deloddere, L. De Wilde, N. De Wilde, P. Gevers, M. Pensaert, P. Tytgat, Delta 5/6 Statistiek (3-4 lesuren), Wolters Plantyn, Mechelen, 2015. [7] J. Deprez, H. Eggermont, E. Van Emelen, Met de krant in de hand, Uitwiskeling 23/4, 14-49, 2007. [8] G. Gijbels, E. Govaert, M. Jaenen, S. Janssens, B. Sevenhant, I. Vanderstichel, P. Weyenberg, Pienter leerboek statistiek I voor de derde graad 6/8, Van In, 2005. [9] Website kennislink.nl, http://www.kennislink.nl/publicaties/wiskundige-bijsluiter-van-opiniepeilingen

.

[10] Website Algemene Directie Statistiek - Statistics Belgium, afgekort Statbel, https://statbel.fgov.be/nl

XIII-57

.


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.