(Chapitre 1) du Cous proba-stat 2021 S1 by RAYANE LAZOUNI C3

Intitulé de la matière : Probabilités-Statistiques VHS

Cours 1h30

TD 1h30

Plan de la matière: Partie 1. Statistique descriptive. Chapitre 1 : Série statistique à 1 caractère. Chapitre 2 : Série statistique à 2 caractère.

Partie 2. Probabilités. Chapitre 1 : Introduction au calcul de probablités.

Partie 1. Statistique descriptive. Chapitre 1 : Série statistique à 1 caractère.

1.1- Introduction : Généralités, définitions, Types de caractères. 1.2- Séries statistiques et leurs représentations: 1.2.1- Cas quantitatif discret. 1.2.2- Cas quantitatif continue. 1.2.3- Cas qualitatif. 1.3- Paramètres d’une série 1.3.1- Paramètres de position : Mode, moyenne arithmétique et médiane 1.3.2- Paramètres de dispersion : Variance et écart type d’un caractère. 3

Partie 1. Statistique descriptive. Chapitre 2 : Série statistique à 2 caractère. 2.1- Introduction. 2.2- Distribution et caractéristiques: 2.2.1- Distributions marginales. 2.2.2- Caractéristiques marginales : Moyennes et variances marginales. 2.2.3- Distribution conditionnelle. 2.2.4- Caractéristiques conditionnelles. 2.3- Covariance de 02 caractères 1.3.1- Définition et propriétés. 1.3.2- Coefficient de corrélation 2.4- Ajustements : Type y

= ax+b,

Type y

= Bax

Partie 2. Probabilités. Chapitre 3 : Introduction au calcul de probabilités. 3.1- Rappels sur l’analyse combinatoire : Permutation, arrangement, combinaison. 3.2- Notions de base

3.3- Probabilité conditionnelle 3.3.1- Théorème des probabilités totales. 3.3.2- Théorème des probabilités composées. 3.3.3- Evénements indépendants.

Chapitre 1 : Série statistique à 1 caractère. 1.1- Introduction : 1.1.1- La statistique : Pour un groupe d’individus ou d’objets la statistique est l'étude de : 1. La collecte de données.

2. Leur analyse, leur traitement et l'interprétation des résultats. 3. Leur présentation afin de rendre les données compréhensibles par tous. 6

1.1.2- Population statistique : Une population statistique est l'ensemble sur lequel on effectue des observations.

Exemples : 1. Ensemble de personnes interrogées pour une enquête.

2. Ensemble de pays pour lesquels on dispose de données géographiques ou économiques, ... 1.1.3- Individu (ou unités statistiques): Les individus sont les éléments de la population statistique étudiée. Pour chaque individu, on dispose d'une ou plusieurs observations. 7

Exemples :

1. Chacune des personnes interrogées pour une enquête. 2. Chaque pays pour lequel on étudie des données socio-économiques, … 3. Chaque jour de l'année pour lequel on dispose de données météorologiques, ... 1.1.4- Caractère statistique (ou variable statistique): C'est ce qui est observé ou mesuré sur les individus d'une population statistique. Il peut s'agir d'une variable qualitative ou quantitative. 8

Exemples : 1. Taille, poids, salaire, sexe, profession d'un groupe donné d'individus. 2. Température maximale et minimale, pluviométrie ensoleillement, mesurés à un endroit donné tous les jours.

A. Variable qualitative: Une variable statistique est qualitative si ses valeurs, ou modalités, s'expriment de façon littérale ou par un codage (ie une observation qui n’est pas mesurable). Exemples : 1. Sexe, situation familiale,…

2. Etat du temps constaté à un endroit donné chaque jour (pluvieux, neigeux, beau, venteux, ...)

B. Variable quantitative: Une variable statistique est quantitative si ses valeurs sont des nombres sur lesquels des opérations arithmétiques telles que somme, moyenne, ... ont un sens. Remarque: Les variables quantitatives peuvent être discrètes ou continues.

B.1 Variable quantitative discrète: C'est une variable quantitative pouvant prendre par nature un nombre fini (ou dénombrable) de valeurs. Exemples : 1. Nombre d'enfants par famille. 2. Nombre de pièces d'un appartement

B.2 Variable quantitative continue: C'est une variable quantitative pouvant prendre par nature une infinité de valeurs, généralement tout un intervalle réel.

Exemples : Tailles, poids, salaires, surfaces cultivées, température. Remarque : Dans ce cas on utilise des intervalles [ai , bi[ au lieu de xi .

1.1.5- Modalité: Les modalités d'un caractère sont les différentes résultats de l’observation (nombres ou propriétés). 11

Exemples : 1. Cas qualitatif : Les modalités de la variable X = "situation familiale" sont : M ={célibataire, marié, veuf, divorcé}. 2. Cas quantitatif discret : Les modalités du la variable X = "Note à un examen"

sont: M = {7; 9; 14; 16,5}. 3. Cas quantitatif continue : Les modalités de la variable X = " Taille" sont : les valeurs appartenant aux intervalles [150, 165 [, [165, 180 [ , etc… Remarque : Il y’a 2 types de variables statistiques qualitatives; 12

1er - Variable qualitative nominale : La variable est dite qualitative nominale quand les modalités ne peuvent pas être ordonnées (ne peuvent pas être classées). Exemple 1 : La variable X = « situation familiale » avec les modalités notées C, M, V, D. Exemple 2 : La variable X = "sexe" avec les modalités notées: M,F.

2eme - Variable qualitative ordinale : La variable est dite qualitative ordinale quand les modalités peuvent être ordonnées. Si, M= {x1,x2…,xr} désigne l’ensemble des modalités, ces valeurs sont ordonnées, c’est-à-dire :

x1 ≺ x2 ≺ … ≺ xr . La notation x1≺ x2 se lit x1 précède x2.

Exemple 1 : Un questionnaire de satisfaction demande aux consommateurs d'évaluer une prestation en cochant l’une des six catégories suivantes : (a) nulle, (b) médiocre, (c) moyenne, (d) assez bonne, (e) très bonne, (f) excellente. Exemple 2 : La variable X = « Niveau d’instruction ».

1.1.6 Effectif et Fréquence d’une modalité:  L’effectif ni d’une modalité (ou d’une classe) est le nombre de fois où la modalité (resp la classe) n° i a été observée.  L’effectif total N est le nombre total d’individus observés. N  n1  n2    nr 

n i 1

 La fréquence (ou fréquence relative) fi d’une modalité est le rapport de l’effectif ni à l’effectif total N. ni fi   N

ni r

n i 1

Remarque : Les fréquences relatives peuvent être exprimées en pourcentages, et on a le résultat suivant : r r r 1 r N ni n  1  f i  1 car  f i    i  N 1 N i 1 N i 1 15 i 1

Exemple : Sur 200 familles, 50 ont 2 enfants, on dira que la fréquence fi correspondant à la valeur xi = 2 de la variable "nombre d'enfants", est : 50 1 ni   0,25 soit 25% fi   200 4 N 1.1.7 Présentation dans un tableau statistique :

A. Cas qualitatif nominale : Pour une variable statistique Qualitative nominale, si l’ensemble M = {M1,M2,…, Mr} désigne l’ensemble des modalités, alors le tableau statistique associé à ce caractère est : Modalités (numérotés) Mi Effectifs ni Fréquences fi M1 (1) M2 (2)

n1 n2

f1 f2

Mr (r)

Total

fr 1

Exemple 1: On s’intéresse aux valeurs de la variable X = «situation familiale» prises sur 20 personnes dont la codification est ; c : célibataire, m : marié(e), v = veuf(ve), m = divorcé(e). Donc le domaine de la variable X est M = {c, m, v, d}. Considérons les résultats suivants : 1

10 11 12 13 14 15 16 17 18 19 20

Et on obtient le tableau suivant : Mi c m v d

Total

Effectifs ni 9 7 2 2 20

Fréquences fi 0,45 0,35 0,10 0,10 1,00

Remarque 1 : Avant d’aborder les autres cas on définit ce qui suit;

1- Fréquences cumulées croissantes Fi (fic) : C’est F1  f 1 , F2  f 1  f 2 et i

Fi  f ic  f 1  f 2    f i   f p p 1

2- Fréquences cumulées décroissantes F’i (fid) : C’est Fr'  f r , Fr'1  f r  f r 1 et r

Fi  f id  f r  f r 1    f i   f p '

p i

Remarque 2 : De la même manière on définit les effectifs cumulés croissants Ni (nic) et les effectifs cumulés décroissants N’i (nid). N i  nic 

n p 1

N  nid  ' i

n p i

B. Cas qualitatif ordinale : Si M = {x1,x2,…,xr} désigne l’ensemble des modalités, ces valeurs sont ordonnées, c’est-à-dire : x1 ≺ x2 ≺ … ≺ xr . Avec x1≺ x2 se lit x1 précède x2. Ainsi le tableau associé est : xi x1 x2

Effectifs

n1 n2

Effectifs cumulés croissant Ni

Fréquences

f1 f2

Fréquences cumulées croissantes Fi

F1 F2

Total

Exemple : 20 chemises sont classées par taille : x1 = S, x2 = M, x3 = L, x4 = XL, et x5 = XXL. Le tableau associé est : xi x1 x2 x3 x4 x5 Total

Effectifs

4 2 5 8 1 20

Effectifs cumulés croissant Ni

4 6 11 19 20

Fréquences

0,20 0,10 0,25 0,40 0,05 1,00

Fréquences cumulées croissantes Fi

0,20 0,30 0,55 0,95 1,00

Remarque 3 : Le cas quantitatif discret se fait de la même manière que le cas qualitatif ordinal, et on obtient un tableau statistique semblable à celui du cas qualitatif ordinal. 20

Et dans le cas quantitatif continue on aura : Classes [bi-1

, bi[ Centres ci Effectifs ni

Effectifs cumulés Fréquences Fréquences cumulées fi croissantes Fi croissant Ni

[b0 , b1[

[b1 , b2[

[br-1 , br[ Total

Remarques : b  bi 1. Le centre d’une classe est : ci  i 1 , ci  x i 2 2. L’amplitude d’une classe est : a i  bi  bi 1

Exemple : La répartition de 100 ménages selon leurs dépenses de consommation mensuelles exprimées en milliers dinars se présente comme suit : Classes de dépenses

Nombre de ménages

[20-40[

[40-60[

[60-100[

[100-200[

Et le tableau associé est : Fréquences Fréquences cumulées fi croissantes Fi

Classes

Centres ci

Effectifs ni

[20- 40[

0,15

[40-60[

0,20

0,35

[60-100[

0,20

0,55

[100-200[

150

100

0,45

1,00

Total

100

Effectifs cumulés croissant Ni

1,00

Exemple pour le calcul : 1- Des fréquences cumulées décroissantes F’i et 2- Des effectifs cumulés décroissants N’i r

F  f r , F  f r  f r 1 ; Fi  f id  f r  f r 1    f i   f p et N  nid  ' r

' r 1

p i

' i

Centres ci

Effectifs ni

[20- 40[

100

0,15

1,00

[40-60[

0,20

0,85

[60-100[

0,20

0,65

[100-200[

150

0,45

100

n p i

Effectifs cumulés Fréquences Fréquences cumulées fi décroissants N’i décroissantes F’i

Classes

Total

1,00

Remarque : L’ensemble des couples ; 1- {(xi, ni)} ou encore {(xi, fi)} si la variable est discrète. 2- {([bi-1 , bi[ , ni)}), ou {([bi-1 , bi[ , fi)}) si la variable est continue. Est appelé série statistique de la variable. 23

1.2- Séries statistiques et leurs représentations: 1.2.1- Représentations graphiques - Cas qualitatif. A- Diagrammes à bandes : C’est un repère cartésien tel que : à chaque modalité Mi on associe un rectangle de base constante dont la hauteur est l’effectif ni (la fréquence fi). f8i f73 6 5f1 4 f2 3 2f4 1 0 M1

Remarque : Pour l’axe des effectifs (fréquences), on choisi une échelle arithmétique. 24

B- Diagrammes à secteurs (circulaires): C’est un graphique où, les modalités sont représentées par des portions de disque proportionnelles à leurs effectifs, ou à leurs fréquences. En effet; pour une modalité Mi, d’effectif ni, l’angle au centre αi correspondant est donné (en degré) par :

ni  i  f i  360   360 N

i

Remarque : Le diagramme à bandes et circulaire peuvent être utilisés dans le cas quantitatif. 25

Exemple : D’après une étude faite à l’école de commerce d’Oran, la répartition de 50 étudiants selon la branche du bac est reportée dans le tableau suivant : Section du bac Mi Gestion

Effectifs ni Fréquences fi

Angles αi

0,50

180°

Mathématiques

0,30

108°

Sciences exp et autres

0,20

72°

Total

1,00

360°

72° Sciences exp et autre 180° Gestion 108° Mathématiques

Et le diagramme à bandes associé est : Section du bac Mi Effectifs ni Fréquences fi

Gestion

0,50

Mathématiques

0,30

Sciences exp et autres

0,20

Total

1,00

n1 =25 n2 =15 n3 =10

1.2.2- Cas quantitatif discret : -Diagrammes en bâtons : C’est un repère cartésien tel que les valeurs sont placées en abscisse, les effectifs (ou fréquences) en ordonnée, et à chaque point (xi, 0) on associe un segment vertical dont la longueur est l’effectif ni (la fréquence fi). 27

Exemple 1 : xi

Effectifs

3 2

Total

0 2 4

8 10 12 14 16 18 20

Exemple 2 : fi

Nombre d’enfants

Fréquences % fi

2 3

35 20

17,5

12,5

Total

100

1.2.3 - Cas quantitatif continue : On représente histogramme.

une

série

statistique

continue

par

Définition : Il s’agit d’une figure obtenue sur un repère cartésien en représentant pour chaque classe [ bi-1 , bi [ un rectangle de surface Si proportionnelle à l’effectif ni ou à la fréquence fi. Les rectangles de l’histogrammes sont voisins.

Principe de construction de l’histogramme : il y’a deux (02) cas. 1er cas : Si les classes sont de même amplitude ai (ie ai = aj), on place en ordonnée les effectifs ni (ou les fréquences fi ).

Exemple :

[bi-1 , bi[

[140 , 150[ 2

0,08

[150 , 160[ 7

0,28

[160 , 170[ 8

0,32

[170 , 180[ 5

0,20

[180 , 190[ 3

0,12

S2 S3 S4 S5

Principe

Si= ai×hi

hi b i-1

2eme cas : Si les amplitudes ai sont différentes (ie ai ≠ aj), on définit; ni  La densité d’une classe par d i  et on pose; ai ni hi   a*  d i  a *  nic ai  Avec a* est appelée amplitude de référence. Elle est choisie arbitrairement de manière à faciliter la représentation graphique (valeurs sur l’axe des ordonnées).  hi est dans ce cas est appelée effectif corrigé qu’on note

nic .

Ainsi les rectangles Si seront de la manière suivante : nic ouf i

Si=ai×hi

bi-1

hi  nic ( ou f i c ) bi

Exemple : La répartition de 100 individus par classes d’âges est donnée par le tableau suivant ; Classes d’âges

Effectifs

Amplitude

[bi-1 , bi[

ai = bi-bi-1

[5 , 10[

[10 , 15[

[15, 20[

[20, 30[

[30 , 40[

[40 , 60[

[60, 80[

Total

100

Densité

ni Effectifs corrigés c di  n ai i  di  a *

2,2 2 3 2 1,8 0 ,8 0 ,5

22 20 30 20 18 08 05

Fréquences

fi 0 ,11 0 ,10 0 ,15 0,20 0 ,18 0 ,16 0 ,10 1,00

Fréq - corrig

f ic 0,22 0,20 0,30 0,20 0 ,18 0,08 0,05

Remarque : Dans cet exemple l’amplitude de référence a* = 10. 32

[bi-1 , bi[

ai =bi-bi-1

[5 , 10[

[10 , 15[

[15, 20[

[20, 30[

[30 , 40[

[40 , 60[

[60, 80[

2,2 2 3 2 1,8 0 ,8 0 ,5

Total

100

nic 22 20 30 20 18 08 05

0 ,11 0 ,10 0 ,15 0,20 0 ,18 0 ,16 0 ,10 1,00

f ic 0,22 0,20 0,30 0,20 0 ,18 0,08 0,05

nic30 25 22

20 18

L’histogramme associé à la série statistique 15

08 05

1.3- Fonction de répartition et diagramme cumulatif :

On appelle fonction de répartition d’une variable statistique quantitative toute application définie par :

F : R → [0 , 1] x → F(x) = P(X ≤ x) F(x) proportion des individus dont la valeur de la variable est strictement inférieurs ou égale à x, c’est-à-dire X ≤ x. 1- Cas variable statistique discrète :

F(x) = fréquence de (X ≤ x) = f1 + f2 +…+ fp = Fp tel que : f1 , f2 , … , fp sont les fréquences des valeurs de la variable ≤ x , si non F(x) = 0. Donc 34

0 si x  x1  F ( x )   Fi si x i  x  x i 1  1 si x r  x tel que r désigne l’ordre de la dernière valeur (modalité).

Exemple : Le tableau suivant, donne le nombre d’absences des étudiants au module d’analyse. Nbre d’absences xi Effectifs ni 0

Total

 0 0,25  F ( x )  0,65 0,85   1

si si si si si

0,25 0,40 0,20 0,15 1,00

0,25 0,65 0,85 1,00

xx  00 0 x1 1 x  2 2 x3 3 x

 0 0,25  F ( x )  0,65 0,85   1

x0 0 x1 1 x  2 2 x3 3 x

si si si si si

Ainsi on obtient la représentation de la fonction de répartition, appelée diagramme cumulatif ou diagramme intégral. F ( x) 1,00 0,9 0,8 0,7 0,6 0,5 0,4 03 0,2 01 -1

Remarque : Dans le cas discret on a une fonction en escalier . 37

Exercice : Une association de course à pieds a une équipe féminine. La liste suivante est composée des prénoms d’athlètes suivis entre parenthèses du derniers temps aux 10 Km. Aicha(51), Ahlem(49), Amel(50), Badra(58), Bouchra(55), Dalia(64), Fadia(60), Fahima(61), Fatiha(46), Fatima(56), Fouzia(50), Hajera(42), Houria(54), Ikram(48), Ilham(45), Imane(57), Jamila(59), Khadija(54), Lamia(54), Leila(46),Meriem(46), Nabila(41), Samia(39), Samira(37), Wafaa(50), Yamina(47), Yasmine(50), Zahira(44), Zakia(51), Zoulikha(59).

Le responsable de l’association décide de créer dans un ordre croissant cinq (05) équipes (classes) de niveau équivalent telles que : la 1ere équipe contient 3 athlètes, la 2eme équipe contient 3 athlètes, la 3eme équipe contient 6 athlètes, la 4eme équipe contient 9 athlètes, et la 5eme équipe contient 9 athlètes. 1. Constituer les équipes. (Faire un tableau donnant les temps minimums et maximums pour chacune des équipes).

2. Donner une représentation graphique des fréquences sous forme d’un histogramme (l’amplitude de référence a* = 1000). 3. Dessiner le polygone des fréquences.

Solution de l’exercice : 1- Constitution des équipes : La liste des athlètes est ; Aicha(51), Ahlem(49), Amel(50), Badra(58), Bouchra(55), Dalia(64), Fadia(60), Fahima(61), Fatiha (46), Fatima(56), Fouzia(50), Hajera(42), Houria(54), Ikram(48), Ilham(45), Imane(57), Jamila(59), Khadija(54), Lamia(54), Leila(46), Meriem(46), Nabila(41), Samia(39), Samira(37), Wafaa(50), Yamina(47), Yasmine(50), Zahira(44), Zakia(51), Zoulikha(59).

Et on va ranger par ordre croissant des temps : Les 3 sportives dont le temps est le plus petit (les meilleures) constitueront l’équipe 1; Equipe 1 Samira (37) Samia (39) Nabila (41)

Equipe 2 Hajera Zahira Ilham

(42) (44) (45)

Equipe 3 Leila (46) Fatiha (46) Meriem (46) Yamina (47) Ikram (48) Ahlem (49)

Equipe 4 Amel Wafaa Yasmine Fouzia Aicha Zakia Khadija Houria Lamia

(50) (50) (50) (50) (51) (51) (54) (54) (54)

Equipe 5 Bouchra Fatima Imane Badra Jamila Zoulikha Fadia Fahima Dalia

(55) (56) (57) (58) (59) (59) (60) (61) (64)

Suite de la solution de l’exercice : On a créé ainsi des « classes ». On les écrit sous forme d’intervalle, par exemple l’intervalle de temps de l’équipe 1 est :

37,42 [37 Le temps de 37 min est inclus dans l’intervalle

42[ Le temps de 42 min n’est pas inclus dans l’intervalle

On peut ainsi construire un nouveau tableau :

[bi-1 , bi[

[ 37, 42[

[42 , 46[

[46 , 50[

[50 , 55[

[55, 65[

2- Donner une représentation graphique des fréquences sous forme d’un histogramme . On va calculer les différentes amplitudes : 40

[bi-1 , bi[

ai =bi-bi-1

[ 37, 42[

[42 , 46[

[46, 50[

[50 , 55[

[55, 65[

Total

di 

ni ai

nic  d i  a *

fi (%)

f ic

600 750 1500 1800 900

0 ,10 0 ,10 0,20 0,30 0,30 1,00

20 25 50 60 30

0 ,6 0,75 1,5 1,8 0 ,9

f ic

Donc ;

30 25 20

55 57

La représentation graphique des fréquence sous forme d’histogramme

3- Dessiner le polygone des fréquences. Définition du Polygone des fréquences : Il s’agit d’une ligne brisée reliant : 1- les milieux des sommets des rectangles de l’histogramme. 2- La fermeture se fait par deux points sur l’axe des abscisses situés respectivement à un demi-intervalle de : - La borne inférieure de la première classe - et de la borne supérieure de la dernière classe. C’est-à-dire : f ic 60

Polygone des fréquences 50

30 34,5

25 20

70 20

45;46

55 57

Remarque : Le polygone des effectifs se définit de la même manière en l’associant à un histogramme des effectifs. 2- Fonction de répartition pour le cas d’une variable statistique continue : Dans ce cas on va donner juste donner la technique d’obtention de la courbe de la fonction de répartition qui est appelée courbe cumulative. En effet : F : R → [0 , 1]

→

F(x) = P(X ≤ x)

Et son diagramme (courbe cumulative), est une ligne brisée obtenue en joignant - Les différents points de coordonnés (bi croissant avec F0

,Fi ) dans l’ordre

= 0.

- Et en joignant du coté gauche du point (b0

, F0) la ½ droite y = 0 et du coté droit du point (br , Fr) la ½ droite y = 1. 43

Exemple : On reprend l’exemple de la page 32. Ainsi la courbe de la fonction de répartition, appelée courbe cumulative se dessine comme suit : (80;1,00)

F ( x)

[bi-1 , bi[

[5 , 10[

[10 , 15[

[15, 20[

[20, 30[

[30 , 40[

[40 , 60[

[60, 80[

100

0 ,11 0,11 0 ,10 0,21 0 ,15 0,36 0,20 0,56 0 ,18 0,74 0 ,16 0,90 0 ,10 1,00

(10;0,11) (15;0,21) (05;0) (20;0,36)

1,00 0,9

(40;0,74)

(30;0,56)

(60;0,90)

0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0

Téchnique de calcul d’une valeur de F(x) Pour calculer

pour x  R :

F(x),  x  R on va réaliser une interpolation

linéaire entre les points A(bi-1; F(bi-1)) = (bi-1; Fi-1) et B(bi; F(bi)) = (bi;

Fi) tels que x  [bi-1 , bi[

A(bi-1; F(bi-1))=(bi-1; Fi-1) B(bi; F(bi))=(bi; Fi) C(x; F(x))

L’équation de la droite (AB) est de la forme y = mx+p tel que : y B  y A yC  y A F bi   F bi 1  Fi  Fi 1 F  x   Fi 1 m     x B  x A xC  x A bi  bi 1 bi  bi 1 x  bi 1

 F  x   Fi 1  m  x  bi 1 

fi  x  bi 1   Fi 1  bi  bi 1

Remarque : Dans un cas contraire on peut calculer

F(x),

si on a la valeur de

en utilisant toujours une interpolation linéaire entre les

points A(bi-1; F(bi-1)) = (bi-1; Fi-1) et B(bi; F(bi)) = (bi; Fi) tels que x  [bi-1 , bi[ et ( F(x)  [Fi-1 , Fi[ ), en effet :

F  x   Fi 1 F bi   F bi 1  Fi  Fi 1   bi  bi 1 bi  bi 1 x  bi 1

 bi  bi 1    bi 1  x  ( F  x   Fi 1 )  Fi  Fi 1 

1.3- Paramètres d’une série 1.3.1- Paramètres de position : 1- La moyenne arithmétique ( moyenne ) : Notée x est égale ; 1er – Cas d’une série statistique non groupée; ie on a N observations: x1,x2,…,xN , alors la moyenne est donnée par : x1  x2    x N 1 N x  xi  N N i 1 Exemple 1 : On considère les notes obtenues en statistique par un groupe d’ étudiants : 14, 16, 12, 9, 11, 16, 7, 9, 7, 9. La moyenne de ces notes est : 14  16  12  9  11  16  7  9  7  9 x  11 10 2eme – Cas d’une série statistique groupée; la moyenne : A- Dans le cas d’une variable discrète : i r i r ni xi n1 x1  n2 x2    nr xr x    f i xi N N i 1 i 1

B- Dans le cas d’une variable continue : i r i r ni ci n1c1  n2 c2    nr cr x    f i ci N N i 1 i 1 bi 1  bi , le centre de la classe [bi-1 , bi [. Avec ci  2 Exemple 2 : Classes Centres c Effectifs n Fréquences fi ni ci i i [20-40[

0,15

450

[40-60[

0,20

1000

[60-100[

0,20

1600

[100-200[

150

0,45

6750

100

1,00

9800

Total i r

ni ci 9800 x   98  x  60  100 100 i 1 N

2- Le mode : C’est la valeur de la variable ayant le plus grand effectif (ou la fréquence la plus élevée). On note le mode Mo.

A. Cas d’une variable discrete : Exemple : On considère les notes obtenues en statistique par un groupe de 20 étudiants : 7, 13, 5, 15, 12, 9, 7, 8, 14, 16, 13, 6, 13, 10, 13, 12, 10, 7,12, 13.



10 12 13 14 15 16 2

Le mode de cette série est Mo = 13, valeur qui apparaît cinq fois. L’interprétation : Est que la note la plus fréquente est 13. Remarque : Graphiquement, dans un diagramme en bâton le mode correspond à l’abscisse du bâton le plus élevé. 49

C’est-à-dire : Mo=2

B. Cas d’une variable continue : Dans ce cas, on parle plutôt de classe modale . On a deux cas. B.1- Cas d’amplitudes identiques :(ie ai = aj  i  j) la classe modale est la classe d’effectif ni le plus élevé, soit [bi-1 , bi[ , avec le Mode Mo [bi-1 , bi[ alors : bi-1 : borne inférieure de la classe modale. bi : borne supérieure de la classe modale.  m1   Avec; a : amplitude de la classe modale. M O  bi 1  a i  i  m1  m 2  m1= ni – ni-1 et m2= ni – ni+1 .



Exemple : Soit la distribution de la population de 20 ménages selon le revenu ( en centaines de DA ) des deux parents ; Classes en CDA

Amp ai

Eff ni

Fréq fi

[200-300[

100

0,20

[300-400[

100

0,30

[400-500[

100

0,15

[500-600[

100

0,25

[600-700[

100

0,10

200

1,00

Total

La classe modale est [300 - 400[. Le mode est calculé par :  m1   60  40     300  100 M O  bi 1  a i   60  40  60  30   m1  m 2 

 M O  340 CDA Interprétation : On dit que le salaire le plus fréquent est de 340 CDA. 51

B.2- Cas d’amplitudes inégales :(ie ai  aj ) la classe modale est la c classe d’effectif corrigée ni le plus élevé (ou encore la fréquence c corrigée f i la plus élevée), est le mode Mo est tel que: bi-1 : borne inférieure de la classe modale. bi : borne supérieure de la classe modale.  m1  Avec; ai : amplitude de la classe modale.  M O  bi 1  a i   m1  m 2  m1  hi  hi 1  nic  nic1



m2  hi  hi 1  nic  nic1

Où hi , hi-1 et hi+1 sont les effectifs corrigés. Remarque 1: Dans les 2 cas on peut calculer le mode Mo en utilisant les fréquences à la place des effectifs, en prenant ; 1- m1= fi – fi-1 et m2= fi – fi+1 si (ai = aj  i  j) c c 2- m1  f i  f i 1 et

m2  f ic  f ic1 si (ai  aj ) 52

Exemple : Soit la répartition de 100 personnes selon leur âge; a* = 100 ni

Densités di Effe cor

Classes Amp ai [20 , 30[ 10

2,00

200

[30 , 40[

2,50

250

[40 , 60[

1,75

175

[60 , 80[

1,00

100

nic

La classe modale est [30 - 40[ , et le mode est :  m1   250  200    30  10   M O  bi 1  a i   250  200   250  175       m1  m 2 

 M O  34 Interprétation : L’âge le plus fréquent est de 34 ans.

Détermination graphique du mode d’une variable continue : Si la classe modale est [bi-1 , bi[ , avec le Mode Mo [bi-1 , bi[ alors :  m1   M O  bi 1  a i   m1  m 2  Et graphiquement le Mode Mo [bi-1 , bi[ sur un histogramme est le point d’intersection des deux segments [(bi-1 , hi); (bi , hi+1)] et [(bi-1 , hi-1); (bi , hi)], voir figure suivante :

(bi-1,hi-1)

(bi-1,hi)

(bi,hi+1)

(bi,hi)

3- La médiane : Pour une série statistique rangée par ordre croissant la médiane Mé est la valeur de la variable qui partage la population en deux groupes d’effectifs égaux. A. Cas d’une variable discrete : Pour une série statistique rangée par ordre croissant c’est-à-dire : v1 ≤ v2 ≤ … ≤ vN la médiane Mé est la valeur du milieu qui dépendra de l’effectif total N. 1- Si N est impair (N = 2k+1), alors Mé  v k 1 .

v k  v k 1 . 2- Si N est pair (N = 2k), alors Mé  2 Exemple 1 : Soit la répartition de 9 ménages selon le nombre d’enfants ; xi 0 1 2 3 4 ni 2 2 1 3 1 55

xi ni 

Nombre d’enfant par ménage

(ordre croissant) des individus

1 2 3 4 4 observation

7 8 9 4 observation

On a N = 9 =24+1  Mé  v k 1  v 5  2.

Exemple 2 : Soit la répartition de 10 ménages selon le nombre d’enfants ; 0 1 2 3 4 xi 2 2 1 3 2 ni



Nombre d’enfant par ménage

(ordre croissant) des individus

4 observation

v k  v k 1 On a N = 10 =25 ( pair )  Mé  2

v 5 v 6 4 observation 2 3   2,5. 2 56

B. Cas d’une variable continue : On suit les étapes suivantes; 1- Détermination de la classe médiane [bi-1 , bi[ , En cherchant la classe qui contient l’individu d’ordre k+1 (resp k) si N = 2k+1 (resp N = 2k). 2- Par interpolation linéaire, on peut calculer la médiane à l’intérieur de la classe médiane qui est donnée par :



Ni : l’effectif cumulé croissant de la  N   N i 1   classe médiane, 2  Avec; Mé  bi 1  ai  Ni-1 : l’effectif cumulé croissant de la  N i  N i 1    classe avant la classe médiane   N : l’effectif total.

Remarque : On peut déterminer la médiane de la même manière en utilisant les fréquences cumulés croissantes. 57

Et on aura la formule :



Fi : la fréquence cumulée croissante de la classe médiane,  0,5  Fi 1   Avec; Fi-1 : la fréquence cumulée croissante Mé  bi 1  ai   Fi  Fi 1  de la classe qui précède la classe médiane et N est l’effectif total.

Exemple 3 : En reprenant notre exemple sur la répartition des 100 individus selon leur âge; [bi-1 , bi[

[5 , 10[

[10 , 15[

[15, 20[

[20, 30[

[30 , 40[

[40 , 60[

[60, 80[

0 ,11 21 0 ,10 36 0 ,15 56 0, 20 74 0 ,18 90 0 ,16 100 0 ,10 11

0,11 0,21 0,36 0,56

0,74 0,90 1,00

N  50  La classe médiane est [20, 30[ et on aura : On a 2  N   N i 1    Mé  bi 1  ai  2  N i  N i 1     

 50  36   20  10 14   Mé  27 ans  Mé  20  10   20   56  36  Remarque : La médiane peut être définie comme l’inverse de la fonction de répartition pour la valeur x = 0,5 ; Mé  F 1 (0,5). On dit que l’ordre de la médiane est p = F(Mé) = 0,5. ET on peut calculer la médiane graphiquement à partir de la courbe cumulative. Exemple : En reprenant notre exemple sur la répartition des 100 individus selon leur âge.

[bi-1 , bi[ [5 , 10[ [10 , 15[ [15, 20[ [20, 30[ [30 , 40[ [40 , 60[ [60, 80[

ni 11 10 15 20 18 16 10

Ni 11 21 36 56 74 90 100

0 ,11 0 ,10 0 ,15 0,20 0 ,18 0 ,16 0 ,10

Fi 0,11 0,21 0,36 0,56 0,74 0,90 1,00

- La classe médiane est [20, 30[ et la médiane Mé est l’abscisse d’ordre

F(Mé) = 0,5 Mé  F 1 (0,5)

A(20;0,36) B(30;0,56) (40;0,74) (10;0,11)

F ( x)

(15;0,21)

(05;0)

1,00 0,9

(80;1,00) (60;0,90)

0,8 0,7 0,6 0,5 0,4

Mé

0,3 0,2 01 0

Donc l’équation de la droite (AB) est de la forme y

= mx+p tel que :

yB  y A F ( Mé )  Fi 1 Fi  Fi 1 m   xB  x A bi  bi 1 Mé  bi 1  F ( Mé )  Fi 1   0,50  0,36    20  10  Mé  bi 1  a i    0,56  0,36   Fi  Fi 1 

 Mé  27 ans

3- Les Quartiles: Les quartiles Q1, Q2 , Q3 divisent une série statistique en 4 parties d'effectifs égaux : 25 % des valeurs sont ≤ Q1 , 25 % comprises entre Q1 et Q2 ; 25 % entre Q2 et Q3 , et 25 % supérieures à Q3. Remarque : Q1, Q2 , Q3 sont respectivement l'abscisse des points d'ordonnées 0,25 ; 0,5 ; 0,75 sur la courbe cumulative croissante. Q2 est égal à la médiane. C’est-à-dire : - L’ordre de Q1 est p = F(Q1) = 0,25.

- L’ordre de Q2 est p = F(Q2 ) = F(Mé) = 0,50. - L’ordre de Q3 est p = F(Q3 ) = F(Mé) = 0,75.

4 - Calcul des Quartiles : 4.1 - Cas discret : On n’a

p l’ordre du quartile Qi , avec i = 1, 2, 3

alors : - Si (N × p) est un nombre entier, alors Qi



v  N  p   v  N  p 1

2 - Si (N × p) n’est pas un nombre entier, alors Qi= v⌈ N × p ⌉

où ⌈ N × p ⌉ représente le plus petit nombre entier supérieur ou égal à N × p ( qui est appelée partie entière avec excès ).

Exemple 1 : Soit la répartition de 12 ménages selon le nombre d’enfants ; xi 0 1 2 3 4

- Le premier quartile Q1 : Comme (N × p) = 12×0,25 = 3 est un nombre entier, on a :

Q1 

v  N  p   v  N  p 1 2

v 3  v4 1  1   2 2

 Q1  1

- Le Deuxième quartile Mé = Q2: Comme (N × p) = 12×0,50 = 6 est un nombre entier, on a :

Q2  Mé 

v  N  p   v  N  p 1 2

3 3 v6  v7  Q2  3   2 2

- Le troisième quartile Q3: Comme (N × p) = 12×0,75 = 9 est un nombre entier, on a :

Q3 

v  N  p   v  N  p 1 2

v9  v10 3  3  Q  3   3 2 2

Exemple 2 : Soit la répartition de 9 ménages selon le nombre d’enfants ; xi 0 1 2 3 4

- Le premier quartile Q1 : Comme (N × p) = 9×0,25 = 2,25 n’est pas un nombre entier, on a : Q1 = v⌈ 2,25⌉ = v3 = 1.

- Le Deuxième quartile Mé = Q2: Comme (N × p) = 9×0,50 = 4,50 n’est pas un nombre entier, on a : Q2= v⌈ 4,50⌉ = v5 = 2

- Le troisième quartile Q3: Comme (N × p) = 9×0,75 = = 6,75 n’est pas un nombre entier, on a : Q3= v⌈ 6,75⌉ = v7 = 3.

4.2 - Cas continue :

Pour le calcul de Q1, Q2, Q3 : On suit les étapes suivantes; 1- Détermination de la classe [bi-1 , bi[ de Q1  [bi-1 , bi] , En cherchant la classe qui contient l’individu d’ordre  N  p   N / 4. 2- Si Ni : l’effectif cumulé croissant de la classe de Q1 , Ni-1 : l’effectif cumulé croissant de la classe qui précède la classe de Q1 et N : l’effectif total. Fi : la fréquence cumulée croissante de la classe de Q1 , Fi-1 : la fréquence cumulée croissante de la classe qui précède la classe de Q1. Alors on aura :  0,25  Fi 1   N / 4  N i 1     bi 1  a i  Q1  bi 1  a i   Fi  Fi 1   N i  N i 1  66

Nb : Le calcul de Q2 et Q3 se fait de la même manière tel que;  0,5  Fi 1   N / 2  N i 1     bi 1  a i  Q2  Mé  bi 1  a i   Fi  Fi 1   N i  N i 1 

 N 3 / 4  N i 1   0,75  Fi 1      bi 1  a i  Q3  bi 1  a i    Fi  Fi 1   N i  N i 1 

1.3.2- Paramètres de dispersion : Remarque 1 : Les quartiles déjà vu comme paramètres de positions

peuvent être considérés comme paramètres de dispersion.

1- L’étendue : L’étendue noté E est simplement la différence entre la plus grande et la plus petite valeur observée.

E  xmax  xmin 2- L’écart interquartile : Il s’agit de l’écarts entre le premier et le dernier quartiles. C’est-à-dire;

IQ  Q3  Q1 Remarque 2 : L’écart interquartile mesure l’étendue des 50% de

valeurs situées au milieu d’une série de données classées. 68

Exemple : On prend la répartition des 100 individus selon leurs âges; [bi-1 , bi[

[5 , 10[

[10 , 15[

[15, 20[

[20, 30[

[30 , 40[

[40 , 60[

[60, 80[

0 ,11 21 0 ,10 36 0 ,15 56 0, 20 74 0 ,18 90 0 ,16 100 0 ,10 11

Fi 0,11 0,21 0,36 0,56 0,74 0,90

1,00

N

Calculons les quartiles Q1 , Q3 et l’ écart interquartile. On a :    25, 4

 3N   4   75 , Donc la classe de Q1 est [15, 20[ , celle de Q3 est [40, 60[ :  

 0,25  0,21   0,25  Fi 1    16,33 ans   Q1  15  5  Q1  bi 1  a i   0,36  0,21   Fi  Fi 1 

- Ce qui signifie que 25% des individus sont âgés de moins de 16 ans et 4 mois ( 0,3312 = 3,96  4). Et pour Q3 on aura : 69

- Pour Q3 on aura :  0,75  Fi 1   0,75  0,74    Q3  40  20   41,25 ans Q3  bi 1  a i   0,90  0,74   Fi  Fi 1 

- Ce qui signifie que 75% des individus sont âgés de moins de 41 ans

et 3 mois ( 0,2512 = 3). Donc l’écart interquartile est :

 IQ  Q3  Q1  24,92ans - Ce qui signifie que la différence d’age entre Q1 et Q3 est de 24 ans, 11 mois et 12 jours ( 0,9212 =11,04 et 0,430 =12 ).

Remarque 3 : Si N × p = Ni , alors le quantile xp = bi malgré que bi [bi-1 , bi[ et la

classe du quantile est [bi-1 , bi[ . Exemple : Soit la répartition de 100 personnes selon leur âge; Ni

Classes

[20 , 30[

0,25

[30 , 40[

0,20

0,45

[40 , 60[

0,35

0,80

[60 , 80[

100

1,00

1- Calcul du 1er quartile Q1 : On a l’ordre du 1er quartile Q1 est p = 0,25. Comme  N  p   100  0,25  25  25 , et N1 = 25, alors :

La casse de Q1 est [20, 30[, c'est à dire Q1  [20, 30]. Donc : 71

 N 1 / 4   N 0   Q1  b0  a1   N1  N 0 

 25  0   20  10   30  20,30  25  0 

Remarque 4 : On peut obtenir des valeurs approximatives des quartiles graphiquement à partir de la courbe cumulative (Voir exercice 3 de la fiche de Td 2 ).

3- La variance : La variance d’une variable X notée V(x) est la

somme des carrés des écarts à la moyenne divisée par le nombre d’observations (Effectif total N). A- Dans le cas d’une variable discrète : i r 1 i r 2 2     V ( x)  n x  x  f x  x  i i  i i N i 1 i 1 B- Dans le cas d’une variable continue : i r 1 i r 2 2     V ( x)  n c  x  f c  x  i i  i i N i 1 i 1

bi 1  bi Avec c i  , le centre de la classe [bi-1 , bi [. 2 Remarque 5 : La variance peut être écrite sous une autre forme dite « formule développée » : 73

- La formule développée de la variance est 1er – Cas d’une série statistique non groupée; ie on a N observations:  1 i r 2  2  V ( x)   x  x N  i  i 1   A- Dans le cas d’une variable discrète : i r  1 i r  2 2 2 2    V ( x)   n x  x  f x  x  N  i i   i i  i 1    i 1  B- Dans le cas d’une variable continue : i r  1 i r   2 2 2 2    V ( x)   n c  x  f c  x N  i i   i i  i 1    i 1  Preuve de la formule dévelopée : On a;





1 ir 2 2 n x  2 x x  x   n x  x   i i i  i i N i 1 i 1 1 ir x i r x 2 i r 2  V ( x)  ni x i  2 ni x i  ni    N i 1 N i 1 N i 1 74

1 V ( x)  N

i r

 1  V ( x)   N 

 2  n x  2 x . x  x  i i  i 1  i r





Remarque 5 : Cette formule développée de la variance est plus

facile à retenir et plus rapide à calculer. Remarque 6 : La variance est exprimée dans le carré de l’unité de

la variable. Par exemple, la variance de la variable âge est exprimée en « années au carré (année2)» car ;  1 V ( x)   N 

 2  n x  x  i i  i 1  i r

4- L’écart type : On appelle écart type que l’on le note par  (x) , la racine carrée de la variance :   x   V ( x ) Remarque 7 : i) L’écart type est exprimé dans la même unité de mesure que la variable. ii) Il est utilisé comme un indicateur de la dispersion de la série statistique, de façon que dans un rangement croissant la moyenne x partage la population en deux partie tel que les individus ayant la valeur de la variable inférieur à x auront approximativement x   ( x ) , les autres X  x auront

x   ( x ).





iii) Plus l’écart type est grand, plus la dispersion des observations autour de la moyenne de la variable est forte. iv) Une distribution aura un écart-type proche de 0 si ces valeurs seront ramassée autour de la moyenne. 76

Exemple 1 : Considérons les notes suivantes en statistique d’un groupe de 20 étudiants : xi 2 3 7 8 12 17 18 Total

ni.xi

ni.xi2

2 2 4 2 3 2 5 20

4 6 28 16 36 34 90 214

8 18 196 128 432 578 1620 2980

i r

ni xi 214  1 i r  Donc : x     10,7 et V ( x )    ni xi 2   x 2 N 20  N i 1  i 1 2980 2  V ( x)   10,7   V ( x )  149  114,49  34,51   ( x )  5,87 20 Donc, certains étudiants (les bons) auront approximativement la note moyenne (10,7) plus (+) 5,87 (=16,57) les autres (les mauvais) auront la note moyenne (10,7) moins (-) 5,87 (= 4,83). 77