Chapitre 2 : Série statistique à 2 variables 2.1- Introduction : Consiste en la description de deux variables X et Y mesurées simultanément sur les mêmes individus. Exemple 1 : On considère le tableau suivant, relatif à une population de 100 ménages, tel que : X = " le nombre d’enfants du ménage " et Y = " le nombre de pièces du logement " Remarque 1 : Y y1 = 3 y2 = 4 y3 = 5 Total i) La valeur 30 indique que, parmi les X 100 ménages observés, il y’a 30 x1 = 2 15 10 05 30 ménages qui ont 3 enfants et qui x2 = 3 5 10 30 45 habitent dans des logements de x3 = 4 10 5 0 15 3 pièces. x4 = 5 10 0 0 10 ii) La valeur 65 indique que, parmi les Total 100 ménages observés, il y a 65 20 15 100 65 ménages qui habitent dans des logements de 3 pièces. iii) La valeur 45 indique que, parmi les 100 ménages observés, il y a 45 ménages qui ont 3 enfants. 78
2.2- Distributions et caractéristiques : Soient X et Y deux variables mesurés sur N individus d’une population, Avec les modalités : M(X) = {x1, x2,…, xr} , M(Y) = { y1, y2,…, yk} 1- Distribution conjointe de X et Y : C’est la liste des r × p modalités conjointes (xi , yj) associées chacune à son effectif nij ou à sa fréquence fij .Ce qui donne le tableaux des contingent suivant : Y y1 y2 … yj … yk Total Les effectifs qui sont notés par nij X est le nombre de fois où la modalité x1 n11 n12 n1j n1k n1. xi de la variable X et la modalité yj de la variable Y ont été observées x2 n21 n22 n2j n2k n2. simultanément. .. .. L’effectif ni. appelé effectif marginal . de la variable X est le nombre total xi ni1 ni2 nij nik ni. d’observations de la modalité xi de la .. .. variable X . . L’effectif n.j appelé effectif marginal xr nr1 nr2 nrj nrk nr. de la variable Y est le nombre total Total n n n. j n. k N d’observations de la modalité yj de la .1 .2 variable Y. 79
2- Distributions marginales : La distribution marginale de X (resp. de Y) est la distribution de X (resp. Y) sur l’échantillon, calculée à partir de la distribution conjointe. Ces deux distributions peuvent se présenter sous forme de tableaux statistiques suivants : Distribution marginale de X
X
Effectif marginal
Distribution marginale de Y
Y
Effectif marginal
x1
n1.
y1
n.1
x2
n2.
y2
n.2
xi
ni.
yj
n. j
xr
nr.
yk
n. k
Total
N
Total
.. .. .
.. .. .
.. .. .
.. .. .
N
80
Remarque 2 : Pour deux variables X et Y mesurés sur N individus d’une population, la distribution conjointe se donne sous forme de tableaux des contingent des effectifs ou des fréquences comme suit ; Distribution conjointe en effectif de X et Y
Y y1 y2 n11 n12 n21 n22
n1j n2j
yk Total n1k n1. n2k n2.
ni1 ni2
nij
nik
ni.
xr nr1 nr2 Total n.1 n.2
nrj n. j
nrk n. k
nr. N
X x1 x2 .. .
xi .. .
…
yj
…
Distribution conjointe en fréquence de X et Y
f11 f12 f21 f22
f1j f2j
yk Total f1k f1. f2k f2.
fi1
fi2
fij
fik
fi.
xr fr1 fr2 Total f.1 f.2
frj f. j
frk f. k
fr. 1
X x1 x2 .. .
xi .. .
Y
y1
y2
…
yj
…
1) L’effectif ni . appelé effectif marginal de X est le nombre total j k d’observations de la modalité xi de la variable X. n i . n ij j1
2) L’effectif n. j appelé effectif marginal de Y est le nombre total ir d’observations de la modalité yj de la variable de Y. n . j n ij i1
81
3) L’effectif total de la distribution conjointe, noté N, peut être obtenu à partir de l’effectif marginal de X ou bien à partir de l’effectif marginal de Y : ir ik i r j k N n i . n . j n ij i1
j1
4) La fréquence conjointe, noté fi j est :
f ij
i1
j1
n ij
N 5) La fréquence fi . appelée fréquence marginale de X est le nombre : j k ni. f i. f ij N j1 6) La fréquence f. j appelée fréquence marginale de Y est le nombre : ir n. j f.j f ij N i1 et ir ik i r j k f i . f . j f ij 1 i1
j1
i1
j1
82
7) Les moyennes marginales et les variances marginales : Distribution marginale de Y Effectif marginal Y
Distribution marginale de X Effectif marginal X
x1 x2
n1. n2.
y1 y2
n.1 n.2
x .. i .
ni.
yj
n. j
xr Total
nr. N
yk Total
n. k N
.. .
.. . .. .
Les moyennes marginales de X et de Y, ainsi que les variances marginales se calculent à partir des distributions marginales suivant les formules suivantes : jk jk ir
ir ni. x i y x fi. x i; N i1 i1 1 ir 2 V (x) n x x i. i N i1 1 j k 2 V ( y) n y y .j j N j1
j1
ir
n. j y j N
f. j y j
j1
f i . x i x ;
f.j y j y
i1 j k j1
2
2
83
Exemple 2 : On considère le tableau (1) des effectifs suivant, relatif à une population de 20 adolescents, tel que : X = " la taille" et Y = " le poids"
Y
[40,50[
[50,70[
[70,90[
Total
[120,140[
2
1
0
3
[140,160[
2
6
0
8
[160,180[
1
3
5
9
Total
5
10
5
20
X
Donc la distribution conjointe en fréquences est : f ij
X
Y
Y
f.j
0,15
[40,50[
0,25
[140,160[
0,40
[50,70[
0,50
[160,180[
0,45
[70,90[
0,25
Total
1,00
Total
1,00
X
fi .
[120,140[
0,45 1,00
0,10
0,05
0,00
0,15
[140,160[
0,10
0,30
0,00
0,40
[160,180[
0,05
0,15
0,25
Total
0,25
0,50
0,25
N
Distribution marginale en fréquence Y
Distribution marginale en fréquence de X
[40,50[ [50,70[ [70,90[ Total
[120,140[
n ij
et
84
De même on obtient à partir du tableau (1) les distributions marginales des effectifs, en introduisant les centres des classes pour calculer les moyennes et les variances marginales : Distribution marginale en effectif Y
Distribution marginale en effectif de X
ci ni . ci ni . ci2
X
ni .
[120,140[
3
130 390
[140,160[
8
150 1200 180000
[160,180[
9
170 1530 260100
Total
20
3120 490800
50700
et
cj n. j cj nj . cj2
Y
n.j
[40,50[
5
45
[50,70[
10
60
225 600
[70,90[
5
80
400
Total
20
10125 36000
32000 1225 78125
Donc les moyennes marginales de X et de Y sont :
x
3120 156 20
cm
et
1225 y 61 , 25 20
Et les variances marginales de X et de Y sont :
1 V ( x ) N
kg
490800 2 2 n c x 24540 24336 V ( x ) 204 156 i. i 20 i 1 1 j3 2 78125 2 et V ( y ) n. j c j y 2 61 , 25 154 , 69 20 N j 1 85 i3
2
8) Distributions conditionnelles : Les distributions conditionnelles s'obtiennent en fixant la valeur d’une des deux variables (où la modalité d’une des deux variables). Exemple 3 : On considère le tableau suivant, relatif à une population de 100 ménages, tel que : X = " le nombre d’enfants du ménage " et Y = " le nombre de pièces du logement "
X
Y
y1 = 3 y2 = 4 y3 = 5 Total
x1 = 2
15
10
05
30
x2 = 3
30
5
10
45
x3 = 4
10
5
0
15
x4 = 5
10
0
0
10
65
20
15
100
Total
1- La distribution conditionnelle de X sachant Y = 3 est donnée par la première colonne du tableau. 2- La distribution conditionnelle de X sachant Y = 4 est donnée par la deuxième colonne du tableau. 86
X
Y
y1 = 3 y2 = 4 y3 = 5 Total
x1 = 2
15
10
05
30
x2 = 3
30
5
10
45
x3 = 4
10
5
0
15
x4 = 5
10
0
0
10
Total
65
20
15
100
3- La distribution conditionnelle de Y sachant X = 2 est donnée par la première ligne du tableau. 4- De même, la distribution conditionnelle de Y sachant X = 5 est donnée par la quatrième ligne du tableau.
Ces quatre distributions se présentent dans les tableaux suivants : Distribution conditionnelle
Distribution conditionnelle
de X sachant Y = 3
de X sachant Y = 4
X / Y = 3 ni /1
X/ Y=4
ni /2
Distribution conditionnelle
de Y sachant X = 2
Y / X = 2 nj / 1
Distribution conditionnelle
de Y sachant X = 5
Y/ X=5
nj / 4
x1 = 2
15
x1 = 2
10
x2 = 3
30
x2 = 3
5
y1 = 3
15
y1 = 3
10
x3 = 4
10
x3 = 4
5
y2 = 4
10
y2 = 4
0
x4 = 5
10
x4 = 5
0
y3 = 5
05
y3 = 5
0
Total
65
Total
20
Total
30
Total
10
-1-
-2-
-3-
-4-
87
Remarque 2 : ni /1
= ni 1 ; ni /2 = ni 2 ; nj / 1 = n1 j ; nj / 4 = n4 j .
En général si on prend le tableau des contingent des effectifs suivant: X x1 x2 .. .
xi .. .
Y y1 y2 n11 n12 n21 n22 ni1 ni2
xr nr1 nr2 Total n.1 n.2
yj
…
…
n1j n2j nij nrj n. j
yk Total n1k n1. n2k n2. nik nrk n. k
ni .
Distribution conditionnelle
Distribution conditionnelle
de X sachant Y = yj
de Y sachant X = xi
X / Y = y j ni / j
Y / X = xi nj / i
x1 x2
n1j n2j
xi xr
.. . .. .
nr. N
Total
y1 y2
ni1 ni2
ni j
yj
ni j
nrj n. j
yk
nik ni .
et
.. . .. .
Total
Remarque 3 : La distribution conditionnelle de chacune des variables X et Y peut être définie à partir des fréquences. Dans le cas de la distribution conditionnelle de X sachant Y = yj , on a :
fi/ j
n ij
n. j
n ij N
n. j N
f ij
f.j
r
;
Avec
i1
fi/ j 1 88
Dans le cas de la distribution conditionnelle de Y sachant X = xi , on a :
f
j/i
n ij ni.
n ij N
ni. N
f ij
f i.
k
Avec
;
j1
f
j/i
1
Exemple 3 : On reprend l’exemple 3 des 100 ménages en calculant les distribution conditionnelles en fréquences de X sachant Y = 4 et de Y sachant X = 2 : Distribution conjointe en effectifs
X
Y
y1 = 3 y2 = 4 y3 = 5 Total
x1 = 2
15
10
05
30
x2 = 3
30
5
10
45
x3 = 4
10
5
0
15
x4 = 5
10
0
0
10
65
20
15
100
Total
89
Distribution conjointe en effectifs
X 1ere méthode : En passant par les distributions conditionnelles des effectifs.
ni /2
x1 = 2
10
x2 = 3
5
x3 = 4
5
x4 = 5
0
Total
20
15
10
05
30
x2 = 3
30
5
10
45
x3 = 4
10
5
0
15
x4 = 5
10
0
0
10
65
20
15
100
Distribution conditionnelle
Distribution conditionnelle
X/ Y=4
y1 = 3 y2 = 4 y3 = 5 Total
x1 = 2
Total
en effectifs de X sachant Y = 4
Y
en fréquences de X sachant Y = 4
Distribution conditionnelle
X/ Y=4
fi /2
x1 = 2
0,50
x2 = 3
0,25
y2 = 4
15 10
x3 = 4
0,25
y3 = 5
05
x4 = 5
0
Total
30
Total
1,00
en effectifs de Y sachant X = 2
Y / X = 2 nj / 1 y1 = 3
Distribution conditionnelle
en fréquences de Y sachant X = 2
Y/ X=2
fj / 1
y1 = 3
0,50 0,33
y2 = 4 y3 = 5
0,17
Total
1,00 90
2eme méthode : En passant par la distribution Conjointe en fréquences.
Distribution conjointe en effectifs
X
Y
y1 = 3 y2 = 4 y3 = 5 Total
x1 = 2
15
10
05
30
Distribution conjointe en fréquences
x2 = 3
30
5
10
45
y1 = 3 y2 = 4 y3 = 5 Total
x3 = 4
10
5
0
15
0,05 0,30 0,10 0,45 0,15 0
x4 = 5
10
0
0
10
65
20
15
100
Y
X
x3 = 4
0,15 0,10 0,30 0,05 0,10 0,05
x4 = 5
0,10
x1 = 2 x2 = 3
Total
0
0
0,65 0,20
Total
Distribution conditionnelle
en fréquences de X sachant Y = 4
0,10
0,15 1,00
En utilisant les formules
fi/ j
f ij
f.j
et
f
j/i
f ij
f i.
Distribution conditionnelle
de Y sachant X = 2
X/ Y=4
fi /2
Y/ X=2
fj / 1
x1 = 2
0,50
y1 = 3
x2 = 3
0,25
y2 = 4
0,50 0,33
x3 = 4
0,25
y3 = 5
0,17
x4 = 5
0
Total
1,00
Total
1,00
91
Remarque 4 : fi /1
fi 1 ; fi /2 fi 2 ; fj / 1 f1 j ; fj / 4 f4 j .
Définition : Les variables X et Y sont indépendantes si et seulement si
i , j f ij f i . f . j
Remarque : i , j : f f f n n i . n . j ij i. .j ij
N
Exemple 4 : Tableau associé à deux variables indépendantes. Les variables X et Y sont indépendantes car : 1 2 3 4
n 1 . n .1 N n 1 . n .2 N n 1 . n .3 N n 2 . n .1 N
18 6 2 n 11 54 18 12 4 n 12 54 18 36 12 n 13 54 36 6 4 n 21 54
5 6
X
Y
y1 = 3 y2 = 4 y3 = 5 Total
x1 = 2 x2 = 3
2 4
4 8
12 24
18 36
Total
6
12
36
54
n 2 . n .2 36 12 8 n 22 N 54 n 2 . n .3 36 36 24 n 23 N 54 92
Remarque : Dans toute la suite on considère N observations sur les deux variables X et Y . 2.3 - Covariance entre X et Y : La covariance est égale à la moyenne des écarts des couples les (xi , yi) de X et Y par rapport au point x , y . 1 i N x i x y i y Cov ( x , y ) N i1 Rôle de la covariance : La covariance indique le sens de la relation entre les variables X et Y . Ainsi, On peut distinguer les cas suivants : 1er Cas : Si Cov(x, y) > 0 , alors on peut dire que la relation entre les deux variables est positive. Dans ce cas, ces deux variables varient dans le même sens. 2eme Cas : Si Cov(x, y) < 0, alors on peut dire que la relation entre les deux variables est négative. Dans ce cas, ces deux variables varient en sens inverse. 3eme Cas : Si Cov(x, y) = 0, alors on peut dire qu’il n’y a pas de relation entre les deux variables. Dans ce cas, les variations de l’une n’entraînent pas la variation de l’autre. 93
2.3.1 – Proprités de la covariance : P.1) Cov ( ax b , cy d ) ac .Cov ( x , y ) P.2) Cov ( y , x ) Cov ( x , y ) P.3) Cov ( x , x ) V ( x ) 1 P.4) Cov ( x , y ) N
i N
i1
x i y i
x . y
94
2.3.2 - Le coefficient de corrélation linéaire entre X et Y : Le coefficient de corrélation linéaire entre X et Y est : Cov ( x , y ) Cov ( x , y ) rx , y ( x ) ( y ) V ( x )V ( y ) Remarque 1 : Le coefficient de corrélation linéaire est un nombre sans dimension, car ; Cov ( x , y ) 1 i N rx , y x i x y i y et Cov ( x , y ) ( x ) ( y ) N i1 2.3.3 – Proprités du coefficient de corrélation linéaire : P.1) rax b , cy d Signe de a Signe de c . r x , y
P.2)
r y , x rx , y
P.3)
rx , x 1
Remarque 2 : Le coefficient de corrélation linéaire est compris entre -1 et 1, c’est-à-dire : 1 r 1 x,y
95
Remarque 3 : Le coefficient de corrélation linéaire permet de mesurer le degré ou l’intensité de la liaison linéaire entre deux variables statistiques. C’est-à-dire : 1) Si rx , y = 1 , on dit qu’il y a une parfaite corrélation linéaire positive entre les deux variables.
2) Si rx , y = -1 , on dit qu’il y a une parfaite corrélation linéaire négative entre les deux variables. 3) Si rx , y = 0 , on dit qu’il y a absence de corrélation linéaire entre les deux variables. 4) On dit qu’il y a une forte corrélation linéaire entre les deux variables (ou forte dépendance linéaire) si r est proche de 1. 5) En revanche, si r est proche de zéro (0), on dit qu’il y a une faible corrélation linéaire entre les deux variables. 96
2.4- Ajustement d’un nuage de points : Nuage de points : Ensemble de points isolés représentés dans un graphique cartésien; c’est-à-dire des points M1, M2, ... , Mn de coordonnées ( x1 , y1 ) ; ( x2 , y2 ) ; ... ; ( xn , yn ). Exemple 1 : Tableau associé à deux variables mesurées sur 13 bébés tels que; X = " le poids du bébé" et Y = " la taille du bébé " Le nuage des points de coordonnées ( 3,3 ; 49,4 ); ( 3,8 ; 52,4 ); ( 4,6 ; 55,6 ); ( 5,4 ; 58,7 ); ( 6,0 ; 61,0 ); ( 6,6 ; 63,0 ); ( 7,1 ; 64,8 ); ( 7,6 ; 66,4 ); ( 8,1 ; 67,8 ); ( 8,4 ; 69,0 ); ( 8,7 ; 70,3 ); ( 9,0 ; 72,6 ); ( 9,3 ; 72,9 ) est : ( 9,3 ; 72,9 ) ( 5,4 ; 58,7 ) ( 6,0 ; 61,0 ) ( 4,6 ; 55,6 ) ( 9,0 ; 72,6 ) ( 3,8 ; 52,4 ) ( 8,1 ; 67,8 ) ( 6,6 ; 63,0 )
( 7,6 ; 66,4 )
( 7,1 ; 64,8 ) ( 3,3 ; 49,4 )
97
Le nuage des points de coordonnées ( 3,3 ; 49,4 ); ( 3,8 ; 52,4 ); ( 4,6 ; 55,6 ); ( 5,4 ; 58,7 ); ( 6,0 ; 61,0 ); ( 6,6 ; 63,0 ); ( 7,1 ; 64,8 ); ( 7,6 ; 66,4 ); ( 8,1 ; 67,8 ); ( 8,4 ; 69,0 ); ( 8,7 ; 70,3 ); ( 9,0 ; 72,6 ); ( 9,3 ; 72,9 ) est :
Evolution Taille – Masse (Enfants de 13 bébés)
98
Exercice : Le tableau suivant donne la distance de freinage d'un véhicule automobile sur route sèche, en fonction de sa vitesse. Vitesse en Km/h ( xi ) Distance en m ( yi ) 40
8
50
12
60
18
80
32
100
48
1- Construire le nuage des points. 2- Calculer la covariance entre la vitesse ( X ) et la distance ( Y ). Que peut on déduire sur la relation entre X et Y . 3- Calculer le coefficient de corrélation linéaire, conclure sur l’intensité de la liaison entre X et Y . 99
60
Y
i
1- Le nuage des points ( xi , yi)
1
50
40
30
20
xi
yi
xi yi
40
8
320
2
50
12
600
3
60
18
1080
4
80
32
2560
5
100
48
4800
Total 330
118
9360
10
05
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
X
2- Calcule de la covariance entre la vitesse ( X ) et la distance ( Y ). 1 N 1 i5 1 N Cov ( x , y ) x i y i x . y avec x xi , y yi N i 1 N i 1 5 i1 9360 118 330 66 23,6 1872 1557,6 23,6 Cov( x, y) x 66; y 5 5 5
Cov( x, y) 314,4
100
Comme Cov(x, y) > 0 alors la relation entre la vitesse et la distance de freinage est positive et les 2 variables varient dans le même sens. 3- Calculer le coefficient de corrélation linéaire.
Cov ( x , y ) avec rx , y V ( x )V ( y ) 1 ir 2 2 et V ( x ) x x i N i 1 1 ir 2 2 V ( y ) y y i N i 1
yi2
yi
x i yi
40
8
x i2
320
1600
64
2
50
12
600
2500
144
3
60
18
1080
3600
324
4
80
32
2560
6400
1024
5
100
48
4800
10000
2304
Total 330
118
9360
24100
3860
i 1
xi
24100 2 V ( x) 66 4820 4356 V ( x ) 464 5 3860 2 et V ( y ) 23 ,6 772 556 ,96 V ( y ) 215 ,04 5 314 , 4 rx , y r x , y 0 , 99 464 215 , 04 Les variables varient dans le même sens. La valeur de rx , y , proche de 1, cela traduit une forte corrélation linéaire entre les deux variables. 101
2.4.1- Ajustement linéaire d’un nuage de points : On considère N observations sur les deux variables X et Y . Donc; 1- Ces observations peuvent être représentées par un nuage de points. 2- Notre but est d’exprimer Y en fonction de X,
3- La représentation du nuage de points peut nous renseigner sur l’allure de la courbe de régression. Remarque : 1. L’ajustement linéaire consiste à trouver l’équation d’une droite du type y = ax + b , appelée droite de régression. Cette droite donne l’évolution de la variable Y (variable expliquée) en fonction de la variable explicative X.
2. La méthode d’ajustement que nous allons exposer est appelée « méthode des Moindres Carrés Ordinaires» ou simplement « MCO ». 102
Méthode des Moindres Carrés Ordinaires : Considérons N couples d’observations ( xi , yi ), leurs nuage est :
Droite de régression
Donc les couples ( xi , yi) vérifient :
y i ax i b i i 1 , , N yi
où i représente le résidu du couple ( xi , yi) . On peut alors écrire : i y i ax i b
axi+b
i
xi
Remarque :La méthode MCO consiste à minimiser i N
i N
i 1
i 1
2 i
2 y ax b i i
i N
2 i tels que : i 1
f (a , b )
Les deux conditions de premier ordre de la minimisation de cette fonction f par rapport à a et à b sont : i N 2 i N 2 i i i 1 0 et i 1 0 a b 103
i N 2 i N 2 i i i 1 0 et i 1 0 a b
iN 2 i i N i N i 1 2 yi ax i b x i 0 yi ax i b x i 0 a i 1 i 1 iN 2 i i N iN et i 1 2 yi ax i b 1 0 yi ax i b 0 b i 1 i 1
(1 )
y x ax
i N
i 1 iN
i
i
i
2
yx
bx i i N
i N
i 1 i N
i
i N
i
i 1
i 1
i 1
( 2)
i N
a xi b xi 0 2
i 1
( 2) yi ax i b yi a xi Nb 0
(1)
(3)
i 1
( 4)
En divisant les deux membres de l’équation (4) par N, on obtient : 1 i N 1 i N a i N Nb 1 i N yi xi 0 Sachant que : x xi et y yi N i 1 N i 1 N i 1 N N i 1 Donc l’équation devient : y ax b 0 (5) b y ax 104
En remplaçant, dans l’équation (3), b par y ax d’après l’équation (5), i N i N i N 2 On obtient : y i x i a x i y a x x i 0
i 1 i N
yx i
i 1
i N
i
i 1
i N
i N
a x i y x i ax x i 0 i 1 i 1 i 1 2
N .x
i N
N .x
y i x i a x i N x . y aN x 2 0
i 1 i N
i 1 i N
i 1
2
i 1
i N 2 2 y i x i N x . y a x i N x i 1
Ainsi, on obtient la valeur estimée de la pente de la droite de régression : i N
aˆ
x i 1 i N
i
y i Nx . y
bˆ y aˆx
2
x i Nx 2
i 1
Donc l’équation de la droite de régression est : y aˆ x bˆ
105
Proposition 1 : On peut aussi calculer la valeur estimée de la pente de la droite de régression en utilisant l’une de ces deux expressions. 1ère expression :
Cov ( x , y ) aˆ V ( x) i N
2ème expression :
aˆ
x i1
i
i N
x y i y
x i
x
2
i1
106
Preuve : En effet ; i N
aˆ
x i 1 i N
i
y i Nx . y
i N i N 1 x i y i N x . y xi y i x . y N i 1 i 1 i N i N 1 1 2 2 2 x x x i N x 2 i N N i 1 i 1
1 N
2
x i Nx 2
i 1
i N
aˆ
Cov ( x , y ) V ( x)
aˆ
et
x i1
i
i N
x y i y
x i
x
2
i1
Proposition 2 : La droite de régression passe par le point moyen de coordonnées x , y .
Preuve : En effet, Comme, bˆ y aˆ x
y aˆx bˆ 107
Exercice : Le tableau suivant donne la distance de freinage d'un
véhicule automobile sur route sèche, en fonction de sa vitesse. 1- Construire le nuage des points. Vitesse en Km/h ( xi ) Distance en m ( yi ) 40 8 2- Calculer la covariance entre la 50 12 vitesse ( X ) et la distance ( Y ). 60 18 Que peut on déduire sur la relation 80 32 entre X et Y . 48 100 3- Calculer le coefficient de corrélation linéaire, conclure sur l’intensité de la liaison entre X et Y . 4- Déterminer, en utilisant la méthode des moindres carrés, l'équation de la droite de régression permettant d'estimer la distance de freinage en fonction de la vitesse du véhicule. 5- Interpréter la pente et la constante de l'équation de la droite obtenue. 6- A combien peut-on estimer la distance de freinage d'un véhicule roulant à 120 km/h. 7- Déterminer cette même droite sachant qu'une sixième mesure a donné pour : xi = 0 ; yi = 0 .
108
60
Y
i
1- Le nuage des points ( xi , yi)
1
50
40
30
20
xi
yi
xi yi
40
8
320
2
50
12
600
3
60
18
1080
4
80
32
2560
5
100
48
4800
Total 330
118
9360
10
05
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
X
2- Calcule de la covariance entre la vitesse ( X ) et la distance ( Y ). 1 N 1 i5 1 N Cov ( x , y ) x i y i x . y avec x xi , y yi N i 1 N i 1 5 i1 9360 118 330 66 23,6 1872 1557,6 23,6 Cov( x, y) x 66; y 5 5 5
Cov( x, y) 314,4
109
Comme Cov(x, y) > 0 alors la relation entre la vitesse et la distance de freinage est positive et les 2 variables varient dans le même sens. 3- Calculer le coefficient de corrélation linéaire.
Cov ( x , y ) avec rx , y V ( x )V ( y ) 1 ir 2 2 et V ( x ) x x i N i 1 1 ir 2 2 V ( y ) y y i N i 1
yi2
yi
x i yi
40
8
x i2
320
1600
64
2
50
12
600
2500
144
3
60
18
1080
3600
324
4
80
32
2560
6400
1024
5
100
48
4800
10000
2304
Total 330
118
9360
24100
3860
i 1
xi
24100 2 V ( x) 66 4820 4356 V ( x ) 464 5 3860 2 et V ( y ) 23 ,6 772 556 ,96 V ( y ) 215 ,04 5 314 , 4 rx , y r x , y 0 , 99 464 215 , 04 Les variables varient dans le même sens. La valeur de rx , y , proche de 1, cela traduit une forte corrélation linéaire entre les deux variables. 110
4- L'équation de la droite de régression permettant d'estimer la distance de freinage en fonction de la vitesse du véhicule. La pente de cette droite de régression est obtenue par : i N
aˆ
x i 1 i N
i
y i Nx . y 2
x i Nx 2
i 1
aˆ
9360 5 66 23 ,6 24100 5 66 2
yi2
yi
x i yi
40
8
x i2
320
1600
64
2
50
12
600
2500
144
3
60
18
1080
3600
324
4
80
32
2560
6400
1024
5
100
48
4800
10000
2304
Total 330
118
9360
24100
3860
i 1
xi
aˆ 0 ,67
De plus l'ordonnée à l'origine est égale à : bˆ y aˆx 23,6 0,67 66 bˆ 20,62 Donc L'équation s'écrit :
y 0 , 67 x 20 , 62 111
5- Interprétation de la pente â et la constante de l'équation de la droite obtenue : - Interprétation de la pente â = 0,67 : Lorsque la vitesse augmente de 1 km/h la distance de freinage augmente de â = 0,67m. En effet, Y 0 ,67 X . - Interprétation de la constante b̂ 20 ,62 : La constante b̂ 20 ,62 Indique que à l’arrêt le véhicule Est en retard d’une distance de 20,62m. 6- A combien peut-on estimer la distance de freinage d'un véhicule roulant à 120 km/h : L'équation étant : y = 0,67x - 20,62. En remplaçant x par 120 on obtient :
y = 0,67120 -20,62 = 59,78 . Donc la distance de freinage d'un véhicule roulant à 120 km/h est y = 59,78 m . 112
7- Déterminer cette même droite sachant qu'une sixième mesure a donné pour : xi = 0 ; yi = 0 . C’est-à-dire l’équation des moindres carrés avec (xi = 0 ; yi = 0) Il suffit de refaire les calculs avec les mêmes sommes mais en divisant par le nouveau nombre d'observations qui est égal à 6.
330 118 x 55; y 19,67 6 6 i N
aˆ
yx i 1 i N
i
i 2
Nx . y
x i Nx 2
9360 6 55 19 ,67 aˆ 0 ,48 2 24100 6 55
i 1
bˆ y aˆx 19,67 0,48 55 bˆ 6,74
Donc L'équation s'écrit : y 0 , 48 x 6 , 74
113
2.4.2- Ajustement non linéaire d’un nuage de points : On considère N observations sur les deux variables X et Y . Dans le cas général, la relation entre X et Y semble être plutôt non
linéaire, c’est-à-dire n’est pas de la forme y = ax + b. Etude du cas hypebolique :
La fonction permettant de représenter le nuage de points par une
b fonction hyperbolique du type : y a x
avec
a 0, b 0
Dans ce cas le nuage aura l’allure suivante :
114
Comment peut-on estimer b et a ? Nous sommes en présence d’une relation non linéaire entre y et x. Afin d’utiliser la méthode des MCO, il faut d’abord retrouver, moyennant une transformation, dans ce cas logarithmique, une forme linéaire : On cherche a et b tels que :
b y a bx a x
*
En utilisant le logarithme népérien dans l’équation (*) on trouve :
ln y ln bx a ln b a ln x Et si on supposons que :
ln b et a
Le modèle linéaire est alors de la forme :
ln y ln x
* *
Donc en utilisant la méthode des MCO, on peut retrouver et :
115
i N
Cov (ln x , ln y ) ˆ V (ln x )
ln x ln y N ln x .ln y i
i 1
i N
ln x i 1
et
i
2
i
N ln x
2
ˆ ln y ˆ ln x
On peut maintenant retrouver la valeur de b et la valeur de a : ˆ ˆ ln b b e
et
a aˆ ˆ
116
Exercice 1 : Une entreprise fabrique un équipement. Le prix
unitaire Y (en Dollar) de ce produit est en fonction du nombre X d’unités produites. On a relevé les résultats suivants. Unités produites ( xi )
Prix unitaire ( yi )
2
150
3
50
5
20
8
11
10
6
12
5
1- Construire le nuage des points. 2- Compte tenue de cette représentation, donner la forme théorique de l’ajustement de ce nuage de points. 3- Déterminer explicitement la fonction qui donne la relation entre les deux variables. 117
1- Construire le nuage des points. 160 140 120 100 80 60 40 20 0 0
2
4
6
8
10
12
14
2- Compte tenue de cette représentation, donner la forme théorique de l’ajustement de ce nuage de points. Réponse : L’allure du nuage ressemble à une hyperbole, donc la forme théorique de l’ajustement de ce nuage de points est une forme hyperbolique de la forme :
b y a bx a avec a 0, b 0 x
118
3- Déterminer explicitement la fonction qui donne la relation entre les deux variables. Réponse : D’après 2 cette fonction est de la forme :
b y a bx a avec a 0, b 0 x ln y ln bx a ln b a ln x Posons :
ln b et a ln y ln x
En considérant les deux (02) nouvelles variables et en utilisant la méthode des MCO, on peut retrouver et , tels que : i N
̂
ln x ln y N ln x .ln y i
i 1
i
i N
ln x i 1
2
i
N ln x
et ˆ ln y ˆ ln x
2
119
i N
ˆ
ln i1
i
xi
yi
lnxi
lnyi
1 2 3 4 5 6 Total
2 3 5 8 10 12 40
150 50 20 11 6 5 242
0,69
5,01
1,10
3,91
1,61 2,08
3,00 2,40
2,30
1,79
2,48 10,26
1,61
x i ln y i N ln x . ln y
i N
ln i1
x i N ln x 2
2
17,72
et ˆ ln y ˆ ln x
1 6 1 6 10 , 26 On a : ln x ln xi ln xi ln x 1,71 N 1 6 1 6 17 ,72 1 6 1 6 et 2 ,95 ln y i ln y i ln y ln y 6 N 1 6 1 120
i N
ˆ
ln i1
x i ln y i N ln x . ln y
i N
ln i1
x i N ln x 2
2
25 , 69 6 1 , 71 2 , 95 ˆ 2 20 , 05 6 1 , 71
ˆ
25 , 69 30 , 267 20 , 05 17 , 5446
4 , 577 ˆ 1 , 83 2 , 506
i 1 2 3 4 5 6 Total
lnxi lnyi (lnxi )2 (lnxi ).(lnyi ) 0,69
5,01
0,48
3,46
1,10
3,91
1,21
4,30
1,61
2, 59
4, 83
2,08
3,00 2,40
4,33
4,99
2,30
1,79
5,29
4,12
2,48 1,61 10,26 17,72
6,15 20,05
3,99 25,69
a ˆ 1 , 83
ˆ ln y ˆ ln x 2 , 95 1 , 83 1 , 71 ˆ 3 ,18
b e e 3 ,18 0 , 04 Donc la relation entre les deux variables est donnée par la fonction est de la forme :
b y a bx a y 0,4. x 1, 83 x
121
Exercice 2 : Une entreprise fabrique un équipement. Le prix
unitaire Y (en Dollar) de ce produit est en fonction du nombre X d’unités produites. On a relevé les résultats suivants. X Y
22
23
24
30
60
174
120
60
25
10
4
1
1- Calculer la covariance entre le nombre d’unités produites (X ) et le prix unitaire (Y ). Que peut on déduire sur la relation entre X et Y. 2- Calculer le coefficient de corrélation linéaire rx,y . Conclure sur l’intensité de la liaison entre les deux variables X et Y. 3- Représenter le nuage de points (xi , yi). 4- Compte tenue de cette représentation, donner la forme de l’ajustement de ce nuage de points et retrouver la relation entre les deux variables X et Y. 5- Quelle est Le prix unitaire du produit avec cette approximation pour produire 15 unités. 122
1- Calcule de la covariance entre le nombre d’unités produites (X ) et le prix unitaire (Y ). 1 N 1 N 1 i6 Cov ( x , y ) x i y i x . y avec x xi , y yi N i 1 N i 1 6 i 1
Total
xi
yi
xi 2
xi . y i
22
120
484
2640
23
60
529
1380
24
25
576
600
30
10
900
300
60
4
3600
240
174
1
30276
174
333
220
36365
5334
220 5334 333 y 36 , 667 Cov ( x , y ) 55 ,5 36 ,667 x 55,5; 6 6 6
Cov ( x , y ) 889 2035,019 1146,019 123
On a Cov(x, y) < 0, alors la relation entre les deux variables est négative. Dans ce cas, ces deux variables varient en sens inverse.
2- Calculer le coefficient de corrélation linéaire rx,y . Conclure sur l’intensité de la liaison entre les deux variables X et Y. rx , y
Cov ( x , y ) Cov ( x , y ) ( x ) ( y ) V ( x )V ( y )
1 V ( x ) N
avec
2 36365 2 2 x x 55 , 5 i 6 i 1 ir
V ( x ) 2980,583
xi
yi
xi 2
xi . y i
y i2
22
120
484
2640
14400
23
60
529
1380
3600
24
25
576
600
625
30
10
900
300
100
60
4
3600
240
16
174
1
30276
174
1
1 Total 333 220 36365 5334 et V ( y ) y i 2 y 2 N i 1 18742 2 V( y ) 36 ,667 3123 ,667 1344 ,469 1779 ,198 6 i r
18742
124
rx , y
Cov ( x , y ) ( x ) ( y )
rx , y
1146 ,019 2980 ,583 1779 ,198
1146 ,019 1146 ,019 0 ,498 2302 ,835 5303047 ,312
La valeur de rx ,y n’est pas proche ni de 1 ni de 0 cela traduit qu’il n’ya pas ni forte corrélation linéaire entre les deux variables ni faible corrélation linéaire. Il y’a une juste moyenne corrélation linéaire entre les deux variables (La valeur de rx,y est proche de 0,5).
125
3- Représenter le nuage de points (xi , yi). X Y
22
23
24
30
60
174
120
60
25
10
4
1
140
( 22 ; 120 )
120
100
80
( 23 ; 60 ) 60
( 24 ; 25 ) 40
( 30 ; 10 ) 20
( 60 ; 4 )
( 174 ; 1 )
0 0
20
40
60
80
100
120
140
160
180
200
126
4- Compte tenue de cette représentation, donner la forme de l’ajustement de ce nuage de points et retrouver la relation entre les deux variables X et Y. - L’allure du nuage ressemble à une hyperbole, donc la forme théorique de l’ajustement de ce nuage de points est une forme hyperbolique de la forme :
b y a bx a avec a 0, b 0 x ln y ln bx a ln b a ln x Posons :
ln b et a
ln y ln x En considérant les deux (02) nouvelles variables et en utilisant la méthode des MCO, on peut retrouver et , tels que :
127
i N
ˆ
ln i1
x i ln y i N ln x .ln y
i N
ln i1
xi
Total
Donc :
2 xi
yi
N ln x
2
et ˆ ln y ˆ ln x
(lnxi)(lnyi) (lnxi )2
lnxi
lnyi
22
120 3,091
4,787
14,797
9,554
23
60
3,135
4,094
12,835
9,828
24
25
3,178
3,219
10,230
10,100
30
10
3,401
2,303
7,833
11,567
60
4
4,094
1,386
5,674
16,761
174
1
5,159
0
0
26,615
51,369
84,425
333 220 22,058 15,789
1 6 22,058 ln x ln x i 3,676 6 i 1 6 1 6 15,789 ln y ln y i 2,632 6 i 1 6
128
51 ,369 6 3 ,676 2 ,632 ̂ 1 ,9964459 2 2 84 ,425 6 3 ,676 ˆ ln y ln x 2 ,632 2 3 ,676 2 ,632 7 ,352 9 ,984 9 , 984 21676,847 a 2 , ln b et b e
Donc l’ajustement est :
b 21676 ,847 y a x2 x
5- Quelle est Le prix unitaire du produit avec cette approximation pour produire 15 unités.
b 21676 ,847 21676 ,847 96 ,342 y a 2 2 15 x x
129