(Chapitre 2) du Cous proba-stat 2021 S1

Page 1

Chapitre 2 : Série statistique à 2 variables 2.1- Introduction : Consiste en la description de deux variables X et Y mesurées simultanément sur les mêmes individus. Exemple 1 : On considère le tableau suivant, relatif à une population de 100 ménages, tel que : X = " le nombre d’enfants du ménage " et Y = " le nombre de pièces du logement " Remarque 1 : Y y1 = 3 y2 = 4 y3 = 5 Total i) La valeur 30 indique que, parmi les X 100 ménages observés, il y’a 30 x1 = 2 15 10 05 30 ménages qui ont 3 enfants et qui x2 = 3 5 10 30 45 habitent dans des logements de x3 = 4 10 5 0 15 3 pièces. x4 = 5 10 0 0 10 ii) La valeur 65 indique que, parmi les Total 100 ménages observés, il y a 65 20 15 100 65 ménages qui habitent dans des logements de 3 pièces. iii) La valeur 45 indique que, parmi les 100 ménages observés, il y a 45 ménages qui ont 3 enfants. 78


2.2- Distributions et caractéristiques : Soient X et Y deux variables mesurés sur N individus d’une population, Avec les modalités : M(X) = {x1, x2,…, xr} , M(Y) = { y1, y2,…, yk} 1- Distribution conjointe de X et Y : C’est la liste des r × p modalités conjointes (xi , yj) associées chacune à son effectif nij ou à sa fréquence fij .Ce qui donne le tableaux des contingent suivant : Y y1 y2 … yj … yk Total  Les effectifs qui sont notés par nij X est le nombre de fois où la modalité x1 n11 n12 n1j n1k n1. xi de la variable X et la modalité yj de la variable Y ont été observées x2 n21 n22 n2j n2k n2. simultanément. .. ..  L’effectif ni. appelé effectif marginal . de la variable X est le nombre total xi ni1 ni2 nij nik ni. d’observations de la modalité xi de la .. .. variable X . .  L’effectif n.j appelé effectif marginal xr nr1 nr2 nrj nrk nr. de la variable Y est le nombre total Total n n n. j n. k N d’observations de la modalité yj de la .1 .2 variable Y. 79


2- Distributions marginales : La distribution marginale de X (resp. de Y) est la distribution de X (resp. Y) sur l’échantillon, calculée à partir de la distribution conjointe. Ces deux distributions peuvent se présenter sous forme de tableaux statistiques suivants : Distribution marginale de X

X

Effectif marginal

Distribution marginale de Y

Y

Effectif marginal

x1

n1.

y1

n.1

x2

n2.

y2

n.2

xi

ni.

yj

n. j

xr

nr.

yk

n. k

Total

N

Total

.. .. .

.. .. .

.. .. .

.. .. .

N

80


Remarque 2 : Pour deux variables X et Y mesurés sur N individus d’une population, la distribution conjointe se donne sous forme de tableaux des contingent des effectifs ou des fréquences comme suit ; Distribution conjointe en effectif de X et Y

Y y1 y2 n11 n12 n21 n22

n1j n2j

yk Total n1k n1. n2k n2.

ni1 ni2

nij

nik

ni.

xr nr1 nr2 Total n.1 n.2

nrj n. j

nrk n. k

nr. N

X x1 x2 .. .

xi .. .

yj

Distribution conjointe en fréquence de X et Y

f11 f12 f21 f22

f1j f2j

yk Total f1k f1. f2k f2.

fi1

fi2

fij

fik

fi.

xr fr1 fr2 Total f.1 f.2

frj f. j

frk f. k

fr. 1

X x1 x2 .. .

xi .. .

Y

y1

y2

yj

1) L’effectif ni . appelé effectif marginal de X est le nombre total j k d’observations de la modalité xi de la variable X. n i .   n ij j1

2) L’effectif n. j appelé effectif marginal de Y est le nombre total ir d’observations de la modalité yj de la variable de Y. n . j   n ij i1

81


3) L’effectif total de la distribution conjointe, noté N, peut être obtenu à partir de l’effectif marginal de X ou bien à partir de l’effectif marginal de Y : ir ik i r j k N   n i .   n . j    n ij i1

j1

4) La fréquence conjointe, noté fi j est :

f ij 

i1

j1

n ij

N 5) La fréquence fi . appelée fréquence marginale de X est le nombre : j k ni. f i.    f ij N j1 6) La fréquence f. j appelée fréquence marginale de Y est le nombre : ir n. j f.j    f ij N i1 et ir ik i r j k  f i .   f . j    f ij  1 i1

j1

i1

j1

82


7) Les moyennes marginales et les variances marginales : Distribution marginale de Y Effectif marginal Y

Distribution marginale de X Effectif marginal X

x1 x2

n1. n2.

y1 y2

n.1 n.2

x .. i .

ni.

yj

n. j

xr Total

nr. N

yk Total

n. k N

.. .

.. . .. .

Les moyennes marginales de X et de Y, ainsi que les variances marginales se calculent à partir des distributions marginales suivant les formules suivantes : jk jk ir

ir ni. x i y  x     fi. x i; N i1 i1 1 ir 2   V (x)  n x  x   i. i N i1 1 j k 2 V ( y)  n y  y   .j j N j1

j1

ir

n. j y j N

f. j y j

j1

f i . x i  x  ;

f.j y j  y

i1 j k j1

2

2

83


Exemple 2 : On considère le tableau (1) des effectifs suivant, relatif à une population de 20 adolescents, tel que : X = " la taille" et Y = " le poids"

Y

[40,50[

[50,70[

[70,90[

Total

[120,140[

2

1

0

3

[140,160[

2

6

0

8

[160,180[

1

3

5

9

Total

5

10

5

20

X

Donc la distribution conjointe en fréquences est : f  ij

X

Y

Y

f.j

0,15

[40,50[

0,25

[140,160[

0,40

[50,70[

0,50

[160,180[

0,45

[70,90[

0,25

Total

1,00

Total

1,00

X

fi .

[120,140[

0,45 1,00

0,10

0,05

0,00

0,15

[140,160[

0,10

0,30

0,00

0,40

[160,180[

0,05

0,15

0,25

Total

0,25

0,50

0,25

N

Distribution marginale en fréquence Y

Distribution marginale en fréquence de X

[40,50[ [50,70[ [70,90[ Total

[120,140[

n ij

et

84


De même on obtient à partir du tableau (1) les distributions marginales des effectifs, en introduisant les centres des classes pour calculer les moyennes et les variances marginales : Distribution marginale en effectif Y

Distribution marginale en effectif de X

ci ni . ci ni . ci2

X

ni .

[120,140[

3

130 390

[140,160[

8

150 1200 180000

[160,180[

9

170 1530 260100

Total

20

3120 490800

50700

et

cj n. j cj nj . cj2

Y

n.j

[40,50[

5

45

[50,70[

10

60

225 600

[70,90[

5

80

400

Total

20

10125 36000

32000 1225 78125

Donc les moyennes marginales de X et de Y sont :

x 

3120  156 20

cm

et

1225 y   61 , 25 20

Et les variances marginales de X et de Y sont :

 1 V ( x )   N

kg

 490800 2 2  n c  x    24540 24336  V ( x )  204   156  i. i  20 i 1   1 j3 2 78125 2 et V ( y )    n. j c j   y 2   61 , 25   154 , 69 20  N j 1  85 i3

2


8) Distributions conditionnelles : Les distributions conditionnelles s'obtiennent en fixant la valeur d’une des deux variables (où la modalité d’une des deux variables). Exemple 3 : On considère le tableau suivant, relatif à une population de 100 ménages, tel que : X = " le nombre d’enfants du ménage " et Y = " le nombre de pièces du logement "

X

Y

y1 = 3 y2 = 4 y3 = 5 Total

x1 = 2

15

10

05

30

x2 = 3

30

5

10

45

x3 = 4

10

5

0

15

x4 = 5

10

0

0

10

65

20

15

100

Total

1- La distribution conditionnelle de X sachant Y = 3 est donnée par la première colonne du tableau. 2- La distribution conditionnelle de X sachant Y = 4 est donnée par la deuxième colonne du tableau. 86


X

Y

y1 = 3 y2 = 4 y3 = 5 Total

x1 = 2

15

10

05

30

x2 = 3

30

5

10

45

x3 = 4

10

5

0

15

x4 = 5

10

0

0

10

Total

65

20

15

100

3- La distribution conditionnelle de Y sachant X = 2 est donnée par la première ligne du tableau. 4- De même, la distribution conditionnelle de Y sachant X = 5 est donnée par la quatrième ligne du tableau.

Ces quatre distributions se présentent dans les tableaux suivants : Distribution conditionnelle

Distribution conditionnelle

de X sachant Y = 3

de X sachant Y = 4

X / Y = 3 ni /1

X/ Y=4

ni /2

Distribution conditionnelle

de Y sachant X = 2

Y / X = 2 nj / 1

Distribution conditionnelle

de Y sachant X = 5

Y/ X=5

nj / 4

x1 = 2

15

x1 = 2

10

x2 = 3

30

x2 = 3

5

y1 = 3

15

y1 = 3

10

x3 = 4

10

x3 = 4

5

y2 = 4

10

y2 = 4

0

x4 = 5

10

x4 = 5

0

y3 = 5

05

y3 = 5

0

Total

65

Total

20

Total

30

Total

10

-1-

-2-

-3-

-4-

87


Remarque 2 : ni /1

= ni 1 ; ni /2 = ni 2 ; nj / 1 = n1 j ; nj / 4 = n4 j .

En général si on prend le tableau des contingent des effectifs suivant: X x1 x2 .. .

xi .. .

Y y1 y2 n11 n12 n21 n22 ni1 ni2

xr nr1 nr2 Total n.1 n.2

yj

n1j n2j nij nrj n. j

yk Total n1k n1. n2k n2. nik nrk n. k

ni .

Distribution conditionnelle

Distribution conditionnelle

de X sachant Y = yj

de Y sachant X = xi

X / Y = y j ni / j

Y / X = xi nj / i

x1 x2

n1j n2j

xi xr

.. . .. .

nr. N

Total

y1 y2

ni1 ni2

ni j

yj

ni j

nrj n. j

yk

nik ni .

et

.. . .. .

Total

Remarque 3 : La distribution conditionnelle de chacune des variables X et Y peut être définie à partir des fréquences. Dans le cas de la distribution conditionnelle de X sachant Y = yj , on a :

fi/ j 

n ij

n. j

n ij  N

n. j  N

f ij

f.j

r

;

Avec

i1

fi/ j  1 88


Dans le cas de la distribution conditionnelle de Y sachant X = xi , on a :

f

j/i

n ij ni.

n ij  N

ni.  N

f ij

f i.

k

Avec

;

j1

f

j/i

 1

Exemple 3 : On reprend l’exemple 3 des 100 ménages en calculant les distribution conditionnelles en fréquences de X sachant Y = 4 et de Y sachant X = 2 : Distribution conjointe en effectifs

X

Y

y1 = 3 y2 = 4 y3 = 5 Total

x1 = 2

15

10

05

30

x2 = 3

30

5

10

45

x3 = 4

10

5

0

15

x4 = 5

10

0

0

10

65

20

15

100

Total

89


Distribution conjointe en effectifs

X 1ere méthode : En passant par les distributions conditionnelles des effectifs.

ni /2

x1 = 2

10

x2 = 3

5

x3 = 4

5

x4 = 5

0

Total

20

15

10

05

30

x2 = 3

30

5

10

45

x3 = 4

10

5

0

15

x4 = 5

10

0

0

10

65

20

15

100

Distribution conditionnelle

Distribution conditionnelle

X/ Y=4

y1 = 3 y2 = 4 y3 = 5 Total

x1 = 2

Total

en effectifs de X sachant Y = 4

Y

en fréquences de X sachant Y = 4

Distribution conditionnelle

X/ Y=4

fi /2

x1 = 2

0,50

x2 = 3

0,25

y2 = 4

15 10

x3 = 4

0,25

y3 = 5

05

x4 = 5

0

Total

30

Total

1,00

en effectifs de Y sachant X = 2

Y / X = 2 nj / 1 y1 = 3

Distribution conditionnelle

en fréquences de Y sachant X = 2

Y/ X=2

fj / 1

y1 = 3

0,50 0,33

y2 = 4 y3 = 5

0,17

Total

1,00 90


2eme méthode : En passant par la distribution Conjointe en fréquences.

Distribution conjointe en effectifs

X

Y

y1 = 3 y2 = 4 y3 = 5 Total

x1 = 2

15

10

05

30

Distribution conjointe en fréquences

x2 = 3

30

5

10

45

y1 = 3 y2 = 4 y3 = 5 Total

x3 = 4

10

5

0

15

0,05 0,30 0,10 0,45 0,15 0

x4 = 5

10

0

0

10

65

20

15

100

Y

X

x3 = 4

0,15 0,10 0,30 0,05 0,10 0,05

x4 = 5

0,10

x1 = 2 x2 = 3

Total

0

0

0,65 0,20

Total

Distribution conditionnelle

en fréquences de X sachant Y = 4

0,10

0,15 1,00

En utilisant les formules

fi/ j 

f ij

f.j

et

f

j/i

f ij

f i.

Distribution conditionnelle

de Y sachant X = 2

X/ Y=4

fi /2

Y/ X=2

fj / 1

x1 = 2

0,50

y1 = 3

x2 = 3

0,25

y2 = 4

0,50 0,33

x3 = 4

0,25

y3 = 5

0,17

x4 = 5

0

Total

1,00

Total

1,00

91


Remarque 4 : fi /1

 fi 1 ; fi /2  fi 2 ; fj / 1  f1 j ; fj / 4  f4 j .

Définition : Les variables X et Y sont indépendantes si et seulement si

 i , j  f ij  f i .  f . j

Remarque :  i , j : f  f  f  n  n i .  n . j ij i. .j ij

N

Exemple 4 : Tableau associé à deux variables indépendantes. Les variables X et Y sont indépendantes car : 1 2 3 4

n 1 .  n .1 N n 1 .  n .2 N n 1 .  n .3 N n 2 .  n .1 N

18  6   2  n 11 54 18  12   4  n 12 54 18  36   12  n 13 54 36  6   4  n 21 54

5 6

X

Y

y1 = 3 y2 = 4 y3 = 5 Total

x1 = 2 x2 = 3

2 4

4 8

12 24

18 36

Total

6

12

36

54

n 2 .  n .2 36  12   8  n 22 N 54 n 2 .  n .3 36  36   24  n 23 N 54 92


Remarque : Dans toute la suite on considère N observations sur les deux variables X et Y . 2.3 - Covariance entre X et Y : La covariance est égale à la moyenne des écarts des couples les (xi , yi) de X et Y par rapport au point  x , y  . 1 i N  x i  x  y i  y  Cov ( x , y )   N i1 Rôle de la covariance : La covariance indique le sens de la relation entre les variables X et Y . Ainsi, On peut distinguer les cas suivants : 1er Cas : Si Cov(x, y) > 0 , alors on peut dire que la relation entre les deux variables est positive. Dans ce cas, ces deux variables varient dans le même sens. 2eme Cas : Si Cov(x, y) < 0, alors on peut dire que la relation entre les deux variables est négative. Dans ce cas, ces deux variables varient en sens inverse. 3eme Cas : Si Cov(x, y) = 0, alors on peut dire qu’il n’y a pas de relation entre les deux variables. Dans ce cas, les variations de l’une n’entraînent pas la variation de l’autre. 93


2.3.1 – Proprités de la covariance : P.1) Cov ( ax  b , cy  d )  ac .Cov ( x , y ) P.2) Cov ( y , x )  Cov ( x , y ) P.3) Cov ( x , x )  V ( x )  1 P.4) Cov ( x , y )    N

i N

i1

 x i y i   

x . y 

94


2.3.2 - Le coefficient de corrélation linéaire entre X et Y : Le coefficient de corrélation linéaire entre X et Y est : Cov ( x , y ) Cov ( x , y ) rx , y    ( x ) ( y ) V ( x )V ( y ) Remarque 1 : Le coefficient de corrélation linéaire est un nombre sans dimension, car ; Cov ( x , y ) 1 i N rx , y   x i  x  y i  y  et Cov ( x , y )    ( x ) ( y ) N i1 2.3.3 – Proprités du coefficient de corrélation linéaire : P.1) rax  b , cy  d  Signe de a Signe de c . r x , y

P.2)

r y , x  rx , y

P.3)

rx , x  1



Remarque 2 : Le coefficient de corrélation linéaire est compris entre -1 et 1, c’est-à-dire :  1  r  1 x,y

95


Remarque 3 : Le coefficient de corrélation linéaire permet de mesurer le degré ou l’intensité de la liaison linéaire entre deux variables statistiques. C’est-à-dire : 1) Si rx , y = 1 , on dit qu’il y a une parfaite corrélation linéaire positive entre les deux variables.

2) Si rx , y = -1 , on dit qu’il y a une parfaite corrélation linéaire négative entre les deux variables. 3) Si rx , y = 0 , on dit qu’il y a absence de corrélation linéaire entre les deux variables. 4) On dit qu’il y a une forte corrélation linéaire entre les deux variables (ou forte dépendance linéaire) si r est proche de 1. 5) En revanche, si r est proche de zéro (0), on dit qu’il y a une faible corrélation linéaire entre les deux variables. 96


2.4- Ajustement d’un nuage de points : Nuage de points : Ensemble de points isolés représentés dans un graphique cartésien; c’est-à-dire des points M1, M2, ... , Mn de coordonnées ( x1 , y1 ) ; ( x2 , y2 ) ; ... ; ( xn , yn ). Exemple 1 : Tableau associé à deux variables mesurées sur 13 bébés tels que; X = " le poids du bébé" et Y = " la taille du bébé " Le nuage des points de coordonnées ( 3,3 ; 49,4 ); ( 3,8 ; 52,4 ); ( 4,6 ; 55,6 ); ( 5,4 ; 58,7 ); ( 6,0 ; 61,0 ); ( 6,6 ; 63,0 ); ( 7,1 ; 64,8 ); ( 7,6 ; 66,4 ); ( 8,1 ; 67,8 ); ( 8,4 ; 69,0 ); ( 8,7 ; 70,3 ); ( 9,0 ; 72,6 ); ( 9,3 ; 72,9 ) est : ( 9,3 ; 72,9 ) ( 5,4 ; 58,7 ) ( 6,0 ; 61,0 ) ( 4,6 ; 55,6 ) ( 9,0 ; 72,6 ) ( 3,8 ; 52,4 ) ( 8,1 ; 67,8 ) ( 6,6 ; 63,0 )

( 7,6 ; 66,4 )

( 7,1 ; 64,8 ) ( 3,3 ; 49,4 )

97


Le nuage des points de coordonnées ( 3,3 ; 49,4 ); ( 3,8 ; 52,4 ); ( 4,6 ; 55,6 ); ( 5,4 ; 58,7 ); ( 6,0 ; 61,0 ); ( 6,6 ; 63,0 ); ( 7,1 ; 64,8 ); ( 7,6 ; 66,4 ); ( 8,1 ; 67,8 ); ( 8,4 ; 69,0 ); ( 8,7 ; 70,3 ); ( 9,0 ; 72,6 ); ( 9,3 ; 72,9 ) est :

Evolution Taille – Masse (Enfants de 13 bébés)

98


Exercice : Le tableau suivant donne la distance de freinage d'un véhicule automobile sur route sèche, en fonction de sa vitesse. Vitesse en Km/h ( xi ) Distance en m ( yi ) 40

8

50

12

60

18

80

32

100

48

1- Construire le nuage des points. 2- Calculer la covariance entre la vitesse ( X ) et la distance ( Y ). Que peut on déduire sur la relation entre X et Y . 3- Calculer le coefficient de corrélation linéaire, conclure sur l’intensité de la liaison entre X et Y . 99


60

Y

i

1- Le nuage des points ( xi , yi)

1

50

40

30

20

xi

yi

xi yi

40

8

320

2

50

12

600

3

60

18

1080

4

80

32

2560

5

100

48

4800

Total 330

118

9360

10

05

10

15

20

25

30

35

40

45

50

55

60

65

70

75

80

X

2- Calcule de la covariance entre la vitesse ( X ) et la distance ( Y ). 1 N  1 i5  1 N Cov ( x , y )    x i y i    x . y  avec x   xi , y   yi N i 1 N i 1  5 i1  9360 118 330  66 23,6  1872  1557,6  23,6  Cov( x, y)  x  66; y  5 5 5

 Cov( x, y)  314,4

100


Comme Cov(x, y) > 0 alors la relation entre la vitesse et la distance de freinage est positive et les 2 variables varient dans le même sens. 3- Calculer le coefficient de corrélation linéaire.

Cov ( x , y ) avec rx , y  V ( x )V ( y )  1 ir 2  2 et  V ( x )   x  x  i   N i 1   1 ir 2  2  V ( y )   y  y  i  N i 1  

yi2

yi

x i yi

40

8

x i2

320

1600

64

2

50

12

600

2500

144

3

60

18

1080

3600

324

4

80

32

2560

6400

1024

5

100

48

4800

10000

2304

Total 330

118

9360

24100

3860

i 1

xi

24100 2  V ( x)   66   4820  4356  V ( x )  464 5 3860 2 et V ( y )   23 ,6   772  556 ,96  V ( y )  215 ,04 5 314 , 4  rx , y   r x , y  0 , 99 464  215 , 04 Les variables varient dans le même sens. La valeur de rx , y , proche de 1, cela traduit une forte corrélation linéaire entre les deux variables. 101


2.4.1- Ajustement linéaire d’un nuage de points : On considère N observations sur les deux variables X et Y . Donc; 1- Ces observations peuvent être représentées par un nuage de points. 2- Notre but est d’exprimer Y en fonction de X,

3- La représentation du nuage de points peut nous renseigner sur l’allure de la courbe de régression. Remarque : 1. L’ajustement linéaire consiste à trouver l’équation d’une droite du type y = ax + b , appelée droite de régression. Cette droite donne l’évolution de la variable Y (variable expliquée) en fonction de la variable explicative X.

2. La méthode d’ajustement que nous allons exposer est appelée « méthode des Moindres Carrés Ordinaires» ou simplement « MCO ». 102


Méthode des Moindres Carrés Ordinaires : Considérons N couples d’observations ( xi , yi ), leurs nuage est :

Droite de régression

Donc les couples ( xi , yi) vérifient :

y i  ax i  b    i  i  1 ,  , N  yi

où i représente le résidu du couple ( xi , yi) . On peut alors écrire :  i  y i  ax i  b 

axi+b

i

xi

Remarque :La méthode MCO consiste à minimiser i N

i N

i 1

i 1

2   i 

2   y  ax  b  i i

i N

2   i tels que : i 1

 f (a , b )

Les deux conditions de premier ordre de la minimisation de cette fonction f par rapport à a et à b sont :  i N 2   i N 2      i      i   i 1   0 et  i  1  0 a b 103


 i N 2   i N 2      i      i   i 1   0 et  i  1  0 a b

 iN 2      i  i N i N   i 1   2   yi  ax i  b  x i   0    yi  ax i  b  x i   0 a i 1 i 1 iN  2     i  i N iN et  i 1   2   yi  ax i  b  1  0    yi  ax i  b   0 b i 1 i 1

(1 ) 

  y x  ax

i N

i 1 iN

i

i

i

2

 yx

 bx i  i N

i N

i 1 i N

i

i N

i

i 1

i 1

i 1

( 2)

i N

 a  xi  b xi  0 2

i 1

( 2)    yi  ax i  b    yi  a  xi  Nb  0

(1)

(3)

i 1

( 4)

En divisant les deux membres de l’équation (4) par N, on obtient : 1 i N 1 i N a i N Nb 1 i N yi   xi   0 Sachant que : x   xi et y   yi  N i 1 N i 1 N i 1 N N i 1 Donc l’équation devient : y  ax  b  0 (5)  b  y  ax 104


En remplaçant, dans l’équation (3), b par y  ax d’après l’équation (5), i N i N i N 2 On obtient :  y i x i  a  x i   y  a x  x i  0

i 1 i N

yx i

i 1

i N

i

i 1

i N

i N

 a  x i  y  x i  ax  x i  0 i 1 i 1 i 1     2

N .x

i N

N .x

y i x i  a  x i  N x . y  aN x 2  0

i 1 i N

i 1 i N

 i 1

2

i 1

 i N 2 2  y i x i  N x . y  a   x i  N x   i 1 

Ainsi, on obtient la valeur estimée de la pente de la droite de régression : i N

aˆ 

x i 1 i N

i

y i  Nx . y

 bˆ  y  aˆx

2

x i  Nx 2

i 1

Donc l’équation de la droite de régression est : y  aˆ x  bˆ

105


Proposition 1 : On peut aussi calculer la valeur estimée de la pente de la droite de régression en utilisant l’une de ces deux expressions. 1ère expression :

Cov ( x , y ) aˆ  V ( x) i N

2ème expression :

aˆ 

 x i1

i

i N

 x  y i  y 

 x i

 x

2

i1

106


Preuve : En effet ; i N

aˆ 

x i 1 i N

i

y i  Nx . y

i N  i N  1   x i y i  N x . y  xi y i  x . y  N i 1  i 1   i N i N 1  1  2 2 2 x  x   x i  N x 2  i  N N  i 1 i 1 

1 N

2

x i  Nx 2

i 1

i N

 aˆ 

Cov ( x , y ) V ( x)

aˆ 

et

 x i1

i

i N

 x  y i  y 

 x i

 x

2

i1

Proposition 2 : La droite de régression passe par le point moyen de coordonnées x , y .

Preuve : En effet, Comme, bˆ  y  aˆ x

 y  aˆx  bˆ 107


Exercice : Le tableau suivant donne la distance de freinage d'un

véhicule automobile sur route sèche, en fonction de sa vitesse. 1- Construire le nuage des points. Vitesse en Km/h ( xi ) Distance en m ( yi ) 40 8 2- Calculer la covariance entre la 50 12 vitesse ( X ) et la distance ( Y ). 60 18 Que peut on déduire sur la relation 80 32 entre X et Y . 48 100 3- Calculer le coefficient de corrélation linéaire, conclure sur l’intensité de la liaison entre X et Y . 4- Déterminer, en utilisant la méthode des moindres carrés, l'équation de la droite de régression permettant d'estimer la distance de freinage en fonction de la vitesse du véhicule. 5- Interpréter la pente et la constante de l'équation de la droite obtenue. 6- A combien peut-on estimer la distance de freinage d'un véhicule roulant à 120 km/h. 7- Déterminer cette même droite sachant qu'une sixième mesure a donné pour : xi = 0 ; yi = 0 .

108


60

Y

i

1- Le nuage des points ( xi , yi)

1

50

40

30

20

xi

yi

xi yi

40

8

320

2

50

12

600

3

60

18

1080

4

80

32

2560

5

100

48

4800

Total 330

118

9360

10

05

10

15

20

25

30

35

40

45

50

55

60

65

70

75

80

X

2- Calcule de la covariance entre la vitesse ( X ) et la distance ( Y ). 1 N  1 i5  1 N Cov ( x , y )    x i y i    x . y  avec x   xi , y   yi N i 1 N i 1  5 i1  9360 118 330  66 23,6  1872  1557,6  23,6  Cov( x, y)  x  66; y  5 5 5

 Cov( x, y)  314,4

109


Comme Cov(x, y) > 0 alors la relation entre la vitesse et la distance de freinage est positive et les 2 variables varient dans le même sens. 3- Calculer le coefficient de corrélation linéaire.

Cov ( x , y ) avec rx , y  V ( x )V ( y )  1 ir 2  2 et  V ( x )   x  x  i   N i 1   1 ir 2  2  V ( y )   y  y  i  N i 1  

yi2

yi

x i yi

40

8

x i2

320

1600

64

2

50

12

600

2500

144

3

60

18

1080

3600

324

4

80

32

2560

6400

1024

5

100

48

4800

10000

2304

Total 330

118

9360

24100

3860

i 1

xi

24100 2  V ( x)   66   4820  4356  V ( x )  464 5 3860 2 et V ( y )   23 ,6   772  556 ,96  V ( y )  215 ,04 5 314 , 4  rx , y   r x , y  0 , 99 464  215 , 04 Les variables varient dans le même sens. La valeur de rx , y , proche de 1, cela traduit une forte corrélation linéaire entre les deux variables. 110


4- L'équation de la droite de régression permettant d'estimer la distance de freinage en fonction de la vitesse du véhicule. La pente de cette droite de régression est obtenue par : i N

aˆ 

x i 1 i N

i

y i  Nx . y 2

x i  Nx 2

i 1

 aˆ 

9360  5  66  23 ,6 24100  5  66 2

yi2

yi

x i yi

40

8

x i2

320

1600

64

2

50

12

600

2500

144

3

60

18

1080

3600

324

4

80

32

2560

6400

1024

5

100

48

4800

10000

2304

Total 330

118

9360

24100

3860

i 1

xi

 aˆ  0 ,67

De plus l'ordonnée à l'origine est égale à : bˆ  y  aˆx  23,6  0,67  66  bˆ  20,62 Donc L'équation s'écrit :

y  0 , 67 x  20 , 62 111


5- Interprétation de la pente â et la constante de l'équation de la droite obtenue : - Interprétation de la pente â = 0,67 : Lorsque la vitesse augmente de 1 km/h la distance de freinage augmente de â = 0,67m. En effet,  Y  0 ,67  X . - Interprétation de la constante b̂   20 ,62 : La constante b̂   20 ,62 Indique que à l’arrêt le véhicule Est en retard d’une distance de 20,62m. 6- A combien peut-on estimer la distance de freinage d'un véhicule roulant à 120 km/h : L'équation étant : y = 0,67x - 20,62. En remplaçant x par 120 on obtient :

y = 0,67120 -20,62 = 59,78 . Donc la distance de freinage d'un véhicule roulant à 120 km/h est y = 59,78 m . 112


7- Déterminer cette même droite sachant qu'une sixième mesure a donné pour : xi = 0 ; yi = 0 . C’est-à-dire l’équation des moindres carrés avec (xi = 0 ; yi = 0) Il suffit de refaire les calculs avec les mêmes sommes mais en divisant par le nouveau nombre d'observations qui est égal à 6.

330 118 x  55; y   19,67 6 6 i N

 aˆ 

yx i 1 i N

i

i 2

 Nx . y

x i  Nx 2

9360  6  55  19 ,67   aˆ  0 ,48 2 24100  6  55

i 1

bˆ  y  aˆx  19,67  0,48  55  bˆ  6,74

Donc L'équation s'écrit : y  0 , 48 x  6 , 74

113


2.4.2- Ajustement non linéaire d’un nuage de points : On considère N observations sur les deux variables X et Y . Dans le cas général, la relation entre X et Y semble être plutôt non

linéaire, c’est-à-dire n’est pas de la forme y = ax + b. Etude du cas hypebolique :

La fonction permettant de représenter le nuage de points par une

b fonction hyperbolique du type : y  a x

avec

a  0, b  0

Dans ce cas le nuage aura l’allure suivante :

114


Comment peut-on estimer b et a ? Nous sommes en présence d’une relation non linéaire entre y et x. Afin d’utiliser la méthode des MCO, il faut d’abord retrouver, moyennant une transformation, dans ce cas logarithmique, une forme linéaire : On cherche a et b tels que :

b y  a  bx  a x

 * 

En utilisant le logarithme népérien dans l’équation (*) on trouve :

 ln y  ln bx  a  ln b  a ln x Et si on supposons que :

  ln b et    a

Le modèle linéaire est alors de la forme :

ln y   ln x  

 * * 

Donc en utilisant la méthode des MCO, on peut retrouver  et  :

115


i N

Cov (ln x , ln y )  ˆ  V (ln x )

 ln x ln y   N ln x .ln y i

i 1

i N

 ln x  i 1

et

i

2

i

 N ln x

2

 ˆ  ln y  ˆ ln x

On peut maintenant retrouver la valeur de b et la valeur de a : ˆ ˆ   ln b  b  e

et

   a  aˆ  ˆ

116


Exercice 1 : Une entreprise fabrique un équipement. Le prix

unitaire Y (en Dollar) de ce produit est en fonction du nombre X d’unités produites. On a relevé les résultats suivants. Unités produites ( xi )

Prix unitaire ( yi )

2

150

3

50

5

20

8

11

10

6

12

5

1- Construire le nuage des points. 2- Compte tenue de cette représentation, donner la forme théorique de l’ajustement de ce nuage de points. 3- Déterminer explicitement la fonction qui donne la relation entre les deux variables. 117


1- Construire le nuage des points. 160 140 120 100 80 60 40 20 0 0

2

4

6

8

10

12

14

2- Compte tenue de cette représentation, donner la forme théorique de l’ajustement de ce nuage de points. Réponse : L’allure du nuage ressemble à une hyperbole, donc la forme théorique de l’ajustement de ce nuage de points est une forme hyperbolique de la forme :

b y  a  bx  a avec a  0, b  0 x

118


3- Déterminer explicitement la fonction qui donne la relation entre les deux variables. Réponse : D’après 2 cette fonction est de la forme :

b y  a  bx  a avec a  0, b  0 x  ln y  ln bx  a  ln b  a ln x Posons :

  ln b et    a  ln y   ln x  

En considérant les deux (02) nouvelles variables et en utilisant la méthode des MCO, on peut retrouver  et  , tels que : i N

̂ 

 ln x ln y   N ln x .ln y i

i 1

i

i N

 ln x  i 1

2

i

 N ln x

et  ˆ  ln y  ˆ ln x

2

119


i N

 ˆ 

 ln i1

i

xi

yi

lnxi

lnyi

1 2 3 4 5 6 Total

2 3 5 8 10 12 40

150 50 20 11 6 5 242

0,69

5,01

1,10

3,91

1,61 2,08

3,00 2,40

2,30

1,79

2,48 10,26

1,61

x i ln y i   N ln x . ln y

i N

 ln i1

x i   N ln x 2

2

17,72

et  ˆ  ln y  ˆ ln x

1 6 1 6 10 , 26 On a :  ln x  ln xi   ln xi   ln x   1,71 N 1 6 1 6 17 ,72 1 6 1 6 et  2 ,95 ln y i    ln y i   ln y  ln y   6 N 1 6 1 120


i N

 ˆ 

 ln i1

x i ln y i   N ln x . ln y

i N

 ln i1

x i   N ln x 2

2

25 , 69  6  1 , 71  2 , 95 ˆ    2   20 , 05  6  1 , 71

 ˆ 

25 , 69  30 , 267 20 , 05  17 , 5446

 4 , 577  ˆ    1 , 83 2 , 506

i 1 2 3 4 5 6 Total

lnxi lnyi (lnxi )2 (lnxi ).(lnyi ) 0,69

5,01

0,48

3,46

1,10

3,91

1,21

4,30

1,61

2, 59

4, 83

2,08

3,00 2,40

4,33

4,99

2,30

1,79

5,29

4,12

2,48 1,61 10,26 17,72

6,15 20,05

3,99 25,69

 a   ˆ  1 , 83

 ˆ  ln y  ˆ ln x  2 , 95  1 , 83  1 , 71  ˆ   3 ,18

 b  e   e  3 ,18  0 , 04 Donc la relation entre les deux variables est donnée par la fonction est de la forme :

b y  a  bx  a  y  0,4. x 1, 83 x

121


Exercice 2 : Une entreprise fabrique un équipement. Le prix

unitaire Y (en Dollar) de ce produit est en fonction du nombre X d’unités produites. On a relevé les résultats suivants. X Y

22

23

24

30

60

174

120

60

25

10

4

1

1- Calculer la covariance entre le nombre d’unités produites (X ) et le prix unitaire (Y ). Que peut on déduire sur la relation entre X et Y. 2- Calculer le coefficient de corrélation linéaire rx,y . Conclure sur l’intensité de la liaison entre les deux variables X et Y. 3- Représenter le nuage de points (xi , yi). 4- Compte tenue de cette représentation, donner la forme de l’ajustement de ce nuage de points et retrouver la relation entre les deux variables X et Y. 5- Quelle est Le prix unitaire du produit avec cette approximation pour produire 15 unités. 122


1- Calcule de la covariance entre le nombre d’unités produites (X ) et le prix unitaire (Y ). 1 N 1 N  1 i6  Cov ( x , y )    x i y i    x . y  avec x   xi , y   yi N i 1 N i 1  6 i 1 

Total

xi

yi

xi 2

xi . y i

22

120

484

2640

23

60

529

1380

24

25

576

600

30

10

900

300

60

4

3600

240

174

1

30276

174

333

220

36365

5334

220 5334 333 y   36 , 667  Cov ( x , y )   55 ,5  36 ,667 x  55,5; 6 6 6

 Cov ( x , y )  889  2035,019  1146,019 123


On a Cov(x, y) < 0, alors la relation entre les deux variables est négative. Dans ce cas, ces deux variables varient en sens inverse.

2- Calculer le coefficient de corrélation linéaire rx,y . Conclure sur l’intensité de la liaison entre les deux variables X et Y. rx , y

Cov ( x , y ) Cov ( x , y )    ( x ) ( y ) V ( x )V ( y )

 1 V ( x )   N

avec

2 36365 2 2  x  x     55 , 5  i  6 i 1  ir

V ( x )  2980,583

xi

yi

xi 2

xi . y i

y i2

22

120

484

2640

14400

23

60

529

1380

3600

24

25

576

600

625

30

10

900

300

100

60

4

3600

240

16

174

1

30276

174

1

 1  Total 333 220 36365 5334 et V ( y )    y i 2   y 2  N i 1  18742 2   V( y )  36 ,667  3123 ,667  1344 ,469  1779 ,198 6 i r

18742

124


rx , y

Cov ( x , y )    ( x ) ( y )

 rx , y 

 1146 ,019 2980 ,583  1779 ,198

 1146 ,019  1146 ,019    0 ,498 2302 ,835 5303047 ,312

La valeur de rx ,y n’est pas proche ni de 1 ni de 0 cela traduit qu’il n’ya pas ni forte corrélation linéaire entre les deux variables ni faible corrélation linéaire. Il y’a une juste moyenne corrélation linéaire entre les deux variables (La valeur de rx,y est proche de 0,5).

125


3- Représenter le nuage de points (xi , yi). X Y

22

23

24

30

60

174

120

60

25

10

4

1

140

( 22 ; 120 )

120

100

80

( 23 ; 60 ) 60

( 24 ; 25 ) 40

( 30 ; 10 ) 20

( 60 ; 4 )

( 174 ; 1 )

0 0

20

40

60

80

100

120

140

160

180

200

126


4- Compte tenue de cette représentation, donner la forme de l’ajustement de ce nuage de points et retrouver la relation entre les deux variables X et Y. - L’allure du nuage ressemble à une hyperbole, donc la forme théorique de l’ajustement de ce nuage de points est une forme hyperbolique de la forme :

b y  a  bx  a avec a  0, b  0 x  ln y  ln bx  a  ln b  a ln x Posons :

  ln b et    a

 ln y   ln x   En considérant les deux (02) nouvelles variables et en utilisant la méthode des MCO, on peut retrouver  et  , tels que :

127


i N

 ˆ 

 ln i1

x i ln y i   N ln x .ln y

i N

 ln i1

xi

Total

Donc :

2 xi 

yi

 N ln x

2

et  ˆ  ln y  ˆ ln x

(lnxi)(lnyi) (lnxi )2

lnxi

lnyi

22

120 3,091

4,787

14,797

9,554

23

60

3,135

4,094

12,835

9,828

24

25

3,178

3,219

10,230

10,100

30

10

3,401

2,303

7,833

11,567

60

4

4,094

1,386

5,674

16,761

174

1

5,159

0

0

26,615

51,369

84,425

333 220 22,058 15,789

1 6 22,058 ln x   ln x i   3,676 6 i 1 6 1 6 15,789 ln y   ln y i   2,632 6 i 1 6

128


51 ,369  6  3 ,676  2 ,632  ̂   1 ,9964459  2 2 84 ,425  6  3 ,676   ˆ  ln y   ln x  2 ,632  2  3 ,676  2 ,632  7 ,352  9 ,984 9 , 984  21676,847  a  2 ,   ln b et b  e

Donc l’ajustement est :

b 21676 ,847 y a  x2 x

5- Quelle est Le prix unitaire du produit avec cette approximation pour produire 15 unités.

b 21676 ,847 21676 ,847   96 ,342 y a  2 2 15 x x

129


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.