C
EX TR AI T
S
I
E
N
C
E
S
H
U
M
A
I
N
E
S
Table des matières Introduction La quantification : concept de base et intérêt pour la science La quantification et la démarche scientifique Première Étape : La construction de la problématique Sous-étape 1 : Le choix d’une question de départ Sous-étape 2 : La recension critique des documents sur la question Sous-étape 3 : La formulation d’une hypothèse ou d’un objectif Deuxième Étape : La collecte des données Sous-étape 1 : Le choix des sources de données Sous-étape 2 : La planification du matériel requis Sous-étape 3 : La mise au point du déroulement de la collecte Troisième Étape : L’analyse des données Sous-étape 1 : La prise en considération des facteurs déterminant l’analyse Sous-étape 2 : La description statistique des données Sous-étape 3 : L’application de procédures d’inférence statistique Quatrième Étape : L’interprétation des résultats Cinquième Étape : La communication des résultats L’organisation de la matière
Étape 1 La construction de la problématique Chapitre 1 Définir ce sur quoi portera la recherche 1.1
Le choix d’une question de départ 1.1.1 1.1.2
Les questions descriptives Les questions portant sur un lien de cause à effet
1.2
La recension critique des documents sur la question
1.3
La formulation d’une hypothèse ou d’un objectif 1.3.1
1.3.2
La A. B. La
différence entre hypothèse et objectif L’hypothèse L’objectif formulation opérationnelle
En bref On s’entraîne
Étape 2 La collecte des données Chapitre 2 Planifier la collecte des données et la réaliser 2.1
Le choix des sources de données : l’échantillonnage 2.1.1 2.1.2 2.1.3
L’utilité de l’échantillonnage Les concepts de base Les principales techniques d’échantillonnage
INTRODUCTION
1
A. B. C. D.
2.2
La planification du matériel requis 2.2.1 2.2.2
2.3
La différence entre une technique aléatoire et une technique non aléatoire Les techniques d’échantillonnages aléatoires ou probabilistes Les techniques d’échantillonnages non aléatoires ou non probabilistes Le choix d’une technique aléatoire ou non aléatoire
Une grande variété dans le matériel de collecte Un instrument de collecte particulier : le questionnaire d’enquête A. Deux grandes catégories de questions B. La quantification des réponses et la qualité des questions
La mise au point du déroulement de la collecte
En bref On s’entraîne
Étape 3 L’ANALYSE DES DONNÉES Chapitre 3 Prendre en considération les facteurs déterminant l’analyse 3.1
Le nombre de variables impliquées
3.2
La nature de chaque variable 3.2.1 3.2.2
3.3
L’échelle de mesure des variables 3.3.1 3.3.2 3.3.3 3.3.3
3.4
Les variables qualitatives Les variables quantitatives
L’échelle L’échelle L’échelle L’échelle
nominale ordinale intervallaire proportionnelle
Le type de données recueillies 3.4.1 Les données directes 3.4.2 Les données construites A. Les totaux B. Les rapports C. Les indices
3.5
L’objet même de l’hypothèse ou de l’objectif
En bref On s’entraîne
Chapitre 4 Décrire une variable qualitative 4.1
La distribution d’une variable qualitative 4.1.1 4.1.2
4.1.3
2
INTRODUCTION
Le Le A B. La A. B. C.
dénombrement et le calcul des fréquences de base tableau de fréquences à simple entrée avec données groupées par modalités Les fréquences rapportées dans un tableau Les normes de présentation d’un tableau représentation graphique L’illustration du rapport entre chaque modalité et l’ensemble L’illustration de la comparaison entre les modalités L’illustration des fréquences cumulées
4.2
Deux mesures de tendance centrale typiques : le mode et la médiane 4.2.1
4.2.2
4.2.3
Le A. B. La A. B. Le A. B. C.
mode La détermination du mode L’interprétation statistique du mode médiane : détermination et interprétation statistique Le cas des données non groupées Le cas des données groupées choix d’une mesure pertinente Les données de niveau nominal Les données de niveau ordinal L’illustration
En bref On s’entraîne
Chapitre 5 Décrire une variable quantitative discrète avec peu de valeurs possibles 5.1
La distribution d’une variable quantitative discrète 5.1.1 5.1.2 5.1.3
5.2
Le Le La A. B. C.
dénombrement et le calcul des fréquences de base tableau de fréquences à simple entrée avec données groupées par valeurs représentation graphique L’illustration du rapport entre chaque valeur et l’ensemble L’illustration de la comparaison entre les valeurs L’illustration des fréquences cumulées
Trois mesures de tendance centrale typiques : le mode, la médiane et la moyenne 5.2.1 5.2.2 5.2.3
5.2.4
Le La La A. B. Le A. B. C.
mode : détermination et interprétation statistique médiane : détermination et interprétation statistique moyenne : détermination et interprétation statistique La détermination de la moyenne L’interprétation statistique de la moyenne choix de la mesure appropriée L’avantage de la moyenne Les désavantages de la moyenne L’intérêt d’utiliser plus d’une mesure
En bref On s’entraîne
Chapitre 6 Décrire une variable quantitative continue ou quasi continue : distribution et mesures de tendance centrale 6.1
La distribution d’une variable continue ou quasi continue 6.1.1
6.1.2 6.1.3
La A. B. C. Le La A. B. C.
construction des classes de fréquences et le dénombrement Les classes fermées d’égale amplitude Les classes fermées d’amplitudes inégales Les classes ouvertes tableau à simple entrée avec données groupées par classes représentation graphique de données groupées par classes Les classes fermées d’égale amplitude Les classes fermées d’amplitudes inégales Les classes ouvertes
INTRODUCTION
3
6.2
Trois mesures de tendance centrale typiques : le mode, la médiane et la moyenne 6.2.1
6.2.2
6.2.3
6.2.4
Le A. B. La A. B. La A. B. Le A. B.
mode : détermination et interprétation statistique La détermination du mode L’interprétation statistique du mode médiane : détermination et interprétation statistique La détermination de la médiane L’interprétation statistique de la médiane moyenne : détermination et interprétation statistique La détermination de la moyenne L’interprétation statistique de la moyenne choix de la mesure appropriée et la forme de la distribution Les formes de distribution Le choix d’une mesure de tendance centrale appropriée
En bref On s’entraîne
Chapitre 7 Décrire une variable quantitative continue ou quasi continue : mesures de dispersion et de position 7.1
Des mesures de dispersion typiques 7.1.1 7.1.2 7.1.3
7.1.4
7.2
L’étendue L’écart moyen L’écart type A. La détermination de l’écart type B. L’interprétation statistique de l’écart type Le coefficient de variation A. La détermination du coefficient de variation B. L’interprétation statistique du coefficient de variation
Des mesures de position typiques 7.2.1
7.2.2
7.2.3
La cote z A. La détermination de la cote z B. L’interprétation statistique de la cote z Les quantiles A. La détermination des quantiles B. L’interprétation statistique des quantiles Les rangs A. Le rang brut B. Le rang cinquième C. Le rang centile
En bref On s’entraîne
Chapitre 8 Décrire le lien entre variables 8.1
Le lien entre deux variables qualitatives 8.1.1
4
INTRODUCTION
La A. B. C.
distribution de deux variables qualitatives Le calcul des fréquences Le tableau à double entrée avec données groupées par modalité La représentation graphique
8.1.2
8.2
8.2.2
Aucune valeur n’a été prédéterminée A. La représentation graphique des données B. L’évaluation du lien à partir du diagramme de dispersion C. La mesure du lien entre deux variables quantitatives D. La détermination de la droite de régression Les valeurs de la variable indépendante sont prédéterminées A. Un cas type d’hypothèse relationnelle : la série chronologique B. Le cas d’une hypothèse causale
Le lien entre une variable qualitative et une variable quantitative 8.3.1
8.3.2
8.3.3
8.4
mesure du lien entre deux variables qualitatives Le calcul des fréquences théoriques Le calcul du khi carré Le calcul du coefficient de contingence et du coefficient de Cramer L’interprétation statistique d’une mesure d’association
Le lien entre deux variables quantitatives 8.2.1
8.3
La A. B. C. D.
La A. B. La A. B. La
variable qualitative comme variable dépendante Le cas d’une hypothèse causale Le cas d’une hypothèse relationnelle variable quantitative comme variable dépendante Les mesures appartenant à des séries chronologiques Les mesures provenant de différentes conditions ou différents groupes variable quantitative dépendante dans une série chronologique
Le lien entre plus de deux variables 8.4.1 8.4.2
La distribution de fréquences impliquant trois variables ou plus Une variable quantitative fonction de deux autres variables
En bref On s’entraîne
Chapitre 9 Inférer à partir des données : la distribution normale et l’estimation de paramètre 9.1
La distribution normale 9.1.1 9.1.2 9.1.3
9.2
Quelques jalons historiques Les caractéristiques de base de la distribution normale La table de distribution normale A. L’aire sous la courbe entre deux cotes z données B. Les cotes z comprenant une aire donnée sous la courbe C. L’application de la table à une variable distribuée normalement
L’estimation de paramètre : deux cas types 9.2.1
9.2.2
L’estimation d’une proportion A. La détermination de la marge d’erreur B. La détermination de l’intervalle de confiance d’une proportion C. L’interprétation de l’intervalle de confiance d’une proportion L’estimation d’une moyenne A. La détermination de la marge d’erreur B. La détermination de l’intervalle de confiance d’une moyenne C. L’interprétation de l’intervalle de confiance d’une moyenne
En bref On s’entraîne
INTRODUCTION
5
Chapitre 10 Inférer à partir des données : les tests d’hypothèses 10.1
Le test d’hypothèse sur le lien entre deux variables qualitatives 10.1.1 10.1.2 10.1.3 10.1.4 10.1.5 10.1.6 10.1.7
La Le Le Le La La La
formulation des hypothèses choix du seuil de signification choix du test approprié calcul de la variable d’écart détermination de la valeur critique formulation de la règle de décision prise de décision et l’interprétation statistique
10.2 Le test d’hypothèse sur la différence entre deux moyennes 10.2.1 10.2.2 10.2.3 10.2.4 10.2.5 10.2.6 10.2.7
La Le Le Le La La La
formulation des hypothèses choix du seuil de signification choix du test approprié calcul de la variable d’écart détermination de la valeur critique formulation de la règle de décision prise de décision et l’interprétation statistique
10.3 Le test d’hypothèse sur le lien entre deux variables quantitatives 10.3.1 10.3.2 10.3.3 10.3.4 10.3.5 10.3.6 10.3.7
La Le Le Le La La La
formulation des hypothèses choix du seuil de signification choix du test approprié calcul de la variable d’écart détermination de la valeur critique formulation de la règle de décision prise de décision et l’interprétation statistique
10.4 Quelques considérations sur le choix d’un test d’hypothèse En bref On s’entraîne
Étape 4 L’INTERPRÉTATION DES RÉSULTATS Chapitre 11 Interpréter des résultats : but et facteurs à considérer 11.1
La différence entre interprétation statistique et interprétation théorique
11.2
La démarche d’interprétation théorique 11.2.1 La vérification d’une hypothèse A. L’hypothèse n’a pas été confirmée B. L’hypothèse a été confirmée 11.2.2 L’atteinte d’un objectif
En bref On s’entraîne
6
INTRODUCTION
Chapitre 8 Décrire le lien entre variables
DÉMARCHE SCIENTIFIQUE : Les 4 étapes de base de la recherche proprement dite Étape 1
Étape 2
Étape 3
Étape 4
La construction de la problématique
La collecte des données
L’analyse des données
L’interprétation des résultats
Chapitre 1
Chapitre 2
Chapitres 3 à 10
Chapitre 11
Prise en considération des facteurs déterminant l’analyse
Inférence statistique à partir des données
Description statistique des données
Chapitre 3
L’hypothèse ou l’objectif met en jeu deux variables ou plus
L’hypothèse ou l’objectif met en jeu une seule variable
La distribution normale et l’estimation de paramètres
Les tests d’hypothèses Chapitre 10
Chapitre 9
La variable est qualitative Chapitre 4
La variable est quantitative avec peu de valeurs possibles Chapitre 5
OBJECTIFS
La variable est quantitative avec un grand nombre de valeurs possibles
Le lien entre deux variables ou plus Chapitre 8
Chapitres 6 et 7
À la fin de ce chapitre, vous devriez pouvoir décrire statistiquement des données impliquant deux variables ou plus, c’est-à-dire :
• Lorsque l’hypothèse ou l’objectif met en jeu deux va-
•
riables qualitatives - dresser un tableau et tracer un graphique approprié aux données, puis les interpréter ; - calculer et interpréter le khi carré ainsi que les mesures d’association que sont le coefficient de contingence et le coefficient de Cramer ; Lorsque l’hypothèse ou l’objectif met en jeu deux variables quantitatives, s’il y a lieu : - tracer et interpréter un diagramme de dispersion ;
•
- calculer et interpréter le coefficient de corrélation linéaire de Pearson ; - calculer, tracer et interpréter la droite de régression ; Lorsque l’hypothèse ou l’objectif met en jeu une variable qualitative et une variable quantitative, pouvoir présenter et interpréter un tableau de résultats et un graphique appropriés selon que : - la variable qualitative est considérée comme variable dépendante ;
1
orsqu’on est en présence d’une hypothèse ou d’un objectif portant sur un lien entre variables, que le lien soit de type causal ou relationnel, les situations pouvant se présenter sont nombreuses et la description statistique des résultats devient rapidement complexe. C’est pourquoi ce chapitre ne comporte que les cas de liens entre variables les plus typiques : le lien entre deux variables qualitatives, le lien entre deux variables quantitatives, le lien entre une variable qualitative et une variable quantitative, ainsi que quelques cas mettant en jeu des liens entre plus de deux variables.
L
le chapitre 1, Voir Hypothèse causale et
8.1
Le lien entre deux variables qualitatives
La marche à suivre pour décrire le lien entre deux variables qualitatives sera expliquée à l’aide de l’exemple type ci-dessous et du tableau 8.1.
Hypothèse relationnelle.
Exemple type 1 • Le professeur s’intéressant aux stéréotypes sexuels rattachés à certaines activités scolaires (voir l’exemple type 1 du chapitre 4) avait également demandé à ses élèves, outre leur préférence pour un partenaire masculin ou féminin, de choisir un travail de français ou un travail de mathématiques. • En recueillant ces données, le professeur voulait vérifier l’hypothèse relationnelle suivante :
Il existe un lien entre la nature du travail choisi et la préférence concernant le sexe du partenaire d’équipe.
Tableau 8.1 No élève
Réponses fournies par 60 élèves d’un cégep concernant la nature du travail choisi et leur préférence concernant le sexe du partenaire d’équipe
Travail Partenaire
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Fr Fr Mth Fr Mth Mth Fr Mth Fr Fr Fr Fr Mth Mth Fr
F F R M R F M M M F F I F I I
No élève 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Travail Partenaire Fr Fr Fr Fr Fr Fr Fr Mth Mth Fr Mth Fr Fr Mth Mth
M R F F M I I F M R F A F F I
No élève 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45
Travail Partenaire Mth Mth Mth Fr Mth Mth Fr Fr Fr Fr Fr Mth Mth Fr Mth
M M I R F F F F R F I I M I M
No élève 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60
Travail Partenaire Fr Fr Mth Mth Fr Fr Fr Fr Fr Fr Fr Mth Mth Fr Fr
Note : Pour le travail, les choix exprimés sont les modalités Français (Fr) ou Mathématiques (Mth), tandis que pour la préférence concernant un partenaire d’équipe, on a les modalités Féminin (F), Masculin (M), Indifférent (I) ou Refus de répondre (R).
2
ÉTAPE 1 • La construction de la problématique
M I F F M F F F I F F I M M R
Les choix formulés par les élèves sur chaque variable qualitative de l’enquête sont compilés dans le tableau ci-dessus. On traite ces données brutes de la même manière qu’on ait affaire à un objectif, à une hypothèse causale ou à une hypothèse relationnelle, comme dans le cas de l’exemple type 1. Le traitement des données consiste à établir la distribution des variables l’une par rapport à l’autre, puis à calculer certaines mesures de lien entre les variables.
8.1.1
La distribution de deux variables qualitatives
Établir la distribution des variables l’une par rapport à l’autre requiert que l’on procède d’abord au calcul des fréquences, qu’on en dresse le tableau puis qu’on en fasse une représentation graphique.
A Le calcul des fréquences Lorsqu’on parle de série statistique, sans plus de précision, on fait habituellement référence à une série statistique univariée, c’est-à-dire à une série n’impliquant qu’une variable. Lorsque deux variables sont en cause, comme dans le tableau 8.1, l’expression statistique bivariée rend explicite le fait qu’on a des paires de données permettant de caractériser chaque unité par rapport aux deux variables. Tel qu’illustré ci-après, la technique du dénombrement manuel utilisée avec une série univariée dans les chapitres 4 à 7, peut également l’être avec des séries bivariées : il suffit de prévoir autant de cases qu’il y a de combinaisons de modalités.
Série statistique univariée Série statistique n’impliquant qu’une variable. Série statistique bivariée Série constituée de paires de données recueillies auprès des différentes unités statistiques d’une population ou d’un échantillon et permettant de caractériser chaque unité par rapport à deux variables.
Préférence concernant le sexe du partenaire d’équipe Nature du travail choisi
Féminin
Masculin
Français Mathématiques
= 17 =7
Indifférent = 10
=5
=5
Refus de répondre =3
=8
=5
UN « FAUX TABLEAU !» Bien qu’il ressemble à un tableau, le quadrillage ci-contre n’en constitue pas un. Il illustre simplement une façon pratique d’utiliser la technique du dénombrement pour calculer les fréquences à partir desquelles on dressera ensuite un tableau en bonne et due forme.
Décrire le lien entre variables • CHAPITRE 8
3
8.1 Trente-deux adultes québécois issus de différents milieux (Ville, Banlieue, Campagne) ont été interrogés pour connaître leur intention de vote dans le cadre d’un référendum sur la souveraineté du Québec (En faveur, Opposé, Indécis). Voici les résultats obtenus. Individu Milieu 1 2 3 4 5 6 7 8
V V B C V C B B
Vote F O F O I F O F
Individu Milieu 19 10 11 12 13 14 15 16
V V B V C V B V
Vote
Individu Milieu
O I I O O I F F
17 18 19 20 21 22 23 24
C V B C B B V C
Vote I F F F O O F F
Individu Milieu 25 26 27 28 29 30 31 32
B V V C B V C V
Vote O O I F O O F O
Légende des modalités : V (Ville), B (Banlieue), C (Campagne), F (En faveur), O (Opposé), I (Indécis).
a) Procédez au dénombrement des données ci-dessus. b) Déterminez la proportion des gens interrogés qui sont en faveur de la souveraineté.
Voir le chapitre 4, Les normes de présentation d’un tableau.
Voir le chapitre 1, Hypothèse relationnelle.
4
B
Le tableau à double entrée avec données groupées par modalité
La présentation en tableau des fréquences établies à partir d’une série bivariée applique les mêmes principes qu’avec une série statistique univariée. La présence de deux variables oblige cependant à distinguer différents cas selon ce qu’on désire mettre en évidence par rapport à l’hypothèse ou à l’objectif, en particulier selon que l’hypothèse est relationnelle ou causale.
a Cas d’une hypothèse relationnelle I
Lorsque l’hypothèse est relationnelle, les totaux indiqués et, surtout, la façon de calculer les fréquences relatives dépendent de l’angle sous lequel on désire examiner le lien entre les variables.
ÉTAPE 3 • L’analyse des données
1)
Hypothèse portant sur la simple existence d’un lien
Le tableau 8.2 est un tableau de fréquences typique qui a été dressé à partir des données de l’exemple type 1. Comme il s’agit ici d’un tableau dans lequel les données sont présentées en fonction de deux variables, on l’appelle souvent tableau à double entrée. Cette appellation le différencie d’ailleurs des tableaux à simple entrée qui ont été vus au cours des chapitres précédents. Toutefois, comme un tableau à double entrée peut, en fait, présenter d’autres données que des fréquences, on utilisera dans ce chapitre l’expression tableau de contingence pour faire référence spécifiquement à un tableau de fréquences où la répartition des unités statistiques est présentée en fonction de deux variables ou plus; l’appellation tableau croisé est également utilisée dans ce cas. Tableau 8.2
Tableau à double entrée Tableau dans lequel les données sont présentées en fonction de deux variables. Tableau de contingence (tableau croisé) Tableau de fréquences où la répartition des unités statistiques est présentée en fonction de deux variables ou plus.
Répartition de 60 élèves d’un cégep selon la nature du travail choisi et leur préférence concernant le sexe du partenaire d’équipe Préférence concernant le sexe du partenaire d’équipe
Nature du travail choisi
Féminin
Masculin
Indifférent
Refus de répondre
Total
Français
17 (28,3 %)
10 (16,7 %)
5 (8,3 %)
3 (5,0 %)
35 (58,3 %)
Mathématiques
7 (11,7 %)
5 (8,3 %)
8 (13,3 %)
5 (8,3 %)
25 (41,7 %)
Total
24 (40,0 %)
15 (25,0 %)
13 (21,7 %)
8 (13,3 %)
60 (100,0 %)
Il est à noter que le tableau 8.2 présente des fréquences absolues et des fréquences relatives, bien que ce ne soit pas toujours le cas, ainsi que le rappelle l’encadré « Quelles fréquences inclure ? ». On y trouve par ailleurs, outre le grand total, le total partiel des fréquences par rangée et par colonne.
QUELLES FRÉQUENCES INCLURE ? Il arrive fréquemment qu’un tableau de contingence ne présente que les fréquences relatives, les fréquences absolues se trouvant éventuellement dans un autre tableau. Un tel tableau est évidemment plus simple à consulter, mais il ne donne pas accès rapidement aux deux catégories d’informations. Par contre, lorsqu’on inclut les deux types de fréquences dans un même tableau, on doit pouvoir repérer facilement l’un ou l’autre type d’information. Le choix de l’une ou l’autre stratégie – tableaux différents ou même tableau – dépend à la fois de la clarté de la présentation et de ce sur quoi on compte mettre l’accent ultérieurement dans l’analyse et l’interprétation des données. Autre point important : même si les fréquences cumulées pourraient être rapportées dans un tableau de contingence, la représentation de la relation entre variables serait plus complexe. C’est pourquoi on se contente généralement, comme ici, de présenter les fréquences non cumulées.
Décrire le lien entre variables • CHAPITRE 8
5
Il y a lieu ici de noter que les fréquences relatives ont été calculées en prenant en considération la façon dont l’hypothèse a été formulée dans le cas de l’exemple type, à savoir qu’elle suppose l’existence d’un lien entre les variables étudiées, mais sans plus. Le calcul des fréquences relatives a donc été fait en prenant le grand total comme dénominateur. Cette façon de procéder vise à évaluer l’importance relative, par rapport à l’ensemble des données, de chaque combinaison de modalités des variables nature du travail choisi et préférence concernant le sexe du partenaire d’équipe. À titre d’exemple, la fréquence 17, qui correspond au nombre de répondants ayant fourni la combinaison de réponses « Français–Féminin », représente environ 28,3 % des 60 répondants.
2) Hypothèse prenant une variable comme référence Dans la pratique, il est très fréquent qu’on veuille examiner les résultats en prenant une des variables comme référence. Dans l’exemple type 1, le professeur pourrait désirer analyser ses résultats en prenant la variable nature du travail choisi comme variable de référence afin d’étudier l’hypothèse selon laquelle la préférence concernant le sexe du partenaire d’équipe varie selon la nature du travail choisi. La variable prise comme référence est alors prise comme variable indépendante au sens large, la variable préférence concernant le sexe du partenaire d’équipe étant ainsi considérée comme variable dépendante. Le tableau 8.3 illustre la façon dont se présentent les résultats dans un tel cas. Pour chacune des modalités de la variable nature du travail choisi, modalités correspondant aux différentes rangées, la fréquence relative est calculée en utilisant comme dénominateur le total de la rangée où se trouve la fréquence absolue. Ainsi, mise en rapport avec 35 – le total correspondant à la rangée Français –, la fréquence absolue 17 donne 48,6%, indiquant qu’environ 48,6% des 35 personnes ayant choisi un travail de français préfèrent travailler en équipe avec une fille. Comme on peut le constater, cette façon de procéder fait en sorte que les pourcentages totalisent 100 % dans le sens horizontal – même si, dans le cas présent, un des totaux n’indique pas 100 % en raison des arrondissements effectués. Autre point à souligner : le titre exprime clairement la relation d’une des variables en fonction de l’autre, plutôt que la simple répartition de l’ensemble des répondants par rapport aux deux variables.
Tableau 8.3
Préférence exprimée par 60 élèves d’un cégep concernant le sexe du partenaire d’équipe selon la nature du travail choisi Préférence concernant le sexe du partenaire d’équipe
Nature du travail choisi
Féminin
Masculin
Indifférent
Autre réponse
Total
Français
17 (48,6 %)
10 (28,6 %)
5 (14,3 %)
3 (8,6 %)
35 (100,1 %)
Mathématiques
7 (28,0 %)
5 (20,0 %)
8 (32,0 %)
5 (20,8 %)
25 (100,0 %)
Note : Le pourcentage affiché dans une des rangées n’égale pas 100 % en raison des arrondissements.
6
ÉTAPE 3 • L’analyse des données
DES TOTAUX INUTILES À noter que le total des fréquences pour chaque modalité de la variable préférence concernant le sexe du partenaire d’équipe – ici le total des colonnes – a été omis, étant donné qu’il n’est pas pertinent au regard de l’hypothèse étudiée.
Le professeur pourrait également choisir d’examiner ses données sous un autre angle, à savoir comment les élèves ayant fait un choix de partenaire se répartissent par rapport au type de travail. Dans ce cas, c’est la variable préférence concernant le sexe du partenaire d’équipe qui deviendrait la variable indépendante –au sens large, encore ici – en fonction de laquelle serait examinée la distribution de la variable dépendante nature du travail choisi. Les différentes modalités de la variable dépendante correspondant cette fois-ci aux différentes colonnes, ce sont alors les totaux de colonnes qu’il aurait été approprié d’utiliser au dénominateur dans le calcul des fréquences relatives. C’est ce qui est fait dans le tableau 8.4, où la fréquence 17 (Français – Féminin) représente cette fois environ 70,8 % des 24 personnes ayant choisi de travailler avec un partenaire féminin. Comme on peut également le constater, ce sont les colonnes qui, dans ce cas, totalisent 100 %. Ici encore, le titre explicite le sens de la relation étudiée entre les variables. Tableau 8.4
Nature du travail choisi par 60 élèves d’un cégep selon la préférence concernant le sexe du partenaire d’équipe Préférence concernant le sexe du partenaire d’équipe
Nature du travail choisi
Féminin
Masculin
Indifférent
Refus de répondre
Français
17 (70,8 %)
10 (66,7 %)
5 (38,5 %)
3 (37,5 %)
Mathématiques
7 (29,2 %)
5 (33,3 %)
8 (61,5 %)
5 (62,5 %)
Total
24 (100,0 %)
15 (100,0 %)
13 (100,0 %)
8 (100,0 %)
DES TOTAUX INUTILES À la différence du tableau 8.3, c’est le total des fréquences pour chaque modalité de la variable nature du travail choisi – ici le total des rangées – qui a été omis, parce que non pertinent au regard de l’hypothèse étudiée.
Décrire le lien entre variables • CHAPITRE 8
7
8.2 a) À partir du dépouillement effectué dans la pause-exercice 8.1, construisez un tableau de contingence incluant les fréquences absolues de même que les fréquences relatives appropriées à l’hypothèse suivante.
La position face à la souveraineté varie en fonction du milieu du répondant. b) En quoi le calcul des fréquences relatives fait en a serait-il changé dans le cas de l’hypothèse suivante ?
Le milieu du répondant varie en fonction de la position face à la souveraineté.
b Cas d’une hypothèse causale I Si l’hypothèse étudiée est causale, c’est-à-dire lorsqu’elle met en jeu un lien de cause à effet impliquant une variable indépendante au sens strict du terme, les fréquences relatives doivent être calculées en se servant du total correspondant à chaque modalité de la variable indépendante et seulement de cette façon.
Exemple • Lors d’une expérience portant sur l’apparence et le comportement d’aide, des étudiants ont fait varier le type d’habillement (Négligé, Normal, Élégant) d’une personne demandant de la monnaie pour téléphoner et observé son effet sur le comportement d’aide des personnes sollicitées (Accepte d’aider, Refuse d’aider). Leur hypothèse était la suivante : La proportion de personnes acceptant d’aider varie en fonction du type d’habillement du solliciteur.
8
ÉTAPE 3 • L’analyse des données
• À partir de leurs résultats, les étudiants ont dressé le tableau ci-après où, le type d’habillement constituant ici une variable indépendante au sens strict, les fréquences relatives sont calculées par rapport au total des fréquences absolues correspondant à chaque modalité. Comportement d’aide manifesté par 75 sujets en fonction du type d’habillement Type d’habillement Comportement d’aide
Négligé
Normal
Élégant
Accepte d’aider
9 (36,0 %)
15 (60,0 %)
17 (68,0 %)
Refuse d’aider
16 (64,0 %)
10 (40,0 %)
8 (32,0 %)
Total
25 (100,0 %)
25 (100,0 %)
25 (100,0 %)
• Dans nombre de recherches expérimentales où la nature des unités statistiques n’est pas jugée pertinente à la question posée, on ne la mentionne pas dans le titre. Elle doit néanmoins toujours l’être dans l’exposé de la méthodologie. Dans une expérience comme celle rapportée dans l’exemple ci-dessus, on fait généralement en sorte que le nombre de personnes soit le même pour chaque modalité de la variable indépendante, ce qui permet une comparaison des données à partir des seules fréquences absolues. Néanmoins, le calcul des fréquences relatives est utile pour évaluer l’ordre de grandeur de chaque fréquence.
C
La représentation graphique
Différents types de graphiques peuvent illustrer le lien entre deux variables qualitatives. Ce sont d’ailleurs les mêmes graphiques qui ont servi à représenter une seule variable. Ici aussi, ils vont permettre de comparer une partie à l’ensemble ou des parties entre elles.
a Comparaison d’une partie par rapport à l’ensemble I
le chapitre 4, Voir L’illustration du rapport entre chaque modalité et l’ensemble et L’illustration de la comparaison entre les modalités.
Il s’agit d’illustrer la façon dont la proportion correspondant aux différentes modalités d’une variable – ici, la préférence pour le sexe du partenaire d’équipe – varie par rapport au sous-ensemble spécifié par chacune des modalités de l’autre variable – la nature du travail choisi. Lorque les deux variables sont de niveau nominal, on peut les représenter par des diagrammes circulaires (ou à secteurs), comme dans la figure 8.1. Chaque diagramme correspond alors à une modalité d’une des variables, qu’on a choisie comme variable de référence (variable indépendante). Si les variables sont de niveau nominal ou ordinal, on peut utiliser des diagrammes linéaires horizontaux ou verticaux, comme dans la figure 8.2.
Décrire le lien entre variables • CHAPITRE 8
9
Figure 8.1
Préférence exprimée par 60 élèves d’un cégep concernant le sexe du partenaire d’équipe selon la nature du travail choisi
Figure 8.2
Préférence concernant le sexe du partenaire
Préférence concernant le sexe du partenaire
I Féminin I Masculin
Préférence exprimée par 60 élèves d’un cégep concernant le sexe du partenaire d’équipe selon la nature du travail choisi
I Indifférent I Refus de répondre
I Féminin I Masculin
Proportion d’élèves (%)
100 8,6 % 14,3 %
28,0 %
20,0 % 28,6 %
48,6 %
20,0 %
32,0 %
Français
80 60
Note : La figure ci-dessus illustre l’utilisation de diagrammes circulaires avec deux variables qualitatives.
8,6 % 14,3 %
20,0 %
28,6 %
32,0 %
40
20,0 % 48,6 %
20
28,0 %
0
Mathématiques Nature du travail
I Indifférent I Refus de répondre
Français Mathématiques Nature du travail
Note : La figure ci-dessus illustre l’utilisation de diagrammes linéaires avec deux variables qualitatives.
b Comparaison des parties entre elles I Le diagramme à rectangles chevauchés, illustré sous sa forme verticale à la figure 8.3, permet une comparaison de partie à partie, c’est-à-dire tant entre les modalités d’une variable donnée qu’entre les modalités de l’autre variable. Ainsi, le nombre d’élèves (17) ayant choisi de travailler avec un partenaire féminin pour un travail de français peut aisément être comparé soit avec le nombre d’élèves (10, 5 et 3) ayant fait les autres choix faits pour le même type de travail, soit avec le nombre d’élèves (7) ayant fait le même choix de partenaire mais pour un travail de mathématiques. À noter qu’on peut également trouver une version horizontale de ce type de diagramme. Figure 8.3
18
Répartition de 60 élèves d’un cégep selon la nature du travail choisi et leur préférence pour le sexe du partenaire d’équipe 17
I Français I Mathématiques
16 Nombre d’élèves
14 12 10
10 8
8
7
6
5
5
5
4
3
2 0 Féminin
Masculin
Indifférent
Refus de répondre
Préférence concernant le sexe du partenaire d’équipe Note : La figure ci-dessus illustre l’utilisation d’un diagramme à rectangles chevauchés verticaux avec deux variables qualitatives. Les données proviennent du tableau 8.2.
10
ÉTAPE 3 • L’analyse des données
c Choix du graphique approprié I Il convient de rappeler que le choix d’un graphique dépend en premier lieu de ce qu’on entend mettre en évidence lors de l’interprétation théorique des résultats : la comparaison de partie à tout ou la comparaison des parties entre elles. En second lieu, on doit tenir compte des remarques formulées précédemment concernant les cas où certaines traditions de recherche accordent la faveur aux diagrammes de type horizontal, alors que les chercheurs préfèrent généralement ceux de type vertical, se conformant en cela à la façon de faire habituelle en mathématiques.
Voir le chapitre 11, Inter-
préter des résultats : but et facteurs à considérer.
le chapitre 4, Voir B. L’illustration de la comparaison entre les modalités, a. Diagrammes à rectangles ou à bandes rectangulaires.
Exemple La figure suivante illustre une façon typique de porter en graphique des résultats tels que ceux issus de la recherche sur le comportement d’aide en fonction du type d’habillement. Comportement d’aide manifesté par 75 sujets en fonction du type d’habillement
I Accepte d’aider
I Refuse d’aider
80 Proportion de sujets (%)
70
64 %
60
68 % 60 %
50 40
36 %
40 % 32 %
30 20 10 0 Négligé
Normal Type d’habillement
Élégant
Décrire le lien entre variables • CHAPITRE 8
11
8.3 Tracez un graphique illustrant les résultats présentés dans le tableau de contingence suivant. Note obtenue en mathématiques par 120 universitaires en fonction de leur appartenance ou non à une équipe sportive Appartenance à une équipe sportive Note en mathématiques
Oui
Non
A-B
28 (46,7 %)
12 (20,0 %)
C-D
21 (35,0%)
9 (15,0%)
E ou autres
11 (18,3 %)
39 (65,0 %)
Total
60 (100,0 %)
60 (100,0 %)
8.1.2
La mesure du lien entre deux variables qualitatives
La figure 8.3 permet de constater que la distribution de la préférence pour le choix d’un partenaire d’équipe n’est pas la même selon qu’il s’agit d’un travail de français ou de mathématiques, et réciproquement. Quand la distribution d’une variable change ainsi en fonction d’une autre, c’est-à-dire quand les fréquences correspondant aux différentes modalités d’une variable dépendent de la modalité considérée sur l’autre variable, on dit que les variables sont liées.
Mesure d’association Mesure d’évaluation de la force du lien qui peut exister entre deux ou plus de deux variables qualitatives.
12
Pour obtenir une mesure portant sur la force du lien qui peut exister entre deux variables qualitatives ou plus, on utilise ce qu’on appelle habituellement des mesures d’association. Généralement, le calcul de ces mesures requiert au préalable de calculer des fréquences théoriques et le khi carré. Parmi les mesures qu’il est ensuite possible de déterminer, deux seront décrites ici : le coefficient de contingence et le coefficient de Cramer. Comme on le verra par ailleurs, l’interprétation statistique de ces mesures n’est pas toujours simple à formuler.
ÉTAPE 3 • L’analyse des données
A
Le calcul des fréquences théoriques
Dans le cas d’un tableau de contingence, on appelle fréquence théorique (ft) – ou fréquence attendue ou encore fréquence espérée – la fréquence à laquelle on devrait théoriquement s’attendre s’il n’y avait pas de lien entre les variables considérées. Le calcul des fréquences théoriques constitue donc le premier pas dans la mesure du lien entre deux variables qualitatives puisqu’il va permettre d’abord de définir mathématiquement une situation où il n’y aurait pas de lien entre les variables, puis d’évaluer la force du lien. Le calcul des fréquences théoriques s’effectue à partir des fréquences observées (fo), c’est-à-dire des fréquences absolues effectivement obtenues lors d’une recherche. Pour faciliter l’illustration de ce calcul dans le cas de l’exemple type 1, le tableau 8.2 a été reproduit ci-après. Tableau 8.2 (bis)
Fréquence théorique (attendue, espérée) Dans l’étude d’un lien entre deux variables qualitatives, fréquence à laquelle on devrait théoriquement s’attendre s’il n’y avait pas de lien entre les variables considérées. Fréquence observée Fréquence absolue effectivement obtenue lors d’une recherche.
Répartition de 60 élèves d’un cégep selon la nature du travail choisi et leur préférence concernant le sexe du partenaire d’équipe Préférence concernant le sexe du partenaire d’équipe
Nature du travail choisi
Féminin
Masculin
Indifférent
Refus de répondre
Total
Français
17 (28,3 %)
10 (16,7 %)
5 (8,3 %)
3 (5,0 %)
35 (58,3 %)
Mathématiques
7 (11,7 %)
5 (8,3 %)
8 (13,3 %)
5 (8,3 %)
25 (41,7 %)
Total
24 (40,0 %)
15 (25,0 %)
13 (21,7 %)
8 (13,3 %)
60 (100,0 %)
En fait, si le choix du sexe d’un partenaire d’équipe n’avait eu aucun rapport avec la nature du travail, on aurait dû s’attendre, théoriquement, à ce que la proportion de sujets ayant choisi un partenaire féminin soit la même quelle que soit la nature du travail choisi, c’est-à-dire qu’elle corresponde à la proportion dans laquelle ce choix a été fait dans l’ensemble. Donc, puisque 24 élèves sur 60 ont choisi un partenaire féminin, ce qui représente 40 % des répondants, on aurait dû s’attendre à ce que le choix Féminin ait été fait par 24 60
(c’est-à-dire 40 %) des 35 personnes ayant opté pour un travail de français
et
(c’est-à-dire 40 %) des 25 personnes ayant opté pour un travail de
24 60
mathématiques. On aurait ainsi, pour la fréquence théorique associée à la cellule située à l’intersection des modalités Féminin et Français : ft(Féminin ; Français) =
24 ⫻ 35 = 14 60
et, pour la cellule associée à Féminin et Mathématiques : ft(Féminin ; Mathématiques) =
24 ⫻ 25 = 10 60
En appliquant le même raisonnement aux autres combinaisons de modalités, on obtient les autres fréquences théoriques, lesquelles apparaissent dans le tableau 8.5.
Décrire le lien entre variables • CHAPITRE 8
13
Tableau 8.5
Calcul des fréquences théoriques (ft) à partir des fréquences observées (fo) du tableau 8.2 Préférence concernant le sexe du partenaire d’équipe
Nature du travail choisi Français
Mathématiques Total
Féminin fo 17
7
Masculin ft
24 ᎏᎏ × 35 60 = 14 24 ᎏᎏ × 25 60 = 10
Indifférent
fo 10
ft
fo
15 ᎏᎏ × 35 60
≈ 7,583 15 ᎏᎏ × 25 60
≈ 5,417
15 24,0
13 ᎏᎏ × 25 60
8
= 6,25
24
13 ᎏᎏ × 35 60
5
= 8,75 5
ft
13
Refus de répondre fo ft 8 3 ᎏᎏ × 35 60 ≈ 4,667 8 5 ᎏᎏ × 25 60 ≈ 3,333 8
15,0
13,0
Total
fo
ft
35 35,0 25 25,0 60
8,0
60,0
UNE VÉRIFICATION SIMPLE MAIS UTILE ! Comme les fréquences théoriques constituent la base des calculs permettant de mesurer la force du lien entre deux variables qualitatives, il est important de s’assurer que cette première opération a été correctement effectuée, ce qui est simple à vérifier : si on n’a pas fait d’erreur, le total des fréquences théoriques doit être égal à celui des fréquences observées pour chacune des rangées et chacune des colonnes.
À noter que le raisonnement suivi pour calculer la fréquence théorique de la combinaison des modalités Français et Féminin aurait pu se faire en prenant comme point de départ du calcul la proportion des choix correspondant à un travail de français. Le raisonnement aurait alors consisté à dire que, puisque ce choix a été fait par 35 personnes sur 60, on aurait dû théoriquement s’attendre à ce qu’il ait été fait
35 60
par des 24 personnes ayant opté pour un partenaire
d’équipe féminin, d’où : ft(Féminin ; Français) =
35 ⫻ 24 = 14 60
On constate ainsi que : ft(Féminin ; Français) =
冋 6024 ⫻ 35册 = 冋 6035 ⫻ 24册 = 冋 24 60⫻ 35 册 = 14
La fréquence théorique pour la cellule correspondant à une combinaison donnée de modalités peut donc être obtenue par la formule suivante : ft(cellule) =
de la colonne ⫻ Total de la rangée册 = 冋 TotalGrand total de la rangée ⫻ Total de la colonne册 , 冋 TotalGrand total
d’où la formule habituellement présentée : ft(cellule) =
14
ÉTAPE 3 • L’analyse des données
⫻ Total de la rangée 冋 Total de la colonne 册. Grand total
8.4 a) À partir du tableau de contingence dressé lors de la pause-exercice 8.2, construisez un nouveau tableau comprenant les fréquences observées, dans lequel vous inclurez les fréquences théoriques dont vous préciserez le mode de calcul. b) En se basant sur ces fréquences théoriques, peut-on affirmer que le lien entre les variables est élevé ? Justifiez votre réponse.
Il convient ici d’attirer l’attention sur le fait que la plupart des fréquences théoriques qui apparaissent dans le tableau 8.5 comportent des décimales, ce qui est la situation la plus fréquente. La présence de décimales peut paraître surprenante à première vue : il serait impossible, par exemple, que le nombre d’élèves ayant choisi de faire un travail de français avec un partenaire masculin soit de 8,75. Une telle observation illustre bien le caractère théorique de ce type de fréquences, leur utilité fondamentale étant de servir de base de comparaison. Par ailleurs, comme ces valeurs serviront à d’autres calculs, il faut se garder de les arrondir trop hâtivement (voir l’encadré « N’arrondissez pas trop! »).
Décrire le lien entre variables • CHAPITRE 8
15
N’ARRONDISSEZ PAS TROP ! Une erreur fréquente dans le calcul des fréquences théoriques consiste à trop arrondir les valeurs trouvées. Bien que l’effet d’un arrondissement de ces valeurs ne semble pas crucial à ce stade-ci de la démarche, il importe de savoir que les fréquences théoriques sont généralement employées dans des calculs comportant des mises au carré et des extractions de racine carrée, ce qui multiplie rapidement l’imprécision consécutive à un arrondissement. Quelle règle suivre alors ? À vrai dire, il n’y en a pas qui soit universellement admise, l’usage variant selon le degré de précision que l’on désire conserver. Une règle que l’on observe souvent, cependant, consiste à retenir au moins trois chiffres significatifs, tel qu’illustré par les quelques exemples ci-dessous. 46,7 4,67 0,467 0.0467 À noter qu’un chiffre significatif de plus n’est pas interdit : il sera toujours temps d’arrondir plus tard, soit à la fin du calcul de la mesure désirée.
Puisque la distribution des fréquences théoriques décrit une situation où il n’y aurait aucun lien entre les variables, il s’ensuit que plus les fréquences observées diffèrent des fréquences théoriques – ce qui est le cas dans le tableau 8.5 –, plus le lien entre les variables est élevé. Comment s’y prendre alors pour mesurer l’ampleur de cette différence, et donc la force du lien ? C’est ici qu’intervient une mesure qui joue un rôle central en statistiques, le khi carré.
B LE KHI CARRÉ, UNE MESURE AUX GRAPHIES ET AUX APPELLATIONS NOMBREUSES Outre khi carré, il existe différentes façons d’écrire et de désigner cette quantité : khi 2, khi deux, chi carré, chi deux, chi 2. Qu’on écrive chi ou khi, on prononce « ki » ou, si l’on veut, « qui ». le chapitre 7, La déter Voir mination de l’écart type.
16
Le calcul du khi carré
Pour évaluer jusqu’à quel point les fréquences observées diffèrent des fréquences théoriques, on calcule d’abord le khi carré, qu’on note par le symbole χ 2 d’après la lettre grecque χ (voir l’encadré « Le khi carré, une mesure aux graphies et aux appellations nombreuses »). La formule à utiliser est la suivante : χ2 = Σ
(f0 – ft)2 . ft
La procédure à suivre pour appliquer la formule du khi carré peut se ramener à deux étapes de base illustrées dans le tableau 8.6. 1° On calcule, pour chaque cellule correspondant à une combinaison donnée de modalités, l’écart relatif entre la fréquence observée (fo) et la fréquence théorique (ft) de la façon suivante : • on prend la différence, exprimée par (fo – ft), entre la fréquence observée et la fréquence théorique ; • on met au carré cette différence, exprimée alors par (fo – ft)2, de façon à éviter – comme pour le calcul de l’écart type – que les différences positives et négatives s’annulent par la suite ;
ÉTAPE 3 • L’analyse des données
• on relativise cette différence mise au carré en la divisant par la fréquence théorique (ft), ce qui correspond à
(f0 – ft)2 et ft
fait en sorte qu’une différence
au carré, qui serait de 4 par exemple, ait moins de poids par rapport à une fréquence théorique de 80 que par rapport à une fréquence théorique de 20. 2° On calcule, pour l’ensemble des cellules correspondant aux différentes combinaisons de modalités, l’écart relatif global en additionnant les écarts relatifs calculés pour chaque cellule, d’où l’expression χ 2 = Σ
(f0 – ft)2 ft
présentée plus haut : c’est à la valeur ainsi obtenue qu’on fait habituellement référence quand on parle de khi carré. Tableau 8.6
Calcul détaillé du khi carré (χ 2) à partir des fréquences du tableau 8.5 Préférence concernant le sexe du partenaire d’équipe
Nature du Nature du travail travail choisi choisi
Français
Mathématiques
Total
Féminin fo ft (écart relatif)
Masculin fo ft (écart relatif)
Indifférent fo ft (écart relatif)
17
10 8,75 (10 – 8,75)2 ᎏ ᎏ≈ 8, 75 0,179
5
5
8
14
冢
(17– 14)2 ᎏ ᎏ≈ 14 0,643
7
10 (7 – 10)2 ᎏ ᎏ= 10 0,900
冢 24
冣 冢
冣 冢
24,0 (1,543)
15
15,0 (0,429)
冣 冢
Total fo ft (écart relatif)
7,583 (5 – 7,5 83)2 ᎏ ᎏ≈ 7,583 0,880
35
冣 冢
3 4,667 (3 – 4,667)2 ᎏ ᎏ≈ 4,6 67 0,595
5,417 (8 – 5,417)2 ᎏ ᎏ≈ 5,417 1,232
25
冣 冢
5 3,333 (5 – 3,333)2 ᎏ ᎏ≈ 3,333 0,833
冣 冢
6,25 (5 – 6,2 5)2 ᎏ ᎏ= 6,25 0,250
Refus de répondre fo ft (écart relatif)
13
13,0 (2,112)
冣
8
(2,297)
冣
8,0 (1,429)
35,0
25,0
(3,215) 60
60,0 (5,512)
UNE VÉRIFICATION SUPPLÉMENTAIRE ! Pour s’assurer que le calcul du khi carré est juste, il suffit de vérifier que la somme des écarts relatifs des différentes rangées à la même valeur que la somme des écarts relatifs des différentes colonnes, cette valeur étant celle du khi carré (à savoir 5,512 dans le tableau 8.6).
Une fois trouvée la valeur du khi carré, comment en évaluer l’ordre de grandeur ? La valeur 5,512 obtenue dans le tableau 8.6 est supérieure à zéro, ce qui traduit l’existence d’un lien entre les variables, mais une telle valeur indiquet-elle un lien peu élevé ou très élevé ? et de combien ? Il est difficile de le dire en l’absence de point de repère indiquant un maximum possible. En outre, comme l’explique brièvement l’encadré « Nombre d’écarts relatifs et khi carré », un retour attentif sur le mode de calcul du khi carré permet de constater que le nombre de cellules correspondant aux différentes combinaisons de modalités a un effet sur le nombre d’écarts relatifs à additionner et, donc, sur la valeur du khi carré. C’est pour combler ces lacunes que différentes mesures d’association ont été proposées, tels le coefficient de contingence et le coefficient de Cramer.
Décrire le lien entre variables • CHAPITRE 8
17
NOMBRE D’ÉCARTS RELATIFS ET KHI CARRÉ Supposons que, dans deux tableaux de contingence tels que ceux schématisés ci-dessous, l’écart relatif entre fréquence observée et fréquence théorique soit le même dans toutes les cellules et égal. Variable B
Variable A
Variable B
b1
b2
b3
a1
5,1
5,1
5,1
a2
5,1
5,1
5,1
Variable A
b1
b2
a1
5,1
5,1
a2
5,1
5,1
Dans une telle situation, le khi carré, c’est-à-dire la somme des écarts relatifs dans le tableau présentant six cellules, serait forcément plus grande que le khi carré calculé dans le cas du tableau à quatre cellules. Cela voudrait-il dire que le lien entre les variables est plus grand dans le premier cas ? Non, puisque l’écart relatif est le même partout. Le nombre de cellules est donc un facteur qui empêche d’évaluer la force d’un lien entre variables sur la seule base du khi carré.
8.5 a) À partir du tableau de contingence construit à la pause-exercice 8.4, calculez la valeur du khi carré. b) En se basant sur la valeur du khi carré, peut-on dire que le lien entre les variables est élevé ? Justifiez votre réponse.
18
ÉTAPE 3 • L’analyse des données
C
Le calcul du coefficient de contingence et du coefficient de Cramer
Le coefficient de contingence et le coefficient de Cramer sont tous deux basés sur la valeur du khi carré, ce qui n’est pas le cas de toutes les mesures d’association. Ces coefficients ont tous deux l’avantage de pouvoir être utilisés même si les variables ne sont que de niveau nominal. Les formules permettant de calculer ces deux mesures sont les suivantes : Coefficient de contingence (C)
Coefficient de Cramer (V)
冪 χ χ+ n , 2
C=
où :
χ 2 = la valeur du khi carré ;
冪 n(hχ – 1 , 2
V=
2
où :
χ 2 = la valeur du khi carré ;
n = la taille de l’échantillon (remplacé par N quand il s’agit d’une population).
n = la taille de l’échantillon (remplacé par N quand il s’agit d’une population) ; h = la valeur la plus petite entre le nombre de modalités d’une des variables (nombre de rangées) et le nombre de modalités de l’autre variable (nombre de colonnes).
Appliquées aux données de l’exemple type, pour lesquelles la valeur χ 2 calculée dans le tableau 8.6 est d’environ 5,512, et compte tenu qu’il s’agit d’un tableau de 2 rangées ⫻ 4 colonnes (excluant les totaux) où sont réparties 60 unités statistiques, on a alors : C=
冪 5,5125,512+ 60 ≈ 0,290 pour le coefficient de contingence,
et V=
5,512 ≈ 0,303 pour le coefficient de Cramer. 冪 60(2–1)
Par opposition aux différentes mesures de tendance centrale, de dispersion et de position, lesquelles sont des mesures univariées du fait qu’il s’agit de mesures portant sur un aspect ne concernant qu’une seule variable, le coefficient de contingence et le coefficient de Cramer sont considérés comme des mesures bivariées puisqu’il s’agit de mesures portant sur un aspect impliquant par définition deux variables. On remarque par ailleurs que, même si les deux mesures diffèrent, elles sont du même ordre de grandeur, ce qui autorise l’interprétation qu’on peut en donner ici.
D
Mesure univariée Mesure portant sur un aspect concernant une seule variable. Mesure bivariée Mesure portant sur un aspect concernant par définition deux variables.
L’interprétation statistique d’une mesure d’association
Comme le khi carré constitue le numérateur dans la formule de chacun des coefficients présentés ici, la plus petite valeur que peuvent prendre ces coefficients est nécessairement 0. La valeur zéro est très simple à interpréter : elle
Décrire le lien entre variables • CHAPITRE 8
19
indique une absence totale de lien entre les variables. Par ailleurs, la valeur maximale indiquant que ce lien est parfait est moins simple à préciser, particulièrement dans le cas du coefficient de contingence, et il en est de même de son interprétation. Au-delà des nuances qu’on pourrait apporter ici, on peut dire que plus une mesure d’association est près de 0, plus le lien est faible et, inversement, plus la mesure est près de 1, plus le lien est fort, ainsi que l’illustre le schéma ci-après : Minimum possible
Maximum possible
Coefficient de contingence
0
0,707 ou plus (mais n’atteint jamais 1)
Coefficient de Cramer
0
1 (ou parfois un peu plus)
Appréciation du degré d’association
Nulle
Faible
Moyenne
Forte
Parfaite
Ainsi, on peut considérer que, d’après la valeur 0,290 du coefficient de contingence et la valeur 0,303 du coefficient de Cramer obtenues dans le cas de l’exemple type, le lien observé entre les variables nature du travail choisi et préférence concernant le sexe du partenaire d’équipe est plutôt faible. On constate en effet, chez les 60 élèves ayant participé à la recherche du professeur, une tendance voulant que le choix d’un partenaire varie selon la nature du travail, et vice-versa, mais cette tendance n’est pas très marquée. En dépit du fait que la même interprétation soit valable ici pour les deux mesures d’association, ce n’est pas toujours le cas en raison de limitations1 associées au coefficient de contingence. C’est pourquoi le coefficient de Cramer est plus utilisé, car il reflèterait mieux la force du lien pouvant exister entre deux variables. Dernier point qu’il importe de souligner : l’interprétation formulée ici ne s’applique pour l’instant qu’à l’échantillon. En effet, pour pouvoir se prononcer sur la possibilité que ce soit vrai pour l’ensemble des élèves en général, c’està-dire la population, il faudra avoir procédé à un test d’hypothèse, point qui fera l’objet du chapitre 10. Par contre, lorsqu’une mesure d’association est calculée à partir d’une population, comme lorsqu’on utilise les données de Statistique Canada, l’interprétation peut être appliquée d’emblée à l’ensemble de cette population.
1. Expliquer les limitations liées au coefficient de contingence demanderait un développement qu’il ne serait pas approprié de présenter ici. C’est pourquoi on se contente de signaler l’existence de ces limitations.
20
ÉTAPE 3 • L’analyse des données
8.6 Considérant qu’en calculant le khi carré à partir des données du tableau de la pause-exercice 8.3, on aurait obtenu 26,88 : a) Calculez et interprétez le coefficient de contingence. b) Calculez et interprétez le coefficient de Cramer. c) L’interprétation donnée dans chaque cas peut-elle s’appliquer à l’ensemble de la population ? Justifiez votre réponse.
8.2
Le lien entre deux variables quantitatives
Le traitement de données à effectuer pour décrire le lien entre deux variables quantitatives n’est pas le même selon le type de lien spécifié par l’hypothèse ou l’objectif et selon la procédure utilisée pour recueillir les données. Deux cas principaux peuvent se présenter : • Le premier cas est celui où aucune valeur concernant les variables n’a été prédéterminée, les deux variables ayant été mesurées auprès des différentes unités statistiques. • Le second cas est celui où les valeurs de la variable indépendante ont été prédéterminées, la variable dépendante ayant ensuite été mesurée pour chacune des valeurs de la variable indépendante.
Décrire le lien entre variables • CHAPITRE 8
21
8.2.1
Aucune valeur n’a été prédéterminée
Il arrive souvent que, dans les recherches, les variables n’aient aucune valeur prédéterminée, c’est-à-dire fixée avant la collecte des données. Il se peut qu’il était impossible ou difficile de manipuler la variable indépendante, ou encore le lien qui faisait l’objet de l’hypothèse ou de l’objectif était simplement de nature relationnelle. On mesure alors habituellement les deux variables à partir d’une même unité statistique, comme dans l’exemple type ci-après où on a une hypothèse relationnelle. Les données brutes de la recherche décrite dans cet exemple apparaissent dans le tableau 8.7.
Exemple type 2 • À la suite de discussions avec certains élèves pour qui les questions objectives telles que les questions à choix multiples ne mesurent pas aussi bien les connaissances acquises que les questions à développement, un professeur, qui avait utilisé les deux types de questions dans un examen, décide de vérifier s’il y a un lien entre les deux. • Il croit que, de façon générale, la note obtenue à la partie de l’examen constituée de questions objectives donne une bonne idée de la note pour la partie à développement, c’est-à-dire celle qui comporte des questions à réponse élaborée. Pour vérifier son idée, il a compilé, d’une part, la note sur 20 obtenue par chaque élève pour la partie objective de l’examen et, d’autre part, la note sur 10 pour la partie à développement. Considérant que c’est souvent la valeur des questions objectives qui est critiquée, le professeur formule alors l’hypothèse suivante :
Plus la note pour la partie objective de l’examen est élevée, plus la note pour la partie à développement l’est aussi.
Tableau 8.7
Notes d’examen concernant la partie objective et la partie à développement, compilées pour chaque élève Note obtenue
o
Note obtenue o
Note obtenue o
Note obtenue o
N élève
Obj
Dév
N élève
Obj
Dév
N élève
Obj
Dév
N élève
Obj
Dév
1 2 3 4 5 6 7 8 9 10
7,5 12,5 15,5 13,5 16,0 8,5 12,5 15,0 12,5 15,0
3,30 7,05 8,00 5,75 9,00 5,50 7,15 9,75 8,15 5,50
11 12 13 14 15 16 17 18 19 20
15,0 13,5 8,5 12,5 8,5 11,5 11,5 18,0 13,5 11,5
7,75 7,25 6,75 9,75 5,25 6,75 6,45 9,65 8,50 8,90
21 22 23 24 25 26 27 28 29 30
8,5 17,0 7,5 16,0 9,5 7,5 10,5 17,0 16,0 17,0
2,95 10,00 6,00 8,00 3,40 2,30 8,25 6,75 10,00 9,75
31 32 33 34 35 36 37 38 39
16,0 17,0 12,5 11,5 8,5 15,0 13,5 13,5 18,0
5,90 8,75 5,15 4,40 5,75 7,40 10,00 3,65 9,00
Note : La note pour la partie objective (Obj) est sur 20 et celle pour la partie à développement (Dév) est sur 10.
précédemment, Voir Le calcul des fréquences. Voir le chapitre 1, Hypothèse relationnelle.
L’hypothèse de l’exemple type 2 met en cause une série statistique bivariée puisque chaque mesure sur une variable est associée à une mesure sur l’autre du fait que les deux proviennent d’un même élève. On doit cependant noter que la variable note pour la partie objective est prise ici comme variable indépendante au sens large, puisqu’elle n’a pas été manipulée directement et ne sert que comme variable à partir de laquelle on veut prédire l’autre. Pour utiliser au maximum l’information contenue dans les données recueillies dans une telle situation, on porte directement en graphique les données, c’est-
22
ÉTAPE 3 • L’analyse des données
à-dire sans dresser au préalable un tableau de fréquences (ce qui pourrait se faire ainsi que l’explique l’encadré « Les classes de fréquences, pas toujours la bonne solution »). On calcule ensuite la force du lien à l’aide du coefficient de corrélation linéaire de Pearson et on détermine la droite de régression représentant le mieux la relation entre les variables.
LES CLASSES DE FRÉQUENCES, PAS TOUJOURS LA BONNE SOLUTION Pour traiter les données du tableau 8.7 en fonction de l’hypothèse formulée, on pourrait créer des classes de fréquences pour chacune des variables puis établir, comme pour deux variables qualitatives, un tableau de contingence où les individus seraient répartis en fonction des deux variables ainsi catégorisées. Toutefois, comme le regroupement par classes entraîne une perte d’information, ce n’est généralement pas la solution la plus avantageuse..
A
le chapitre 6, Voir Le mode : détermination et interprétation statistique. Coefficient de corrélation linéaire de Pearson Mesure typiquement utilisée pour exprimer la force et le sens d’une corrélation linéaire ; peut également être utilisée comme variable d’écart pour effectuer un test sur le lien entre deux variables quantitatives.
La représentation graphique des données
La meilleure façon de visualiser dans quelle mesure la note pour la partie objective de l’examen donne une bonne idée de la note obtenue pour la partie à développement consiste à tracer ce qu’il est convenu d’appeler un diagramme de dispersion. Il s’agit d’un graphique où, une des variables se trouvant en abscisse et l’autre en ordonnée, le point correspondant à chaque paire de données de la série statistique est tracé à l’intersection des deux axes. La figure 8.5 illustre le diagramme de dispersion tracé pour l’exemple type 2. Le point correspondant à l’élève 1 – plus gros sur le graphique pour en faciliter le repérage – y est placé à l’intersection des coordonnées (7,5 ; 3,30). Le point correspondant à l’élève 2 – également plus gros pour la même raison – se trouve aux coordonnées (12,5 ; 7,05), et ainsi de suite jusqu’à ce que tous les points soient représentés. Deux élèves qui ont eu la même note aux deux évaluations seront évidemment situés au même point sur le graphique. On appelle nuage de points l’ensemble des points dans un diagramme de dispersion, même s’il arrive fréquemment que cette appellation désigne le graphique lui-même.
Note pour la partie à développement
Figure 8.4
Diagramme de dispersion Dans le cas de deux variables quantitatives, graphique où, une des variables se trouvant en abscisse et l’autre en ordonnée, le point correspondant à chaque paire de données de la série statistique est tracé à l’intersection des deux axes..
Nuage de points Ensemble des points qu’on trouve dans un diagramme de dispersion.
Note obtenue par chaque élève pour la partie objective et pour la partie à développement
10 9 8 7 6 5 4 3 2 1 0 0
1
2
3 4
5
6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Note pour la partie objective
Décrire le lien entre variables • CHAPITRE 8
23
B
Corrélation linéaire Relation de type linéaire entre deux variables quantitatives de niveau au moins intervallaire. La corrélation est positive si les deux variables varient dans le même sens, négative si elles varient dans le sens contraire l’une de l’autre.
L’évaluation du lien à partir du diagramme de dispersion
En observant le nuage de points de la figure 8.4, on se rend compte que, dans l’ensemble, les élèves qui ont eu une bonne note pour la partie objective ont également eu une bonne note pour la partie à développement et ceux qui ont eu une moins bonne note pour l’une des parties ont eu une moins bonne note pour l’autre. Le graphique révèle donc un lien entre les variables, puisque la note de l’examen à la partie objective permet de prédire la note approximative de la partie à développement. Lorsque le nuage de points a une forme ovoïde qui tend à former une ligne droite, comme ici, cela indique une relation de type linéaire entre deux variables quantitatives de niveau au moins intervallaire, et on parle alors de corrélation linéaire. Le diagramme de dispersion permet ainsi d’établir une première évaluation visuelle du sens et de la force de la corrélation linéaire observée entre deux variables quantitatives.
a Sens de la corrélation linéaire observée I
Lorsque le nuage de points tend à se rapprocher d’une droite dont la pente est ascendante, on parle de corrélation positive, alors que la corrélation est dite négative lorsque la pente de la droite vers laquelle tendent les points est descendante. La figure 8.4, par exemple, révèle non seulement un lien entre les variables, mais elle indique que ce lien correspond à une corrélation positive. Par contre, la figure 8.5 révèle une corrélation négative, étant donné que les points tendent à se rapprocher d’une droite descendante, indiquant que, de façon générale, plus la note obtenue pour la partie objective est élevée, moins le nombre de points perdus dans la partie à développement est élevé. Figure 8.5
Note obtenue par chaque élève pour la partie objective et nombre de points perdus pour la partie à développement
Nombre de points perdus pour la partie à développement
10 9 8 7 6 5 4 3 2 1 0 0
1
2
3 4
5
6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Note pour la partie objective
b Force de la corrélation linéaire observée I La corrélation linéaire observée dans les figures 8.4 et 8.5 n’est pas parfaite. Pour qu’elle le soit, il aurait fallu que les élèves ayant eu une note donnée pour la partie objective aient tous eu la même note pour la partie à développement,
24
ÉTAPE 3 • L’analyse des données
et qu’une même augmentation – de 1 point, par exemple – pour la partie objective ait correspondu à une même augmentation pour la partie à développement. Tous les points se seraient alors alignés parfaitement sur une droite, telle que schématisée dans la figure 8.6A. Si tous les points s’étaient plutôt trouvés alignés sur une droite descendante, telle que schématisée dans la figure 8.6B, on aurait eu une corrélation linéaire qui, bien que négative, aurait également été parfaite. Figure 8.6
Représentation schématique de diagrammes de dispersion illustrant une corrélation linéaire parfaite
A
B
Par contre, si le graphique tracé à partir des données de l’exemple type avait plutôt ressemblé au diagramme de dispersion schématisé dans la figure 8.7 cidessous, il aurait été impossible de prédire la note pour une partie à partir de l’autre note. On aurait été en effet en présence d’une situation où il n’y aurait aucun lien systématique entre les variables, la corrélation linéaire étant alors nulle. Figure 8.7
Représentation schématique d’un diagramme de dispersion illustrant une corrélation linéaire nulle
Décrire le lien entre variables • CHAPITRE 8
25
8.7 Une chercheuse pose l’hypothèse qu’une diminution du temps de sommeil chez un individu a pour effet de nuire à sa concentration. Pour vérifier cette hypothèse, elle conduit une étude pilote où 9 personnes acceptent de venir dormir au laboratoire pour ensuite se prêter à différents tests. Après avoir noté le temps écoulé entre l’endormissement et le premier réveil (tel que mesuré par le tracé électroencéphalographique), elle mesure le temps que les sujets ont mis pour résoudre un problème de mathématiques 30 minutes après leur réveil. En voici les résultats. Durée du sommeil (heures) Temps de résolution du problème (minutes)
3,0 16,1
5,4
5,8
6,2
6,6
7,6
8,4
9,1
10,0
10,6
11,0
8,1
9,1
6,2
7,5
6,7
4,4
a) Représentez ces données dans un diagramme de dispersion. b) À partir de la représentation graphique, peut-on dire qu’il existe un lien entre ces deux variables ? Si ce lien existe, pourrait-on dire que les variables varient dans le même sens ou dans le sens contraire ? Comment qualifieriez-vous la force du lien ?
Tout comme pour les variables qualitatives, le lien entre deux variables quantitatives peut être évalué non seulement de façon visuelle à partir du graphique mais également de façon quantitative..
C
La mesure du lien entre deux variables quantitatives
La mesure typiquement utilisée pour évaluer la force d’une corrélation linéaire entre deux variables quantitatives est le coefficient de corrélation linéaire de Pearson. Il s’agit, comme pour les autres mesures, de déterminer ce coefficient puis de l’interpréter statistiquement.
a Détermination du coefficient de corrélation linéaire de Pearson I
Comme la formule du coefficient de corrélation de Pearson est un peu plus complexe que celle des autres mesures vues jusqu’ici et qu’on ne détermine généralement ce coefficient que pour un échantillon, seule la formule appropriée à ce cas sera présentée.
26
ÉTAPE 3 • L’analyse des données
La valeur du coefficient de corrélation linéaire de Pearson, noté r, est calculée à l’aide de la formule suivante : x y – nx-yr= Σ i i (n – 1)sxsy
où : Σxi yi = la somme de tous les produits xy de chaque couple (x ; y), c’est- à-dire de chaque paire de données constituant la série statistique bivariée ;
n = la taille de l’échantillon, c’est-à-dire le nombre de couples (x ; y) ; x- = la moyenne de l’échantillon pour la variable X ; y- = la moyenne de l’échantillon pour la variable Y ;
sx = l’écart type de l’échantillon pour la variable X ; sy = l’écart type de l’échantillon pour la variable Y.
Le calcul manuel du coefficient de corrélation linéaire de Pearson est extrêmement fastidieux. Il est en revanche beaucoup plus simple à effectuer à l’aide d’une calculatrice à deux variables statistiques (voir les instructions appropriées dans l’annexe. p XX). De toute façon, qu’on procède manuellement ou qu’on utilise la calculatrice, l’application de la formule donne toujours une valeur comprise dans l’intervalle [−1 ; 1], c’est-à-dire qu’elle ne peut jamais être inférieure à −1 ni supérieure à 1. Dans le cas des données du tableau 8.9, on obtient effectivement une valeur comprise dans cet intervalle, c’est-à-dire une valeur r égale à 0,663 environ.
b Interprétation statistique du coefficient de corrélation linéaire I de Pearson
Tout comme pour l’évaluation, on fera porter l’interprétation statistique d’un coefficient de corrélation linéaire de Pearson sur deux aspects : le sens et la force de la corrélation.
1)
Sens de la corrélation observée
Le signe, positif ou négatif, de la valeur r indique le sens de la corrélation. Une valeur r positive signifie que les deux variables tendent à varier dans le même sens et une valeur négative, qu’elles varient dans le sens contraire l’une de l’autre. Ainsi, une valeur r positive correspond à une situation où la droite vers laquelle tend à se rapprocher l’ensemble des points d’un diagramme de dispersion a une pente ascendante. C’est ce qu’on constate avec la valeur r égale à 0,663 de l’exemple type 2 : la valeur positive indique une corrélation positive conforme à la tendance ascendante observée dans la figure 8.5. Cela signifie que plus la note aux questions objectives est élevée, plus la note aux questions à développement tend à l’être aussi, et vice-versa. Par ailleurs, le calcul de r à partir des valeurs de la figure 8.6 aurait donné une valeur négative, indiquant, en conformité avec la figure, une corrélation négative qui signifie que plus la note d’examen est élevée pour la partie objective, moins le nombre de points perdus pour la partie à développement tend à être elevé.
Décrire le lien entre variables • CHAPITRE 8
27
2) Force de la corrélation observée Plus la valeur r est différente de zéro, plus la corrélation linéaire est forte, et plus la précision dans la prédétermination de la valeur d’une variable à partir de l’autre variable est élevée. La force d’une corrélation est donc indiquée par la valeur absolue de r et correspond, sur le plan graphique, à la tendance du nuage de points à se rapprocher d’une droite. Ainsi, un coefficient égal à −1 et un coefficient égal à +1 indiquent tous deux une corrélation parfaite et correspondent, sur le plan graphique, au cas où tous les points se trouvent sur une droite, peu importe que la pente de cette dernière soit descendante ou ascendante. Par contre, une valeur r égale à zéro indique une corrélation nulle et correspond, sur le plan graphique, au cas où les points ne tendent pas du tout à s’aligner sur une droite. Par ailleurs, bien qu’il n’y ait pas de critères précis pour évaluer la force d’un coefficient de corrélation pour les valeurs intermédiaires entre une corrélation parfaite et une corrélation nulle, on peut néanmoins utiliser à titre indicatif la gradation présentée dans le schéma ci-dessous. I -1
r:
Parfaite
I 0
-0,5 Élevée
Modérée
Faible Nulle
I +1
+0,5 Faible
Modérée
Élevée
Parfaite
En se basant sur ces degrés d’appréciation, on peut considérer que la valeur 0,663 obtenue pour les données de l’exemple type 2 révèle l’existence, au sein de l’échantillon, d’un lien relativement élevé entre les deux modes d’évaluation, en conformité avec la tendance des points à se rapprocher de la droite (voir la figure 8.5). Il est à noter que, si l’on avait calculé la valeur r à partir des données de la figure 8.6, on aurait obtenu la même valeur, sauf que le signe aurait été négatif.
8.8 À partir de la pause-exercice 8.7 : a) Calculez la force du lien à l’aide du coefficient de corrélation linéaire r. b) Qualifiez ce lien. c) Donnez une interprétation statistique du signe du coefficient de corrélation dans la situation.
28
ÉTAPE 3 • L’analyse des données
La corrélation linéaire traduisant une tendance d’un ensemble de points à former une ligne droite, il est donc intéressant de déterminer quelle est cette droite, dite droite de régression.
D
La détermination de la droite de régression
On appelle droite de régression le type de droite auquel appartiennent celles présentées en trait pointillé dans les figures 8.5 et 8.6 ; on entend par là une droite vers laquelle tendent idéalement tous les points d’un diagramme de dispersion. C’est un modèle mathématique qui permet non seulement de mieux visualiser l’allure générale des résultats mais également de faire certaines prédictions sur une variable à partir de l’autre.
Droite de régression Droite vers laquelle tendent idéalement tous les points d’un diagramme de dispersion.
La formule pour calculer la droite de régression est : y’ = a + bx
où :
y’ = la valeur y prédite pour une valeur x quelconque lorsque la corrélation est parfaite ; a = la valeur de l’ordonnée à l’origine (c’est-à-dire pour x = 0). b = la valeur de la pente ;
Les coefficients a et b étant connus, il suffit de donner une valeur à x pour déterminer y’ ; la droite peut alors être tracée en calculant y’ pour deux valeurs de x. Pour connaître la valeur des coefficients a et b, le plus simple est d’utiliser une calculatrice à deux variables statistiques (voir les instructions dans l’annexe, p. XX. Si la calculatrice qu’on a sous la main ne peut traiter qu’une variable statistique à la fois, on peut néanmoins consulter l’encadré « Calcul des coefficients a et b » pour effectuer les calculs désirés.
CALCUL DES COEFFICIENTS a ET b Pour calculer les coefficients a et b d’une droite de régression à l’aide d’une calculatrice à une seule variable, on peut utiliser les équations ci-dessous. Étant donné que le calcul de a requiert la valeur de la pente b, on trouve d’abord cette dernière à l’aide de la formule suivante : b = r
sy sx
où :
r = le coefficient de corrélation linéaire dans l’échantillon ; sy = l’écart type de l’échantillon pour la variable Y ; sx = l’écart type de l’échantillon pour la variable X. On calcule ensuite la valeur de l’ordonnée à l’origine, c’est-à-dire a, à l’aide de la formule suivante : a = y- – b x-
où :
b = la valeur de la pente ; y- = la moyenne de l’échantillon pour la variable Y ; x- = la moyenne de l’échantillon pour la variable X.
Décrire le lien entre variables • CHAPITRE 8
29
Par ailleurs, comme la droite qu’on tracera est une droite idéale, on utilise le symbole y’ – qu’on prononce « y prime » – pour signaler qu’on ne fait pas référence à une valeur observée mais à une valeur calculée prédisant ce qu’on obtiendrait si la corrélation linéaire était parfaite. En calculant les valeurs a et b à partir des données de l’exemple type 2, on obtient respectivement 1,228 pour la valeur de l’ordonnée à l’origine et 0,447 pour la valeur de la pente. Cela donne, pour l’équation de la droite de régression : y’ = 1,228 + 0,447x.
Pour tracer la droite sur le diagramme de dispersion correspondant, il suffit alors de déterminer y’ pour deux valeurs quelconques de x (voir à ce sujet l’encadré « Choix de valeurs x pour la droite de régression »). On pourrait ainsi calculer deux points (x ; y) à partir des valeurs 5 et 20. Pour x1 = 5, on a alors :
y’1 = 1,228 + 0,447 ⫻ 5 ≈ 3,46, d’où : (x1 ; y’1) = (5 ; 3,46) et pour x2 = 20 :
y’2 = 1,228 + 0,447 ⫻ 20 ≈ 10,17, d’où : (x2 ; y’2) = (20 ; 10,17).
Dans le cas de l’exemple type 2, la plus petite valeur de x observée est 7,5 et la plus grande est 18. En portant en graphique les deux points ainsi définis et en superposant la droite correspondant au nuage de points, on obtient la figure 8.9, dans laquelle le maximum de l’axe des ordonnées a été fixé à 12 de façon à inclure l’ordonnée du point y’2, dont la valeur est 10,17. Figure 8.8
Droite de régression superposée au nuage de points de la figure 8.4 12 (20 ; 10,17)
Note pour la partie à développement
10 8 6 4 (5 ; 3,46)
2 0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Note pour la partie objective
CHOIX DE VALEURS X POUR LA DROITE DE RÉGRESSION En théorie, les valeurs de x qu’on utilise n’ont aucune importance. En pratique, il est plus simple de choisir pour la première valeur de x une valeur avoisinant la plus petite valeur de x parmi les données, et pour la deuxième, une valeur avoisinant la plus grande des valeurs de x parmi les données.
30
ÉTAPE 3 • L’analyse des données
La droite de régression décrit comment devrait varier la variable Y en fonction de la variable X si la corrélation était parfaite. On utilise souvent ce qu’on appelle le coefficient de détermination pour exprimer jusqu’à quel point on peut, dans l’ensemble, expliquer les variations observées sur la variable Y en fonction de celles de la variable X. Le coefficient de corrélation correspond mathématiquement à r2, c’est-à-dire à la valeur au carré du coefficient de corrélation r. Puiqu’on a ici r ≈ 0,663, on obtient donc r2 ≈ 0,44. Ceci peut être interprété en disant que la variation de la note pour la partie à développement est expliquée à 44 % environ par la variation de la note pour la partie objective (voir l’encadré « Signification du coefficient de détermination : un aperçu »).
Coefficient de détermination Mesure relative de la dispersion d’une série de données permettant de comparer des séries ayant des ordres de grandeur différents.
SIGNIFICATION DU COEFFICIENT DE DÉTERMINATION : UN APERÇU La signification du coefficient de détermination n’est pas simple à saisir, mais le schéma simplifié ci-après peut aider à en donner un aperçu. Tracé à partir de huit paires de données, il correspond à des valeurs r et r2 approximativement égales à 0,75 et 0,56 respectivement. Si on prend le point (7 ; 28) par exemple, on note que sa coordonnée y présente une « variation » de 6,5 unités au-dessus de la moyenne des valeurs y (c’est-à-dire 28 − 21,5). Or, d’après l’équation de la droite de régression, on devrait s’attendre à ce que, pour x = 7, la valeur y soit approximativement égale à 23,7, c’est-à-dire à 2,2 unités au-dessus de la moyenne (variation illustrée par la flèche en trait plein). On peut donc dire que, sur la variation de 6,5 unités au-dessus de la moyenne correspondant au point (7 ; 28), une partie correspondant à 2,2 unités est déjà expliquée. La partie restante (illustrée par la flèche en trait pointillé) correspond à la variation non expliquée, approximativement égale à 4,3 (c’est-à-dire 28 − 23,7).
Variation non expliquée < 28 – 23,7 = 4,3
r < 0,75 r2 < 0,56 30
(7 ; 28)
Variable Y
25 Moyenne des valeurs y = 21,5
20 15
Variation expliquée < 23,7 – 21,5 = 2,2
y1 < 21,5 – 1,6x
10 Moyenne des valeurs x = 5,625
5 0 0
2
4
6
8
10
Variable X
Ce que mesure le coefficient de détermination, c’est la variation expliquée, mais ce, pour l’ensemble des points.
Décrire le lien entre variables • CHAPITRE 8
31
8.9 À partir du contexte de la pause-exercice 8.7 et des calculs effectués à la pause-exercice 8.8 : a) Déterminez la droite de régression. (Pour trouver les coefficients a et b, utiliez votre calculatrice.) b) À combien estimez-vous le temps nécessaire à un sujet ayant eu quatre heures de sommeil pour réaliser le problème de mathématiques ?
8.2.2
Les valeurs de la variable indépendante sont prédéterminées
La prédétermination des valeurs de la variable indépendante se rencontre dans deux cas principaux : l’étude d’une hypothèse relationnelle et celle d’une hypothèse causale.
A Série chronologique Série statistique bivariée mettant en relation une variable d’ordre temporel et une variable exprimant la mesure d’un phénomène variant dans le temps.
32
Un cas type d’hypothèse relationnelle : la série chronologique
Les hypothèses relationnelles mettant en jeu des séries chronologiques sont extrêmement répandues en sciences humaines, particulièrement en économie, en sociologie et en histoire. Par série chronologique, on entend une série statistique bivariée mettant en relation une variable d’ordre temporel et une variable exprimant la mesure d’un phénomène variant dans le temps. Lorsque les deux variables sont de nature quantitative – ce qui n’est pas le cas de toutes les séries chronologiques –, on peut calculer un coefficient de corrélation linéaire et déterminer la droite de régression en prenant comme variable indépendante la variable exprimant différents moments dans le temps.
ÉTAPE 3 • L’analyse des données
Exemple • Le tableau ci-dessous comprend le nombre total des naissances enregistrées au Québec 2000 à 2007. Nombre total des naissances enregistrées au Québec de 2000 à 2007 Année
2000
2001
2002
2003
2004
2005
2006
2007
Nombre de naissances
72 010
73 699
72 478
73 916
74 068
76 341
81 962
84 453
Source : Institut de la statistique. Québec (2010). « Naissances et décès ». (Page consultée le 24 février 2010 à l’adresse suivante : < http://www.stat.gouv.qc.ca/donstat/societe/demographie/naisn_deces/naissance/401.htm >.)
Nombre de naissances
• Portées en graphique, ces données mettent en évidence une augmentation marquée des naissances. D’après la droite de tendance calculée à partir de ces données, dont l’équation est y’ ≈ -3 266 795,4 − 1668,5x, on pouvait s’attendre à ce que le nombre total des naissances en 2008 (non disponible sur le site consulté) soit d’environ 83 624.
90 000
(2008 ; 83 624)
85 000 80 000 75 000 70 000 65 000 0 0
2000
2002
2004
2006
2008
Année
Dans les études qui incluent des séries chronologiques, la droite de régression est souvent appelée droite de tendance, parce qu’elle est censée représenter dans quel sens tend à évoluer un phénomène. Le graphique illustrant une série chronologique est appelé chronogramme.
B
Chronogramme Graphique illustrant une série chronologique.
Le cas d’une hypothèse causale
Il s’agit ici du cas où on fait varier la variable indépendante en fixant à l’avance ses valeurs, de façon à étudier les effets de ces variations sur la variable dépendante. L’exemple type qui suit illustre ce genre de situation. Les données brutes de l’expérimentation présentée dans cet exemple apparaissent dans le tableau de compilation 8.8.
Décrire le lien entre variables • CHAPITRE 8
33
Exemple type 3 • Une chercheuse en milieu scolaire a mené une expérimentation en vue de vérifier s’il y a un lien entre la température ambiante et le rendement lors de l’exécution d’une tâche de résolution de problèmes. • Afin de vérifier l’hypothèse causale suivante :
Plus la température ambiante est élevée, moins le nombre de problèmes réussis est élevé, elle a préparé une série de problèmes de difficulté moyenne et sélectionné un échantillon de 56 élèves qu’elle a répartis au hasard en trois groupes. Elle leur a soumis les problèmes dans trois pièces différentes, dont elle avait fixé la température à 18 °C pour le premier groupe, à 22 °C pour le deuxième groupe et à 26 °C, pour le troisième. Tableau 8.8
Nombre de problèmes réussis par chacun des sujets dans chacune des trois conditions de température ambiante Température ambiante
18 °C Sujet 1 Sujet 2 Sujet 3 Sujet 4 Sujet 5 Sujet 6 Sujet 7 Sujet 8 Sujet 9 Sujet 10 Sujet 11 Sujet 12 Sujet 13 Sujet 14 Sujet 15 Sujet 16 Sujet 17 Sujet 18
22 °C 14 19 11 16 18 20 14 16 15 18 21 15 14 12 19 21 13 20
Sujet 1 Sujet 2 Sujet 3 Sujet 4 Sujet 5 Sujet 6 Sujet 7 Sujet 8 Sujet 9 Sujet 10 Sujet 11 Sujet 12 Sujet 13 Sujet 14 Sujet 15 Sujet 16 Sujet 17 Sujet 18
26 °C 11 11 22 19 15 14 12 15 18 12 16 16 20 15 18 17 8 20
Sujet 1 Sujet 2 Sujet 3 Sujet 4 Sujet 5 Sujet 6 Sujet 7 Sujet 8 Sujet 9 Sujet 10 Sujet 11 Sujet 12 Sujet 13 Sujet 14 Sujet 15 Sujet 16 Sujet 17 Sujet 18
14 12 9 9 12 15 13 12 9 10 9 13 9 11 4 19 13 14
Dans une telle situation, la façon typique de traiter les données ne consiste pas à en établir la distribution ni à calculer une mesure de lien entre les variables. Le traitement consiste simplement à calculer le nombre moyen de problèmes réussis dans chacune des conditions et à examiner, à partir d’un tableau et d’un graphique, comment cette valeur varie selon les conditions de mesure. Les résultats des calculs effectués à partir du tableau 8.8 sont donnés dans le tableau 8.9. Tableau 8.9
Nombre moyen de problèmes réussis en fonction de la température ambiante Température ambiante
Moyenne Écart type Nombre de sujets
34
ÉTAPE 3 • L’analyse des données
18 °C
22 °C
26 °C
16,3 3,18 18
15,5 3,75 18
11,5 3,26 18
Comme on le constate, on y trouve généralement, outre les valeurs moyennes, l’écart type et le nombre de données correspondant à chaque condition. L’intérêt de ces deux dernières informations est qu’elles permettront, entre autres, de procéder à un test d’hypothèse – comme on le verra au chapitre 11. La figure 8.9 représente graphiquement la façon dont les valeurs moyennes présentées dans le tableau 8.9 varient en fonction de la température ambiante. On appelle habituellement graphique linéaire, à ne pas confondre avec le diagramme linéaire, ce type de graphique où l’on illustre la relation entre deux variables quantitatives en reliant par des segments de droite les points correspondant aux différents couples (x; y). Il est aussi d’usage de désigner sous le nom de courbe la ligne brisée constituée par la séquence des segments de droite reliant deux points consécutifs. Figure 8.9
Nombre moyen de problèmes réussis en fonction de la température ambiante (n = 56)
Nombre moeyn de problèmes réussis
25 20 15 10 5 0 0
18
22 Température ambiante (°C)
26
30
Note : Les segments verticaux au-dessus et au-dessous de chaque point illustrent l’ordre de grandeur des écarts types, information qui peut s’avérer utile si on a l’intention d’aborder ce point dans la discussion des résultats.
Les résultats tendent à confirmer l’hypothèse selon laquelle la température ambiante influerait de façon négative sur le nombre de problèmes réussis, le graphique indiquant même que c’est au-delà de 22 °C que cette tendance se manifesterait le plus. Il importe cependant de se rappeler que cette interprétation statistique ne vaut que pour les données recueillies auprès de l’échantillon et qu’on ne pourra se prononcer sur le bien-fondé de cette hypothèse auprès de la population visée qu’après confirmation – si c’est le cas – par un test d’hypothèse.
8.3
Le lien entre une variable qualitative et une variable quantitative
En présence d’une variable qualitative et d’une variable quantitative, le traitement de données peut varier beaucoup selon le type de relation qui fait l’objet de l’hypothèse ou de l’objectif. On considèrera ici le cas général où l’on étudie une relation entre une variable indépendante – au sens strict ou non – et une variable dépendante. Dans ce contexte, on distinguera deux cas principaux
Décrire le lien entre variables • CHAPITRE 8
35
selon que c’est la variable qualitative ou la variable quantitative qui constitue la variable dépendante. On examinera ensuite le cas particulier d’une variable dépendante quantitative dans une série chronologique.
8.3.1
La variable qualitative comme variable dépendante
Lorsque la variable qualitative est considérée comme variable dépendante, les données sont habituellement traitées comme un cas à deux variables qualitatives, mais avec certaines différences selon que l’hypothèse est relationnelle ou causale.
A
Le cas d’une hypothèse relationnelle
Dans l’exemple de recherche qui suit, la variable qualitative degré de diminution de la qualité de vie constitue la variable dépendante, laquelle est évaluée en fonction de la variable quantitative groupe d’âge. Cette dernière sert de variable indépendante, mais au sens large puisqu’elle n’a pas été manipulée directement. Par ailleurs, même si l’âge est en soi une variable quantitative, son regroupement en trois catégories amène à la traiter comme une variable qualitative ordinale.
Exemple • Une équipe de trois étudiantes a mené auprès de 78 femmes une enquête sur le syndrome prémenstruel (SPM) afin de savoir si leur qualité de vie (conjugale, familiale, professionnelle, scolaire, sociale et globale) durant la période prémenstruelle n’était aucunement diminuée ou l’était un peu, moyennement ou grandement. L’hypothèse des étudiantes était la suivante :
La diminution de la qualité de vie varie en fonction du groupe d’âge.
Après avoir regroupé les fréquences sous deux modalités (Un peu et Moyennement ou plus), les étudiantes ont dressé le tableau de contingence 8.10. Les fréquences relatives y ont été calculées en prenant comme référence le total des fréquences absolues pour le groupe d’âge concerné. Tableau 8.10
Degré de diminution de la qualité de vie selon le groupe d’âge chez 78 femmes ayant déclaré être affectées par le SPM Groupe d’âge
Degré de diminution de la qualité de vie
12 à 17 ans
18 à 29 ans
30 ans et plus
Un peu
65,6 % (21)
80,0 % (20)
66,7 % (14)
Moyennement ou plus
34,4 % (11)
20,0 % (5)
33,3 % (7)
TOTAL
100,0 % (32)
100,0 % (25)
100,0 % (21)
Note : Les valeurs entre parenthèses correspondent aux fréquences absolues.
36
ÉTAPE 3 • L’analyse des données
À partir de ces fréquences, on pourrait tracer un graphique à rectangles verticaux chevauchés, comme dans la figure 8.3, dans lequel on verrait à placer les groupes d’âge le long de l’axe des abscisses. Le lien pourrait être mesuré ensuite par l’une ou l’autre des mesures d’association.
8.10 Calculez et interprétez le coefficient de contingence et le coefficient de Cramer des résultats de la recherche portant sur le lien entre le groupe d’âge et la diminution de la qualité de vie attribuable au SPM. Utilisez les données du tableau 8.10.
B
Le cas d’une hypothèse causale
Dans la recherche de l’exemple type 3, la variable quantitative degré de difficulté perçu constitue la variable dépendante qui est évaluée en fonction de la variable température ambiante. Cette variable est une variable indépendante au sens strict, parce que ses valeurs ont été prédéterminées pour définir trois conditions.
Exemple • Une chercheuse en milieu scolaire a mené une expérimentation en vue de vérifier l’hypothèse causale suivante : Plus la température ambiante est élevée, plus les problèmes sont perçus comme difficiles. • Après avoir préparé une série de problèmes de difficulté moyenne, elle a sélectionné un échantillon de 56 élèves qu’elle a répartis au hasard en trois groupes. Elle leur a soumis les problèmes dans trois pièces différentes, dont elle avait fixé la température à 18 °C pour le premier groupe, à 22 °C pour le deuxième groupe et à 26 °C, pour le troisième. • À la sortie des élèves, elle a demandé à chacun de dire s’il avait trouvé la série de problèmes très facile, facile, de difficulté moyenne, difficile ou encore très difficile.
Décrire le lien entre variables • CHAPITRE 8
37
Après avoir recueilli et compilé ses données, la chercheuse a dressé le tableau de contingence 8.11 où elle indique les fréquences absolues et les fréquences relatives, ces dernières ayant été calculées séparément pour chaque température. Tableau 8.11
Degré de difficulté d’une série de problèmes perçu en fonction de la température ambiante Température ambiante (°C)
Degré de difficulté perçu
18 °C
22 °C
26 °C
Très facile
3 (16,7 %)
2 (11,1 %)
1 (5,6 %)
Facile
5 (27,8 %)
5 (27,8 %)
3 (16,7 %)
De difficulté moyenne
7 (38,9 %)
6 (33,3 %)
6 (33,3 %)
Difficile
2 (11,1 %)
2 (11,1 %)
4 (22,2 %)
Très difficile
1 (5,6 %)
3 (16,7 %)
4 (22,2 %)
TOTAL
18 (100,0 %)
18 (100,0 %)
18 (100,0 %)
La représentation graphique et la mesure du lien entre les variables pourraient être réalisées comme pour l’exemple précédent, dont les fréquences sont rapportées dans le tableau 8.10.
8.11 Utilisez les données du tableau 8.11 pour tracer un graphique illustrant les résultats de la recherche portant sur le lien entre la température et le degré de difficulté perçu d’une série de problèmes.
38
ÉTAPE 3 • L’analyse des données
8.3.2
La variable quantitative comme variable dépendante
Il a été question précédemment de série chronologique mettant en cause deux variables quantitatives. Nous allons maintenant aborder les séries chronologiques dont la variable temporelle est qualitative, puis nous traiterons des séries où les mesures quantitatives ont été recueillies dans chacune des conditions ou pour chacun des groupes définis par la variable indépendante.
A
Les mesures appartenant à des séries chronologiques
Lorsque la variable temporelle d’une série chronologique est qualitative, elle est nécessairement de niveau ordinal. Il s’agit souvent du mois de l’année, comme dans l’exemple ci-après.
Exemple type 4 • Le taux de chômage observé au Canada au cours des six premiers mois de l’année 2010, période particulièrement marquée par la crise économique, est donné dans le tableau ci-dessous. Évolution du taux de chômage au Québec au cours des six mois de l’année 2010 Mois
Janvier
Février
Mars
Avril
Mai
Juin
Taux de chômage (%)
7,6
7,9
8,2
8,4
8,6
8,7
Source : Gouvernement du Québec (2010). « Population active, chômage, emploi, taux de chômage et taux d’emploi, données mensuelles désaisonnalisées, par région administrative du Québec » (Page consultée le 25 février 2010 à l’adresse suivante : < http://www.bdso.gouv.qc.ca/pls/ken/Ken263_Liste_Total.p_tratr_reslt?p_iden_tran=REPERDTIS89102145764609512Awh&p_modi_url=0225105140&p_id_rapp=916 >.)
La figure 8.11 contient deux graphiques souvent utilisés pour rapporter des données comme celles de l’exemple. Le graphique linéaire – à ne pas confondre avec le diagramme linéaire – a l’avantage de mieux mettre en évidence la continuité temporelle en présentant une courbe dont les points consécutifs correspondent à chacun des mois. Figure 8.10
Deux façons usuelles de représenter graphiquement une série chronologique
9,0
9,0
8,7 %
8,7 % 8,6 %
8,4 %
8,5
Taux de chômage (en %)
Taux de chômage (en %)
8,6 % 8,2 % 7,9 %
8,0 7,6 % 7,5 7,0 0,0
8,4 %
8,5 8,2 % 7,9 %
8,0 7,6 % 7,5 7,0 0,0
Janvier Février Mars
Avril
Mois
Mai
Juin
Janvier Février Mars
Avril
Mai
Juin
Mois
Décrire le lien entre variables • CHAPITRE 8
39
Par ailleurs, certaines mesures ont été créées pour aider à mettre en lumière l’évolution d’un phénomène dans le temps. La plus simple, la variation, correspond à la différence entre deux mesures prises à deux moments dans le temps, comme par exemple la différence entre le taux de chômage en 2008 et celui en 2009. En pratique, on s’en sert habituellement pour définir deux autres mesures : la variation relative et la variation moyenne. Variation relative Pourcentage de variation d’un phénomène dans le temps par rapport à un moment choisi comme point de référence.
La variation relative calculée à un moment donné se définit par rapport à un moment choisi comme référence. Elle est égale à :
Variation relative (%) =
Mesure à un Mesure au moment – 冢 moment donné 冣 冢 choisi comme référence 冣 Mesure au moment choisi comme référence
⫻ 100.
Exemple • D’après Statistique Canada, le taux de chômage est passé de 6,4 % à 8,5 % entre novembre 2008 et novembre 2009. Sur la base de ces données, on peut dire que la variation relative du taux de chômage au cours de cette période est égale à :
Variation relative (en %) =
– Taux de chômage 冢 Tauxen dejuinchômage 2009 冣 冢 en janvier 2009 冣
=
Taux de chômage en janvier 2009
⫻ 100
8,7 % – 7,6 % ⫻ 100 7,6 %
≈ 14,5 %. Source : Gouvernement du Québec (2010). « Population active, chômage, emploi, taux de chômage et taux d’emploi, données mensuelles désaisonnalisées, par région administrative du Québec » (Page consultée le 25 février 2010 à l’adresse suivante : < http://www.bdso.gouv.qc.ca/pls/ken/Ken263_Liste_Total.p_tratr_reslt?p_iden_tran=REPERDTIS89102145764609512Awh&p_modi_url=0225105140&p_id_rapp=916 >.)
À noter que le taux de chômage utilisé dans cet exemple pour illustrer la variation relative permet de souligner un phénomène qui survient fréquemment et qui peut être source de confusion : un calcul de pourcentage à partir de pourcentages. La valeur de 14,5 % pour la variation relative de chômage ne signifie pas une hausse du taux de chômage de 14,5 % – hausse qui est en fait de 1,1 % ; elle indique plutôt une hausse correspondant à environ 14,5 % du taux qui prévalait en janvier, ce qui n’est pas la même chose. Variation moyenne (taux de variation) Variation d’un phénomène dans le temps exprimée selon une unité de temps retenue (le jour, le mois, l’année, etc.).
40
La variation moyenne (ou taux de variation), qui s’applique à une période donnée à partir d’un moment choisi comme référence, est donnée par :
Variation moyenne =
ÉTAPE 3 • L’analyse des données
Mesure à un Mesure au moment – 冢 moment donné 冣 冢 choisi comme référence 冣 Nombre d’unité de temps écoulées au cours de la période choisie
Exemple • À partir des données de l’exemple précédent, le taux de variation par mois est égal à : Variation mensuelle moyenne =
– Taux de chômage 冢 Tauxen dejuinchômage 2009 冣 冢 en janvier 2009 冣 6 mois
8,7 % – 7,6 % = 6 mois ≈ 0,18 % par mois.
Dans ce deuxième exemple, le signe de pourcentage renvoie bien au taux de chômage et le taux de variation indique que le taux de chômage a monté en moyenne d’environ 0,18 % par mois au cours de la période allant de janvier 2009 à juin 2009.
8.12 Voici la population canadienne telle qu’estimée par Statistique Canada chaque 1er juillet des années 2005 à 2009. a) À partir de ces données, tracez un graphique approprié pour cette série statistique. b) Calculez la variation relative entre 2005 et 2009. c) En quelle année a-t-on remarqué la plus forte hausse relative par rapport à l’année précédente ? d) Calculez la variation annuelle moyenne de la population entre 2005 et 2009. e) Calculez la variation mensuelle moyenne de la population entre le 1er juillet 2005 et le 1er juillet 2006.
Décrire le lien entre variables • CHAPITRE 8
41
B
Les mesures provenant de différentes conditions ou de différents groupes
La façon typique d’étudier le lien entre les variables dans la situation dont il est ici question consiste à calculer la mesure de tendance centrale de la variable dépendante dans chacune des conditions ou pour chacun des groupes définis par la variable indépendante et de comparer les mesures ainsi obtenues.
Exemple • Une équipe d’élèves s’est intéressée aux liens entre certains facteurs et le niveau d’anxiété chez les athlètes pratiquant un sport à un niveau de compétition. Supposant que les filles manifestent un niveau d’anxiété plus élevé que les garçons avant une activité sportive, ils ont demandé à 9 athlètes féminines et à 15 athlètes masculins pratiquant le badminton de répondre à une version française d’un test très utilisé dans le monde du sport, le SCAT (Sport Competition Anxiety Test)*, où les résultats peuvent varier entre 10 et 30 inclusivement. * Le SCAT a été créé par R. Martens et a été publié en 1977 chez Human Kinetics Publishers.
Après avoir recueilli les données, les élèves ont dressé le tableau 8.12, où sont indiqués la moyenne au SCAT (Sport Competition Anxiety Test) pour chaque groupe, l’écart type et le nombre de données. Tableau 8.12
Cote moyenne obtenue au test d’anxiété Sport Competition Anxiety Test par 24 athlètes en fonction de leur sexe Sexe de l’athlète Féminin
Masculin
Moyenne
22,56
21,73
Écart type
2,186
3,150
9
15
Nombre de sujets
Comme on peut le constater, la présentation des résultats dans un tableau mettant en relation deux variables est beaucoup plus simple à faire qu’un tableau de contingence. La représentation graphique des résultats l’est tout autant. Dans le diagramme à rectangles verticaux de la figure 8.10, on trouve en ordonnée non pas la fréquence, mais la moyenne de la variable dépendante cote obtenue au score d’anxiété.
42
ÉTAPE 3 • L’analyse des données
Figure 8.11
Cote moyenne obtenue au test d’anxiété Sport Competition Anxiety Test en fonction du sexe de l’athlète
le chapitre 4, Voir La représentation graphique.
25
Cote moyenne obtenue au SCAT
20 15 10 5 0 Féminin
Masculin Sexe de l’athlète
Note : L’ordonnée débute à 0 même si ce n’était pas nécessaire compte tenu du caractère intervallaire des données (voir l’encadré « Données intervallaires et représentation graphique »).
DONNÉES INTERVALLAIRES ET REPRÉSENTATION GRAPHIQUE Étant donné que les valeurs possibles des cotes du test d’anxiété Sport Competition Anxiety Test vont de 10 à 30, ce test ne mesure pas le degré absolu d’anxiété d’un athlète mais indique simplement où se situe ce dernier par rapport aux autres. Il s’agit là d’un bon exemple où le caractère intervallaire – par opposition à proportionnel – des données doit être pris en considération dans l’interprétation des résultats illustrés par un graphique. On ne peut pas alors parler d’une moyenne comme étant tant de fois plus élevée ou plus basse que telle autre, mais simplement comme étant un nombre de points plus élevée ou plus basse.
8.4
Le lien entre plus de deux variables
Les principes à la base des procédures de traitement des données pour décrire le lien entre deux variables seulement sont également valables lorsqu’une hypothèse ou un objectif fait intervenir plus de deux variables. Ce cas se présente dans plusieurs situations dont le traitement détaillé déborderait le cadre de ce manuel. Il peut s’avérer toutefois utile d’évoquer quelques-unes de ces situations, à savoir celle où l’on a une distribution de fréquences impliquant trois variables ou plus et celle où une variable quantitative est fonction de deux autres variables.
8.4.1
La distribution de fréquences impliquant trois variables ou plus
Les données recueillies dans le cadre de certaines recherches mettent en jeu une série statistique multivariée, c’est-à-dire une série constituée de groupes de trois données ou plus recueillies auprès des différentes unités statistiques
Série statistique multivariée Série constituée de groupes de trois données ou plus recueillies auprès des différentes unités statistiques d’une population ou d’un échantillon et permettant de caractériser chaque unité par rapport à trois variables ou plus.
Décrire le lien entre variables • CHAPITRE 8
43
d’une population ou d’un échantillon et permettant de caractériser chaque unité par rapport à trois variables ou plus. L’exemple qui suit représente une situation de ce type.
Exemple • Dans son étude sur les stéréotypes, le professeur dont la recherche a été mentionnée au début du chapitre aurait pu noter non seulement la nature du travail choisi et la préférence concernant le sexe du partenaire d’équipe, mais également le sexe de l’élève ayant répondu. • Les données ainsi recueillies se seraient alors présentées comme suit. No de l’élève
Nature du travail choisi
Sexe du partenaire d’équipe
Sexe du répondant
1 2 3 4 5 6 etc.
Fr Fr Mth Fr Mth Mth etc.
F F R M R F etc.
M F M M F F etc.
On a ici une série statistique multivariée permettant de caractériser chacun des élèves par rapport à trois variables au lieu de deux seulement. Il est évidemment possible de dresser un tableau de contingence à partir de cette série statistique. Toutefois, comme le laisse entrevoir le tableau 8.13 et comme le souligne l’encadré « Tableaux à trois variables ou plus », un tel tableau est moins aisé à consulter que celui à deux variables. Il l’aurait été encore moins si on avait inclus les fréquences relatives. C’est pourquoi on préfère souvent ne tenir compte que de deux variables à la fois dans un tableau de contingence, les variables retenues étant celles sur lesquelles on prévoit de s’arrêter de façon particulière au moment de l’interprétation des résultats de la recherche. Tableau 8.13
Répartition de 60 élèves d’un cégep selon la nature du travail choisi, leur préférence concernant le sexe du partenaire d’équipe et le sexe du répondant Préférence concernant le sexe du partenaire d’équipe
Nature du travail choisi
Sexe du répondant
Féminin (F)
Masculin (M)
Français Mathématiques Total
Refus de répondre (R)
Total
F
12
3
3
1
19
M
5
7
2
2
16
F
4
2
4
2
12
M
3
3
4
3
13
F
16
5
7
3
31
M
8
10
6
5
29
Note : Il s’agit ici de données fictives.
44
Indifférent (I)
ÉTAPE 3 • L’analyse des données
35 25 60
TABLEAUX À TROIS VARIABLES OU PLUS Compte tenu qu’un tableau prenant en considération trois variables est le plus simple des tableaux multivariés qu’on puisse dresser, il est aisé de comprendre pourquoi les tableaux élaborés à partir de plus de trois variables ne sont généralement pas appropriés dans le corps d’un rapport de recherche. On les place plutôt en annexe ou dans les banques de données ayant explicitement pour fonction de rendre disponible de grandes quantités d’informations. Le site Internet de Statistique Canada est un exemple manifeste de banques de données présentant ce type de tableau où le volume d’information va de pair avec la lourdeur de la consultation.
Une représentation graphique visant à illustrer les relations entre toutes les variables en cause dans un tableau de contingence multivarié ne facilite guère la visualisation des relations entre variables, et ce, même s’il y en a seulement de trois. C’est pourquoi les chercheurs préfèrent habituellement illustrer ce type de relations par des graphiques ne considérant que deux variables à la fois.
8.4.2
Une variable quantitative fonction de deux autres variables
Lorsque l’hypothèse ou l’objectif porte sur la relation entre une variable quantitative dépendante et deux variables indépendantes définissant différentes conditions ou différentes catégories d’unités statistiques, on commence généralement par calculer la mesure de tendance centrale de la variable dépendante pour chaque condition ou groupe, puis on compare les mesures ainsi obtenues. L’exemple de recherche suivant se prête à ce type de traitement.
Exemple • Dans une expérience visant à étudier comment la mémorisation d’un ensemble d’informations peut être influencée par le profil neurosensoriel et par le mode de présentation, des élèves d’un cours de méthodologie ont demandé à 11 sujets catégorisés comme visuels de mémoriser deux listes de 25 mots de difficulté équivalente, présentés à intervalles de 4 s : alors que, dans un cas, les mots étaient affichés sur un écran d’ordinateur (présentation visuelle), dans l’autre cas, ils étaient présentés sur cassette audio seulement (présentation auditive). • Les élèves ont également soumis à la même tâche 9 sujets catégorisés comme auditifs.
Décrire le lien entre variables • CHAPITRE 8
45
Le nombre moyen de mots retenus – variable dépendante quantitative – en fonction du mode de présentation et du profil neurosensoriel – deux variables indépendantes – est rapporté dans le tableau 8.14. Comme on peut le constater, la présentation de résultats impliquant trois variables est plus simple lorsque la variable dépendante est quantitative plutôt que qualitative. Il en est de même de la représentation graphique, ainsi que l’illustre la figure 8.12 ci-dessous. Tableau 8.14
Nombre moyen de mots retenus sur 25 en fonction du mode de présentation et du profil neurosensoriel Mode de présentation
Profil neurosensoriel
Figure 8.12
12
Nombre moyen de mots retenus
10
Visuel
Auditif
Moyenne
Visuel (n = 11) Auditif (n = 9)
11,09 8,86
8,73 9,00
9,91 8,93
Moyenne
10,09
8,85
9,47
Nombre moyen de mots retenus sur 25 en fonction du mode de présentation et du profil neurosensoriel 11,09 8,86
8,73
9,00
Profil visuel Profil auditif
8 6 4 2 0 Visuel
Auditif Mode de présentation
n a vu dans le présent chapitre comment, pour étudier le lien entre des variables de différentes natures impliquées dans une hypothèse ou un objectif, on peut établir la distribution des variables puis calculer certaines mesures de lien, ou encore comparer les mesures de tendance centrale calculées dans différentes conditions ou avec différents groupes.
O
Cette étude des liens entre variables complète, avec celle des cas où l’hypothèse ou l’objectif n’implique qu’une seule variable, le volet descriptif du traitement de données dans ce manuel. Les deux chapitres qui suivent vont porter sur le volet inférentiel d’un traitement statistique, non requis lorsque les données ont été recueillies auprès de toute la population, mais essentiel lorsqu’elles l’ont été auprès d’un échantillon pour juger de la valeur représentative des résultats obtenus.
46
ÉTAPE 3 • L’analyse des données
En bref Lorsque l’hypothèse ou l’objectif porte sur des relations entre deux variables ou plus, il y a lieu de distinguer différentes situations selon la nature des variables et le type de relation étudiée.
Lien entre deux variables qualitatives L’analyse consiste essentiellement à établir la distribution, puis à mesurer le lien entre les variables.
La distribution On appelle série statistique bivariée une série constituée de paires de données recueillies auprès des différentes unités statistiques. Pour établir la distribution des variables, on procède d’abord au calcul des fréquences pour chacune des combinaisons de modalités, puis on en fait la présentation sous forme de tableau à double entrée, qu’on appelle spécifiquement, dans le cas de fréquences, tableau de contingence ou encore tableau croisé. Pour la représentation graphique, on peut utiliser des diagrammes circulaires ou des diagrammes linéaires juxtaposés, si on veut mettre l’accent sur la relation de partie à tout, ou encore le diagramme à rectangles chevauchés, si on veut montrer plutôt la relation de partie à partie. À noter ici que le type de relation – relationnelle ou causale – qu’on désire étudier influe sur la façon de calculer les fréquences relatives, d’en dresser le tableau et de les illustrer graphiquement.
La mesure du lien Pour obtenir la force du lien entre deux variables, on utilise des mesures d’association. Dans le cas de variables qualitatives, le calcul de ces mesures requiert au préalable le calcul des fréquences théoriques et du khi carré. Les fréquences théoriques (ft) – ou attendues ou encore espérées – correspondent aux fréquences auxquelles on devrait s’attendre s’il n’y avait pas de lien entre les variables. Pour chaque cellule correspondant, dans un tableau, à une combinaison de modalités, la fréquence théorique se calcule à partir de la formule suivante : ft(cellule) =
⫻ Total de la rangée 冋 Total de la colonne 册. Grand total
Pour évaluer jusqu’à quel point les fréquences observées diffèrent des fréquences théoriques, on calcule, pour chaque combinaison de modalités, l’écart relatif entre la fréquence observée (fo) et la fréquence théorique (ft), puis on fait la somme de ces écarts relatifs. On obtient alors le khi carré, symbolisé par χ 2 et exprimé par la formule suivante : χ2 = Σ
(f0 – ft)2 . ft
Décrire le lien entre variables • CHAPITRE 8
47
Plus la valeur de χ 2 et est élevée, plus le lien entre les variables l’est aussi. Par ailleurs, cette valeur ne permettant pas d’évaluer directement la force du lien, cette dernière peut être évaluée grâce à certaines mesures telles que le coefficient de contingence et le coefficient de Cramer. Ces mesures sont données par les formules suivantes : Coefficient de contingence (C)
Coefficient de Cramer (V)
冪 χ χ+ n , 2
C=
où :
冪 n(hχ – 1 , 2
V=
2
χ 2 = la valeur du khi carré ;
où :
n = la taille de l’échantillon (remplacé par N quand il s’agit d’une population).
χ 2 = la valeur du khi carré ;
n = la taille de l’échantillon (remplacé par N quand il s’agit d’une population) ; h = la valeur la plus petite entre le nombre de modalités d’une des variables (nombre de rangées) et le nombre de modalités de l’autre variable (nombre de colonnes).
De façon générale, une mesure d’association égale à 0 indique une absence totale de lien entre les variables, alors que plus la valeur s’approche de 1, plus l’association est forte.
Lien entre deux variables quantitatives Aucune valeur n’a été prédéterminée Lorsqu’aaucune valeur concernant une des variables n’a été prédéterminée, on représente les données au moyen d’un diagramme de dispersion. Dans ce type de graphique, la variable retenue comme variable indépendante au sens large correspond à l’axe des abscisses, et la variable dépendante, à l’axe des ordonnées ; chaque point est placé aux coordonnées appropriées sur le graphique, l’ensemble des points constituant le nuage de points. Le graphique permet une première estimation du lien entre les variables. Si le nuage de points tend à se rapprocher d’une droite dont la pente est ascendante, on parle de corrélation positive – les deux variables varient dans le même sens – alors qu’on parle de corrélation négative si la pente est descendante – les variables varient en sens contraire. Plus la tendance à former une droite est marquée, plus le lien est élevé. On peut obtenir une mesure du lien entre les variables à l’aide du coefficient de corrélation linéaire de Pearson, noté r dans le cas d’un échantillon, dont la formule est x y – nx-yr= Σ i i (n – 1)sxsy
où : Σxi yi = la somme de tous les produits xy de chaque couple (x ; y), c’est- à-dire de chaque paire de données constituant la série statistique bivariée ;
n = la taille de l’échantillon, c’est-à-dire le nombre de couples (x ; y) ; x- = la moyenne de l’échantillon pour la variable X ;
48
ÉTAPE 3 • L’analyse des données
y- = la moyenne de l’échantillon pour la variable Y ;
sx = l’écart type de l’échantillon pour la variable X ; sy = l’écart type de l’échantillon pour la variable Y.:
Le coefficient de Pearson pouvant varier de −1 à +1, on l’interprète en considérant que : • le signe positif ou négatif indique si les deux variables varient dans le même sens (r > 0) ou dans le sens contraire (r < 0) ; • plus r est différent de 0, plus la corrélation linéaire est forte, c’est-à-dire plus les points tendent à s’aligner sur une droite. On peut connaître la droite de régression, c’est-à-dire la droite vers laquelle tendent les points, en utilisant la formule suivante : y’ = a + bx
où :
y’ = la valeur y prédite pour une valeur x quelconque lorsque la corrélation est parfaite ; S
b = la valeur de la pente, donnée par : r Sy x où :
r = le coefficient de corrélation linéaire dans l’échantillon, sy = l’écart type de l’échantillon pour la variable Y, sx = l’écart type de l’échantillon pour la variable X ; a = la valeur de l’ordonnée à l’origine, donnée par : a = y- – bxoù :
b = la valeur de la pente, y- = la moyenne de l’échantillon pour la variable Y, x- = la moyenne de l’échantillon pour la variable X.
Le coefficient de détermination, dénoté r2, exprime jusqu’à quel point on peut, dans l’ensemble, expliquer les variations observées sur la variable Y en fonction de celles de la variable X.
Les valeurs de la variable indépendante sont prédéterminées Dans le cas, fréquent en sciences humaines, où la variable indépendante d’une hypothèse relationnelle est une variable temporelle, on parle de série chronologique pour désigner la série bivariée et le graphique illustrant ces données est appelé chronogramme. On peut calculer un coefficient de corrélation linéaire sur ces données et déterminer une droite de régression, laquelle est alors souvent appelée droite de tendance. Lorsque, pour vérifier une hypothèse causale, les valeurs de la variable indépendante ont été prédéterminées, les mesures étant prises sur la variable dépendante, l’étude du lien entre variables consiste généralement à comparer les mesures de tendance centrale correspondant aux différentes valeurs de la variable indépendante. Les mesures de tendance centrale ainsi obtenues peuvent être présentées dans un tableau et représentées dans un graphique linéaire reliant par des segments de droite les points correspondants.
Décrire le lien entre variables • CHAPITRE 8
49
Lien entre une variable qualitative et une variable quantitative Lorsque la variable qualitative est considérée comme une variable dépendante, que ce soit dans le cadre d’une hypothèse relationnelle ou d’une hypothèse causale, on peut décrire le lien entre les variables de la même façon que pour deux variables qualitatives. Par contre, lorsque c’est la variable quantitative qui correspond à la variable dépendante, différents cas peuvent se présenter. Si la variable indépendante est une dimension temporelle, les données sont typiquement illustrées par un graphique à rectangles ou un graphique linéaire. La façon dont le phénomène évolue dans le temps est alors évaluée par certaines mesures : la variation, qui est la mesure la plus simple, la variation relative et la variation moyenne. Par ailleurs, si la variable dépendante est une mesure quantitative recueillie dans différentes conditions ou avec différents groupes, l’étude du lien entre les variables consiste habituellement à comparer les mesures de tendance centrale correspondant aux différentes valeurs de la variable dépendante pour chacune des valeurs de la variable indépendante. Ces différentes mesures sont typiquement illustrées par un graphique à rectangles verticaux.
Lien entre plus de deux variables Dans certaines recherches, les données forment une série statistique multivariée, c’est-à-dire une série constituée de groupes de trois données ou plus recueillies auprès des différentes unités statistiques d’une population ou d’un échantillon. Il est alors possible d’établir la distribution de fréquences selon les mêmes principes qu’avec une série bivariée, mais la consultation d’un tableau et d’un graphique tenant compte de toutes les variables est cependant moins aisée que lorsqu’on ne prend en considération que deux variables à la fois. Lorsque l’hypothèse ou l’objectif porte sur la relation entre une variable quantitative dépendante et deux variables indépendantes, la représentation, tant sous forme de tableau que de graphique, des mesures de tendance centrale en fonction des variables indépendantes demeure aisée à effectuer et à consulter.
50
ÉTAPE 3 • L’analyse des données
On s’entraîne 1. Une sexologue s’interroge sur les habitudes sexuelles des Québécois. Elle sé-
SOCIOLOGIE
lectionne au hasard 66 Québécois adultes ayant une vie sexuelle active et leur pose la question suivante :
Les jours de congé, à quel moment de la journée préférez-vous faire l’amour avec votre partenaire ?
I Nuit
I Matin
I Après-midi
I Soir
Dans cet échantillon, 22 sujets sont des hommes et 44 sont des femmes. La sexologue aimerait savoir si les hommes et les femmes ont les mêmes préférences quant au moment de la journée où ils préfèrent faire l’amour. Elle désire plus particulièrement vérifier l’hypothèse selon laquelle le moment préféré pour faire l’amour varie en fonction du sexe. La série statistique suivante représente les résultats pour l’ensemble des répondants. No répondant
Sexe
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
F F M F M M F M F F F F M M F F F M F M F F
Moment No répondant M S S S N M A N N S N S A N A S S S S S N M
23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44
Sexe F F F F F F F M M F M F M M F F F F M F F F
Moment No répondant S M N S A M N M S S N N M S M S M N S A S M
45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66
Sexe
Moment
M M M F M M F F F F F M M F F F M F F F F F
M S N S S N S M N A N S M S S M S M S N S N
a) À partir de ces données, construisez un tableau de contingence approprié à l’hypothèse énoncée par la sexologue.
b) Quelle proportion des répondants sont des hommes ? c) Quelle proportion des répondants préfèrent faire l’amour le matin ? d) Construisez un tableau présentant les fréquences théoriques s’il n’y avait pas de lien entre le sexe et le moment préféré pour faire l’amour.
e) Calculez le khi carré. f) Calculez et interprétez le coefficient de Cramer et le coefficient de contingence.
Décrire le lien entre variables • CHAPITRE 8
51
g) Peut-on affirmer, à partir de ces coefficients, qu’il existe un lien entre le sexe et le moment préféré pour faire l’amour ?
PSYCHOLOGIE SOCIOLOGIE
2. Un sociologue s’intéresse à l’influence parentale sur la consommation de cigarettes des adolescents. Il émet l’hypothèse que l’habitude de consommation de tabac chez les adolescents est liée à l’habitude de consommation chez le parent de même sexe. Les résultats de l’étude à partir d’un échantillon de 500 jeunes âgés de 12 à 17 ans ont donné la répartition suivante. Répartition de 500 adolescents selon leur habitude de consommation de tabac et celle du parent de même sexe I Jamais I À l’occasion I Régulièrement
Nombre d’adolescents
300 264 250 200 150 100 50
67 37
24
19
19
12
22
36
0 À l’occasion Régulièrement Jamais Consommation de tabac chez le parent de même sexe
a) À partir de ce graphique, dressez un tableau incluant les fréquences observées et les fréquences théoriques.
b) Calculez le khi carré. c) Calculez et interprétez le coefficient de Cramer et le coefficient de contingence.
d) L’hypothèse du sociologue est-elle fondée ? Justifiez votre réponse. PSYCHOLOGIE
3. Des psychologues ont avancé l’hypothèse que les jeunes enfants qui ont un ou plusieurs frères ou sœurs sont plus sociables et communiquent plus souvent avec leurs pairs que les enfants uniques. Ils ont tenté de vérifier cette hypothèse en observant le comportement de deux groupes de 75 enfants, dont l’un est constitué d’enfants uniques et l’autre d’enfants ayant un ou plusieurs frères ou sœurs, et en catégorisant le comportement d’un enfant en présence d’enfants de son âge, selon le barème suivant : A : Ignore les autres et communique rarement ou pas du tout. B : Se tient en retrait, communique peu et seulement en réponse à une question. C : Joue avec les autres mais parle peu. D : Joue avec les autres et communique beaucoup. Une fois les observations complétées, les psychologues ont effectué les dénombrements suivants.
52
ÉTAPE 3 • L’analyse des données
Groupe des enfants uniques
Groupe des enfants ayant des frères et/ou soeurs
A:
A:
B:
B:
C:
C:
D:
D:
a) À partir de ces données brutes, construisez un tableau de fréquences absolues incluant les deux groupes d’enfants.
b) Construisez le tableau des fréquences théoriques. c) Calculez la valeur du khi carré. d) Calculez et interprétez le coefficient de Cramer et le coefficient de contingence.
e) L’hypothèse des psychologues est-elle fondée ? Justifiez votre réponse.
4. En criminologie, on s’intéresse beaucoup au lien qui existe entre les différents types de crimes perpétrés et le profil du criminel. Dans la recherche dont les résultats apparaissent dans le tableau ci-dessous, l’hypothèse qu’on vise à démontrer statistiquement est qu’au Canada le type d’infraction au Code criminel varie selon le groupe d’âge du criminel.
PSYCHOLOGIE SOCIOLOGIE
Répartition des Canadiens accusés d’infractions au Code criminel selon le type d’infraction et le groupe d’âge en 2008 Type d’infraction au Code criminel Groupe d’âge
Crimes avec violence
Crimes contre la propriété
Autres crimes
Total
Adultes Jeunes
151 404,6 259 317,4
137 640,5 292 744,4
232 622,5 369 263,2
521 667,6 921 325,0
Total
410 722,0
430 384,9
601 885,7
1 442 992,6
Source : Les données du tableau ont été déduites des sources suivantes : Pour les taux d’infractions : <http://www40.statcan.gc.ca/102/cst01/legal14a-fra.htm > Pour la population : <http://www40.statcan.gc.ca/102/cst01/demo02a-fra.htm >
a) De combien d’infractions au Code criminel a-t-on eu connaissance au Canada en 2008 ?
b) Quelle proportion des crimes avec violence ont été commis par des jeunes ? c) Quelle proportion des adultes criminels au Canada en 2008 ont commis des crimes contre la propriété ?
d) Quelle est, dans ce contexte, la variable dépendante ? e) Construisez un tableau de fréquences relatives en utilisant le total de chaque ligne du tableau.
f) Sur l’ensemble des crimes commis dans la catégorie Autres crimes, combien devrait-on en retrouver, théoriquement, qui ont été commis par des jeunes s’il n’y avait aucun lien entre le type d’infraction au Code criminel et le groupe d’âge ?
Décrire le lien entre variables • CHAPITRE 8
53
g) Calculez le coefficient de Cramer et donnez-en l’interprétation statistique. h) Peut-on confirmer ou infirmer l’hypothèse avancée ? Justifiez votre réponse. SOCIOLOGIE
5. Les policiers qui enquêtent sur les circonstances des accidents d’automobiles ont souvent besoin de connaître la vitesse du ou des véhicules en cause avant l’impact. Un des moyens pour estimer cette vitesse consiste à mesurer les traces de freinage. En effet, les spécialistes s’entendent pour dire qu’il y a un lien entre les deux variables. Voici les résultats d’une recherche menée sur de l’asphalte sec avec un échantillon de 12 automobilistes. Vitesse (km/h)
35
45
55
65
75
85
Trace de freinage (m)
2,21
3,35
4,24
6,00
7,12
8,45
95
105
115
10,04 10,96 12,86
125
135
13,54 14,48
145 14,57
a) Situez graphiquement les 12 automobilistes dans un diagramme de dispersion.
b) Calculez et interprétez statistiquement le coefficient de corrélation de Pearson.
c) Déterminez la droite de régression qui constitue le modèle mathématique permettant de prédire la longueur de la trace de freinage à laquelle on peut s’attendre habituellement en fonction de la vitesse au moment du freinage.
d) Peut-on affirmer que ce modèle mathématique donne des résultats assez près de la réalité ? Justifiez votre réponse.
e) Un automobiliste impliqué dans un accident affirme qu’il roulait en dessous de la limite permise de 50 km/h au moment où il a commencé à freiner. Les policiers ont mesuré des traces de freinage de 4,36 m. Expliquez à partir du modèle mathématique si on peut considérer que l’automobiliste dit la vérité.
PSYCHOLOGIE SOCIOLOGIE
6. Des sociologues américains se sont penchés sur la perception que les gens ont des hommes de grande taille. Ils croient ainsi que les hommes grands sont mieux perçus par la société en général et qu’ils en retirent certains avantages. Ils ont étudié le revenu annuel d’un échantillon de 13 hommes de différentes tailles. Voici ce qu’ils ont obtenu. Taille (m)
1,65
1,68
1,82 1,85
1,73
Salaire (en milliers de $)
55,4 56,1 64,2 81,0 75,9 64,3
1,91
1,58
1,89
1,52
1,66 1,75
1,6
29,2 46,8 35,9 42,4 90,3 38,4
a) Selon l’hypothèse des chercheurs, la corrélation serait-elle positive ou négative ?
b) Sachant que la moyenne de revenu annuel de l’échantillon est de 60 469 $, calculez le revenu annuel du septième individu de l’échantillon.
c) Sachant que la taille moyenne de l’échantillon est de 1,72 m, calculez la taille du troisième individu de l’échantillon.
54
ÉTAPE 3 • L’analyse des données
d) Calculez et interprétez statistiquement le coefficient de corrélation de Pearson.
e) Déterminez le modèle mathématique permettant de prédire le revenu annuel d’un individu à partir de sa taille.
f) Selon ce modèle mathématique, quelle serait la taille d’un joueur de hockey professionnel dont le revenu annuel est de 1,2 million de dollars ? Donnez la raison pour laquelle le résultat obtenu pour cette dernière question est insensé.
7. Les psychologues parlent de diffusion de responsabilité pour désigner le phé-
PSYCHOLOGIE
nomène selon lequel un individu en présence d’une personne en difficulté sera plus tenté de lui porter secours s’il est l’unique ou l’un des rares témoins que s’il est en présence d’une foule de témoins. Plusieurs simulations de vol d’un sac à main ont été effectuées pour démontrer ce principe. L’expérience a été répétée 42 fois devant un seul témoin et celui-ci a tenté de rattraper le voleur à 31 reprises. La victime a été aidée à 10 reprises sur les 34 expériences menées devant un groupe d’une dizaine de témoins et à 12 reprises sur les 62 expériences menées devant une foule de plus de 50 témoins.
a) b) c) d)
Quelles sont les deux variables en cause ? Construisez un tableau des fréquences observées. Dans quelle proportion des essais la victime a-t-elle été aidée ? Tracez un diagramme à partir des fréquences observées.
8. Lise veut montrer l’importance du déjeuner pour les élèves du primaire. Elle
PSYCHOLOGIE
croit que les élèves qui ne déjeunent pas performent moins bien intellectuellement que ceux qui déjeunent. Elle a donc choisi de priver son groupe d’élèves de maternelle de déjeuner et de mesurer le temps que ses 10 élèves prennent pour assembler un casse-tête. Elle a ensuite fait la même expérience avec le groupe de 9 élèves de Nathalie, mais en leur offrant préalablement un déjeuner complet. Voici le temps pris (en minutes) par chaque élève des deux groupes pour reconstituer le casse-tête. Groupe de Lise (sans déjeuner) Groupe de Nathalie (avec déjeuner)
a) b) c) d)
3,13
2,14
3,48
1,88
4,41
2,84
1,75
2,01
3,15
1,52
2,72
4,10
2,56
2,23
2,19
3,95
2,39
3,11
2,67
Quelles sont les deux variables dans cette situation ? Quelle est la nature (qualitative ou quantitative) de chacune de ces variables ? Quel est le type d’hypothèse ou d’objectif en cause ? Précisez, dans le cas de chaque variable, s’il s’agit d’une variable indépendante ou d’une variable dépendante.
e) Comment s’y prend-on habituellement pour étudier le lien entre les variables dans ce type de situation ?
Décrire le lien entre variables • CHAPITRE 8
55
PSYCHOLOGIE
9. Le gouvernement a commandé une étude pour évaluer l’effet sur le comportement des automobilistes du remplacement des gyrophares extérieurs des autos-patrouilles des différents corps policiers québécois par des gyrophares intérieurs. Pour réaliser l’expérience, on a demandé à un patrouilleur à bord d’un véhicule muni de gyrophares extérieurs de se garer sur le bord d’une autoroute fréquentée et de mesurer la vitesse des 20 premières automobiles. Ensuite, au même endroit, les mesures de vitesse des 20 premières automobiles ont été effectuées à bord d’un véhicule ayant des gyrophares intérieurs. Voici le polygone de fréquences illustrant les deux situations. Répartition de 40 automobilistes selon leur vitesse et le type de véhicule de patrouille au moment de la mesure
Nombre d’automobilistes
8
Gyrophares extérieurs Gyrophares intérieurs
6 4 2 0 100
105
110
115
120
125
130
Vitesse (en km/h)
a) À partir du graphique, interprétez statistiquement la différence qu’il y a entre les vitesses mesurées à partir des deux types d’autos-patrouilles.
b) c) d) e)
56
Calculez la vitesse moyenne enregistrée dans chaque cas. Calculez l’écart type de la vitesse enregistrée dans chaque cas. Quelle différence relative y a-t-il entre les deux moyennes ? Peut-on dire que la façon dont les résultats ont été traités indique une utilisation maximale de l’information contenue dans les mesures recueillies ?
ÉTAPE 3 • L’analyse des données
10. Le tableau suivant présente l’évolution du taux d’homicides enregistrés au Québec lors des 20 années ayant précédé 2009. Taux d’homicides (par 100 000 habitants) enregistré au Québec de 1989 à 2008 Année Taux d’homicides
1989 1990 3,1
2,63
1991
1992
1993 1994
1995 1996 1997
1998
2,56
2,34
2,22
1,87
1,88
1,75
2,13
1,81
Année
1999 2000 2001 2002 2003 2004 2005 2006 2007 2008
Taux d’homicides
1,87
2,04
1,89
1,59
1,32
1,47
1,32
1,22
1,17
1,19
Source : Statistique Canada (2009). Taux d’homicides selon la province et le territoire, 1978 à 2008. (Page consultée le 20 février 2010 à l’adresse suivante : < http://www.statcan.gc.ca/pub/85-002-x/ 2009004/article/10929/tbl/tbl01-fra.htm#n3 >.)
a) Tracez le chronogramme correspondant au tableau. b) Commentez brièvement l’allure générale de la courbe. c) Calculez la variation relative (en %) : • entre 1988 et 1993, en prenant comme année de référence 1988 (année où le taux d’homicides avait été de 2,25 par 100 000 habitants) ; • entre 1993 et 1998, en prenant comme année de référence 1993 ; • entre 1998 et 2003, en prenant comme année de référence 1998 ; • entre 2003 et 2008, en prenant comme année de référence 2003.
d) Tracez un chronogramme de la variation relative en fonction de chaque bloc de 5 années.
e) Calculez le taux de variation annuel pour chacune des quatre périodes. f) Tracez un chronogramme du taux de variation annuel en fonction de chaque bloc de 5 années (utiliser le même type de graphique qu’en d).
g) Comparez les chronogrammes tracés en d et en f, et commentez-les par rapport à l’évolution du taux d’homicides au Québec entre 1988 et 2008 (5 à 10 lignes).
Décrire le lien entre variables • CHAPITRE 8
57