Méthodes
quantitatives en sciences humaines 3e édition
GUY PARENT
Avant-propos A
près avoir enseigné pendant plus de vingt ans les cours d’initiation pratique à la méthodologie des sciences humaines et de méthodes quantitatives en sciences humaines, j’ai senti le besoin de rédiger un manuel qui met le plus possible en évidence le lien étroit unissant ces deux cours. C’est cet objectif qui m’a guidé à la première édition de ce manuel, tant en ce qui concerne la façon de structurer le contenu que le choix de la démarche pédagogique. On retrouve cette approche dans cette troisième édition, laquelle se différencie toutefois des précédentes par certains points qui sont signalés plus bas. Tout d’abord, voici un rappel des éléments caractérisant l’approche de ce manuel concernant la structure du contenu et la démarche pédagogique : • En ce qui a trait à la structure du contenu, elle est articulée à partir des différentes étapes d’une recherche, celles-ci étant essentiellement les mêmes en sciences humaines et en sciences en général. Il s’agit ici de montrer où, quand et comment s’insèrent graduellement les notions d’ordre quantitatif dans le cours d’une recherche, comme lorsque vous devez en réaliser une. Comme on le verra, l’aspect quantitatif intervient à toutes les étapes, même si c’est surtout lorsqu’on a en main les données chiffrées que le traitement quantitatif prend toute la place ; • La démarche pédagogique adoptée consiste à proposer, pour chaque situation susceptible de se présenter dans le cours d’une recherche, un exemple-type dont on se sert pour illustrer la marche à suivre, reproduisant le plus fidèlement possible ce qu’on doit faire pour traiter les données recueillies. À noter également que chaque fois qu’une nouvelle notion est introduite, elle est illustrée à l’aide d’un exemple ponctuel et suivie d’une pause-exercice permettant de l’assimiler. Cette troisième édition se différencie toutefois des précédentes par certains points qui méritent d’être soulignés : • Tout d’abord, un effort particulier a été fait pour rendre le texte de base plus concis, son rôle principal étant de vous guider vers les tableaux, figures et exemples reliés aux concepts présentés dans le texte ; • Une innovation intéressante a été introduite : les données quantitatives de tous les exemples et exercices ont été saisies dans des fichiers Excel®. Grâce à ces fichiers, vous pourrez vous concentrer sur les calculs appropriés à faire exécuter par le logiciel et sur l’interprétation à donner aux résultats de ces calculs. Chaque fois que ces fichiers sont pertinents, leur disponibilité est indiquée par un pictogramme dans la marge ; • Autre élément digne d’intérêt : une base de données construite à partir d’un sondage auquel ont répondu 140 cégépiens au cours de l’automne 2015 est disponible en fichier Excel® et sert à différentes activités-synthèses. Portant sur le thème du travail étudiant durant l’année scolaire, elle vous permet de travailler sur des données réelles concernant un sujet qui vous touche de près. À la fin de chaque section importante d’un chapitre, un pictogramme renvoie à un document qui vous suggère une activité-synthèse appropriée pour mettre en pratique ce que vous venez d’apprendre. Ainsi, tout en conservant l’approche basée sur une présentation du contenu organisé en fonction des étapes d’une recherche, cette troisième édition intègre un outil désormais incontournable : le tableur Excel®. Elle devrait vous préparer encore mieux aux recherches que vous devrez faire dans un cours comme Initiation pratique à la méthodologie des sciences humaines. © 2016, Les Éditions CEC inc. • Reproduction interdite
III
Présentation des caractéristiques des chapitres Une approche structurée à partir des grandes étapes de la démarche appliquée aux méthodes quantitatives.
Un rappel succinct des principales notions abordées dans le chapitre précédent.
Un schéma situant visuellement le contenu par rapport à l’ensemble de la démarche et des notions présentées dans le chapitre, ainsi que les objectifs à atteindre.
Les notions traitant de l’analyse des données organisées à partir d’exemples types.
Un tableur Excel® est proposé dans la version numérique. Son utilisation est facultative, mais permet à l’étudiant de développer la maîtrise de ce logiciel.
Des tableaux et figures pour la représentation graphique et visuelle des notions et des exemples.
Des pauses-exercices accompagnant chaque notion et permettant à l’étudiant d’assimiler immédiatement la notion étudiée. L’étudiant est prêt à mettre en pratique ses nouvelles connaissances. Une banque de données brutes est fournie pour permettre ce réinvestissement.
Les mots en bleu dans le texte sont définis dans le glossaire.
IV
offrent un Des rubriques comme contenu complémentaire ou plus poussé, , un conseil, une mise en garde ou une précision, PSITT , attire l’attention sur des pratiques différentes.
© 2016, Les Éditions CEC inc. • Reproduction interdite
Les En bref offrent une synthèse claire et efficace de l’ensemble des notions du chapitre.
La section On met en pratique propose de nombreux exercices pour consolider les apprentissages ; problèmes touchant différentes disciplines des sciences humaines.
Un corrigé de tous les exercices se trouve à la fin du manuel. Annexe portant sur l’utilisation des fonctions statistiques sur une calculatrice.
© 2016, Les Éditions CEC inc. • Reproduction interdite
V
Table des matières Liste des symboles mathématiques et leur signification, selon le chapitre et la section ................................. 1
Introduction ......................................................................................................................................................................................................................... 2 La quantification : concept de base et intérêt pour les sciences humaines ........................................................................ 2 La quantification et la démarche scientifique.......................................................................................................................................................... 4 Étape 1 : La construction de la problématique ............................................................................................................................................................... 4 Étape 2 : La collecte des données ................................................................................................................................................................................................ 5 Étape 3 : L’analyse des données ..................................................................................................................................................................................................... 6 Étape 4 : L’interprétation des résultats .................................................................................................................................................................................... 7 Étape 5 : La communication des résultats ........................................................................................................................................................................... 7
L’organisation de la matière .............................................................................................................................................................................................................
Étape 1 Chapitre 1
7
La construction de la problématique
Définir ce sur quoi portera la recherche ...................................................................................... 10
1.1 Le choix d’une question de départ ............................................................................................................................................................................... 11 1.1.1 Les questions descriptives ................................................................................................................................................................................................... 11 1.1.2 Les questions portant sur un lien de cause à effet ..................................................................................................................................... 12
1.2 La recension critique des documents sur la question ....................................................................................................................... 13 1.3 La formulation d’une hypothèse ou d’un objectif .................................................................................................................................. 14 1.3.1 L’hypothèse ...................................................................................................................................................................................................................................... 14 A Hypothèse univariée ....................................................................................................................................................................................................................... 14 B Hypothèse bivariée ou multivariée .......................................................................................................................................................................................... 14 Hypothèse causale .................................................................................................................................................................................................................... 14 Hypothèse relationnelle .......................................................................................................................................................................................................... 14 1.3.2 L’objectif................................................................................................................................................................................................................................................ 15 1.3.3 La formulation opérationnelle ....................................................................................................................................................................................... 16 A La notion de formulation opérationnelle ............................................................................................................................................................................... 16 B L’analyse conceptuelle .................................................................................................................................................................................................................... 17
En bref ....................................................................................................................................................................................................................................................................... 19 On met en pratique................................................................................................................................................................................................................................... 20
VI
© 2016, Les Éditions CEC inc. • Reproduction interdite
Étape 2 Chapitre 2
La collecte des données
Planifier la collecte des données et la réaliser ................................................................. 22
2.1 Le choix des sources de données : l’échantillonnage ............................................................................................................................ 23 2.1.1 Les concepts de base ................................................................................................................................................................................................................. 23 2.1.2 Les principales techniques d’échantillonnage ................................................................................................................................................ 25 A Les techniques d’échantillonnage aléatoire ou probabiliste ......................................................................................................................................... 26 Échantillonnage simple et échantillonnage systématique....................................................................................................................................... 28 Échantillonnage global et échantillonnage stratifié .................................................................................................................................................. 31 Échantillonnage par unités et échantillonnage par grappes .................................................................................................................................. 34 B Les techniques d’échantillonnage non aléatoire ou non probabiliste ....................................................................................................................... 37 Trois techniques d’échantillonnage non aléatoire de base ..................................................................................................................................... 37 Techniques analogues aux techniques d'échantillonnage aléatoire ................................................................................................................... 39 C Le choix d’une technique aléatoire ou non aléatoire ....................................................................................................................................................... 41 Avantages et inconvénients .................................................................................................................................................................................................. 41 Pertinence et prise de décision ........................................................................................................................................................................................... 41
2.2 La planification du matériel requis ........................................................................................................................................................................... 43 2.2.1 Une grande variété dans le matériel de collecte ........................................................................................................................................... 43 2.2.2 Un instrument de collecte particulier : le questionnaire d’enquête ........................................................................................... 43 A Questions fermées ........................................................................................................................................................................................................................... 43 B Questions ouvertes ........................................................................................................................................................................................................................ 44
2.3 La mise au point du déroulement de la collecte ....................................................................................................................................... 45 En bref ....................................................................................................................................................................................................................................................................... 47 On met en pratique ................................................................................................................................................................................................................................. 49
Étape 3 Chapitre 3
L’analyse des données
Prendre en considération les facteurs déterminant l’analyse ............... 54
3.1 Le nombre de variables en cause .................................................................................................................................................................................. 55 3.2 La nature de chaque variable ........................................................................................................................................................................................... 57 3.2.1 Les variables qualitatives .................................................................................................................................................................................................... 57 3.2.2 Les variables quantitatives ................................................................................................................................................................................................ 57
3.3 L’échelle de mesure des variables ................................................................................................................................................................................. 58 3.3.1 L’échelle nominale ...................................................................................................................................................................................................................... 59 3.3.2 L’échelle ordinale ....................................................................................................................................................................................................................... 60 3.3.3 L’échelle intervallaire ............................................................................................................................................................................................................. 61 3.3.4 L’échelle proportionnelle .................................................................................................................................................................................................... 62
3.4 Le type de données recueillies ......................................................................................................................................................................................... 63 3.4.1 Les données directes ................................................................................................................................................................................................................ 63 3.4.2 Les données construites ..................................................................................................................................................................................................... 64 A Les totaux ........................................................................................................................................................................................................................................... 64 B Les rapports ....................................................................................................................................................................................................................................... 64 Proportions simples ................................................................................................................................................................................................................. 64 Ratios .............................................................................................................................................................................................................................................. 65 Taux ................................................................................................................................................................................................................................................. 66 C Les indices ........................................................................................................................................................................................................................................... 67
3.5 L’objet même de l’hypothèse ou de l’objectif ................................................................................................................................................... 69 En bref ....................................................................................................................................................................................................................................................................... 70 On met en pratique .................................................................................................................................................................................................................................. 72 © 2016, Les Éditions CEC inc. • Reproduction interdite
VII
Étape 3 Chapitre 4
L’analyse des données (suite)
Décrire une variable qualitative ............................................................................................................... 76
4.1 La distribution d’une variable qualitative ....................................................................................................................................................... 78 4.1.1 Le dénombrement et le calcul des fréquences de base ........................................................................................................................... 78 4.1.2 Le tableau de fréquences à simple entrée avec données groupées par modalités ...................................................... 80 A Les fréquences rapportées dans un tableau ....................................................................................................................................................................... 80 Données de niveau nominal ou ordinal ........................................................................................................................................................................... 80 Données de niveau ordinal .................................................................................................................................................................................................... 81 B Les normes de présentation d’un tableau ............................................................................................................................................................................. 82 4.1.3 La représentation graphique .......................................................................................................................................................................................... 84 A L’illustration du rapport entre chaque modalité et l’ensemble.................................................................................................................................... 84 Diagramme circulaire ............................................................................................................................................................................................................... 85 Diagramme linéaire ................................................................................................................................................................................................................... 85 À savoir .......................................................................................................................................................................................................................................... 86 B L’illustration de la comparaison entre les modalités ........................................................................................................................................................ 86 Diagramme à rectangles ......................................................................................................................................................................................................... 86 À savoir ......................................................................................................................................................................................................................................... 88 C L’illustration des fréquences cumulées ................................................................................................................................................................................. 88
4.2 Les deux mesures de tendance centrale possibles : le mode et la médiane ...........................................................
90
4.2.1 Le mode ............................................................................................................................................................................................................................................... 90 A La détermination du mode .......................................................................................................................................................................................................... 90 B L’interprétation statistique du mode ....................................................................................................................................................................................... 91 4.2.2 La médiane : détermination et interprétation statistique ................................................................................................................... 93 A Le cas des données non groupées ........................................................................................................................................................................................... 93 Classement des données par ordre de grandeur ......................................................................................................................................................... 94 Calcul de la position centrale de la série ........................................................................................................................................................................ 94 Détermination et interprétation de la médiane ........................................................................................................................................................... 94 B Le cas des données groupées ..................................................................................................................................................................................................... 96 Classement des données par ordre de grandeur ......................................................................................................................................................... 96 Calcul de la position centrale de la série ........................................................................................................................................................................ 96 Détermination et interprétation de la médiane ............................................................................................................................................................ 96 4.2.3 La pertinence des différentes mesures de tendance centrale ......................................................................................................... 97 A La pertinence du mode .................................................................................................................................................................................................................. 97 B La pertinence de la médiane ...................................................................................................................................................................................................... 98
En bref ....................................................................................................................................................................................................................................................................... 99 On met en pratique ................................................................................................................................................................................................................................ 101
Chapitre 5 Décrire une variable quantitative discrète présentant peu de
valeurs possibles : distribution et mesures de tendance centrale . 106
5.1 La distribution d’une variable quantitative discrète ........................................................................................................................ 108 5.1.1 Le dénombrement et le calcul des fréquences de base ......................................................................................................................... 108 5.1.2 Le tableau de fréquences à simple entrée avec données groupées par valeurs ........................................................... 108 5.1.3 La représentation graphique .......................................................................................................................................................................................... 109 A L’illustration du rapport entre chaque valeur et l’ensemble ....................................................................................................................................... 109 B L’illustration de la comparaison des valeurs ...................................................................................................................................................................... 110 C L’illustration des fréquences cumulées ................................................................................................................................................................................. 111
5.2 Les trois mesures de tendance centrale : le mode, la médiane et la moyenne ................................................... 112 5.2.1 Le mode : détermination et interprétation statistique ............................................................................................................................ 112 5.2.2 La médiane : détermination et interprétation statistique ................................................................................................................... 113 5.2.3 La moyenne : détermination et interprétation statistique ................................................................................................................. 115 A La détermination de la moyenne .............................................................................................................................................................................................. 115 Données non groupées : formules de base ................................................................................................................................................................... 115 Données groupées : formules pratiques ......................................................................................................................................................................... 117
VIII
© 2016, Les Éditions CEC inc. • Reproduction interdite
Étape 3
L’analyse des données (suite)
B L’interprétation statistique de la moyenne .......................................................................................................................................................................... 119 Considérations de base .......................................................................................................................................................................................................... 119 Réserves dans le cas d’une variable quantitative de niveau ordinal ................................................................................................................ 120 5.2.4 La pertinence des différentes mesures de tendance centrale ....................................................................................................... 120 A La pertinence du mode ................................................................................................................................................................................................................. 121 B La pertinence de la médiane ...................................................................................................................................................................................................... 121 C La pertinence de la moyenne .................................................................................................................................................................................................... 122
En bref ..................................................................................................................................................................................................................................................................... 123 On met en pratique ................................................................................................................................................................................................................................ 125
Chapitre 6 Décrire une variable quantitative continue ou quasi continue :
distribution et mesures de tendance centrale ................................................................. 130
6.1 La distribution d’une variable continue ou quasi continue .................................................................................................... 132 6.1.1 La construction des classes et le dénombrement ....................................................................................................................................... 132 A Les classes fermées d’égale amplitude ................................................................................................................................................................................ 132 Détermination initiale du nombre de classes .............................................................................................................................................................. 132 Détermination initiale de l’amplitude des classes .................................................................................................................................................... 133 Détermination initiale de la borne inférieure de la première classe ................................................................................................................. 134 Détermination des bornes de l’ensemble des classes ............................................................................................................................................ 134 Dénombrement et calcul des fréquences de base .................................................................................................................................................... 135 B Les classes fermées d’amplitudes inégales et les classes ouvertes ....................................................................................................................... 136 Classes d’amplitudes inégales ........................................................................................................................................................................................... 136 Classes ouvertes ...................................................................................................................................................................................................................... 137 6.1.2 Le tableau à simple entrée avec données groupées par classes ................................................................................................... 138 6.1.3 La représentation graphique de données groupées par classes ................................................................................................... 139 A Les classes fermées d’égale amplitude ................................................................................................................................................................................ 139 Illustration de fréquences non cumulées ...................................................................................................................................................................... 139 Illustration de fréquences cumulées ................................................................................................................................................................................ 141 B Les classes fermées d’amplitudes inégales et les classes ouvertes ....................................................................................................................... 143 Classes d’amplitudes inégales ........................................................................................................................................................................................... 143 Classes ouvertes ...................................................................................................................................................................................................................... 146
6.2 Les trois mesures de tendance centrale : le mode, la médiane et la moyenne .................................................. 146 6.2.1 Le mode : détermination et interprétation statistique .......................................................................................................................... 146 A La détermination du mode ......................................................................................................................................................................................................... 147 Interpolation graphique ........................................................................................................................................................................................................ 147 Méthode numérique ................................................................................................................................................................................................................ 148 B L’interprétation statistique du mode ..................................................................................................................................................................................... 148 6.2.2 La médiane : détermination et interprétation statistique .................................................................................................................. 149 A La détermination de la médiane .............................................................................................................................................................................................. 149 Interpolation graphique ou méthode graphique ........................................................................................................................................................ 149 Méthode numérique ................................................................................................................................................................................................................ 150 B L’interprétation statistique de la médiane ........................................................................................................................................................................... 151 6.2.3 La moyenne : détermination et interprétation statistique ................................................................................................................ 152 A La détermination de la moyenne ............................................................................................................................................................................................. 152 B L’interprétation statistique de la moyenne ......................................................................................................................................................................... 153 6.2.4 La pertinence des mesures de tendance centrale ..................................................................................................................................... 154 A Une considération sur la forme de la distribution ........................................................................................................................................................... 154 B Une application à l’exemple type ............................................................................................................................................................................................ 155
En bref ..................................................................................................................................................................................................................................................................... 156 On met en pratique ................................................................................................................................................................................................................................ 158
© 2016, Les Éditions CEC inc. • Reproduction interdite
IX
Étape 3
L’analyse des données (suite)
Chapitre 7 Décrire une variable quantitative discrète ou continue :
mesures de dispersion et de position ............................................................................................... 162
7.1 Les mesures de dispersion courantes ..................................................................................................................................................................... 164 7.1.1 L’étendue ............................................................................................................................................................................................................................................ 164 7.1.2 L’écart moyen ................................................................................................................................................................................................................................ 164 7.1.3 L’écart type ...................................................................................................................................................................................................................................... 165 A La détermination de l’écart type ............................................................................................................................................................................................. 165 Données non groupées : formules de base .................................................................................................................................................................. 165 Données groupées : formules pratiques ........................................................................................................................................................................ 167 B L’interprétation statistique de l’écart type .......................................................................................................................................................................... 171 7.1.4 Le coefficient de variation ................................................................................................................................................................................................ 172 A La détermination du coefficient de variation ..................................................................................................................................................................... 172 B L’interprétation statistique du coefficient de variation ................................................................................................................................................. 173
7.2 Les mesures de position courantes ........................................................................................................................................................................... 174 7.2.1 La cote z ............................................................................................................................................................................................................................................. 174 A La détermination de la cote z ................................................................................................................................................................................................... 174 B L’interprétation statistique de la cote z ............................................................................................................................................................................... 174 7.2.2 Les quantiles .................................................................................................................................................................................................................................. 177 A La détermination des quantiles ............................................................................................................................................................................................... 178 B L’interprétation statistique des quantiles ........................................................................................................................................................................... 180 7.2.3 Les rangs ............................................................................................................................................................................................................................................ 181 A Le rang brut ....................................................................................................................................................................................................................................... 181 Interprétation statistique du rang brut .......................................................................................................................................................................... 182 B Le rang cinquième .......................................................................................................................................................................................................................... 183 Détermination du rang cinquième .................................................................................................................................................................................... 183 Interprétation statistique du rang cinquième ............................................................................................................................................................. 184 C Le rang centile ................................................................................................................................................................................................................................. 184 Détermination du rang centile ........................................................................................................................................................................................... 185 Interprétation statistique du rang centile .................................................................................................................................................................... 186
En bref ..................................................................................................................................................................................................................................................................... 187 On met en pratique ................................................................................................................................................................................................................................ 189
Chapitre 8 Décrire le lien entre variables ...................................................................................................................... 194 8.1 Le lien entre deux variables qualitatives ......................................................................................................................................................... 195 8.1.1 La distribution de deux variables qualitatives .............................................................................................................................................. 196 A Le calcul des fréquences ............................................................................................................................................................................................................. 196 B Le tableau à double entrée avec données groupées par modalités ........................................................................................................................ 197 Cas d’une hypothèse relationnelle ................................................................................................................................................................................... 197 Cas d’une hypothèse causale ............................................................................................................................................................................................ 200 C La représentation graphique ..................................................................................................................................................................................................... 201 Comparaison d’une partie avec l’ensemble ................................................................................................................................................................. 201 Comparaison des parties entre elles .............................................................................................................................................................................. 202 Choix du graphique approprié .......................................................................................................................................................................................... 202 8.1.2 La mesure du lien entre deux variables qualitatives ............................................................................................................................ 203 A Le calcul des fréquences théoriques .................................................................................................................................................................................... 203 B Le calcul du khi carré ................................................................................................................................................................................................................... 206 C Le calcul du coefficient de contingence et du coefficient de Cramer ..................................................................................................................... 208 D L’interprétation statistique d’une mesure d’association .............................................................................................................................................. 209
8.2 Le lien entre deux variables quantitatives .................................................................................................................................................... 210 8.2.1 Aucune valeur n’a été prédéterminée .................................................................................................................................................................. 210 A La représentation graphique des données .......................................................................................................................................................................... 211
X
© 2016, Les Éditions CEC inc. • Reproduction interdite
Étape 3
L’analyse des données (suite)
B L’évaluation du lien à partir du diagramme de dispersion ........................................................................................................................................... 212 Sens de la corrélation linéaire observée ....................................................................................................................................................................... 212 Force de la corrélation linéaire observée ...................................................................................................................................................................... 213 C La mesure du lien entre deux variables quantitatives .................................................................................................................................................. 214 Détermination du coefficient de corrélation linéaire de Pearson ....................................................................................................................... 215 Interprétation statistique du coefficient de corrélation linéaire de Pearson ................................................................................................ 215 D La détermination de la droite de régression ...................................................................................................................................................................... 216 8.2.2 Les valeurs de la variable indépendante sont prédéterminées ................................................................................................... 219 A Un cas type d’hypothèse relationnelle : la série chronologique ................................................................................................................................ 219 B Le cas d’une hypothèse causale ............................................................................................................................................................................................. 220
8.3 Le lien entre une variable qualitative et une variable quantitative .......................................................................... 223 8.3.1 La variable qualitative comme variable dépendante ............................................................................................................................ 223 A Le cas d’une hypothèse relationnelle ................................................................................................................................................................................... 223 B Le cas d’une hypothèse causale ............................................................................................................................................................................................. 224 8.3.2 La variable quantitative comme variable dépendante ....................................................................................................................... 225 A Les mesures appartenant à des séries chronologiques ............................................................................................................................................... 225 B Les mesures quantitatives provenant de différentes conditions ou de différents groupes ......................................................................... 228
8.4 Le lien entre plus de deux variables ..................................................................................................................................................................... 230 8.4.1 La distribution de fréquences comportant trois variables ou plus ......................................................................................... 230 8.4.2 Une variable quantitative fonction de deux autres variables ...................................................................................................... 231
En bref .................................................................................................................................................................................................................................................................... 233 On met en pratique ............................................................................................................................................................................................................................... 235
Chapitre 9 Inférer à partir des données : la distribution normale et
l’estimation de paramètres ................................................................................................................................ 240
9.1 La distribution normale ........................................................................................................................................................................................................ 242 9.1.1 Quelques jalons historiques ........................................................................................................................................................................................... 242 9.1.2 Les caractéristiques de base de la distribution normale .................................................................................................................... 243 9.1.3 La table de distribution normale ............................................................................................................................................................................... 245 A L’aire sous la courbe entre deux cotes z données .......................................................................................................................................................... 247 B Les cotes z délimitant une aire donnée sous la courbe ............................................................................................................................................... 249 C L’application de la table à une variable distribuée normalement ............................................................................................................................ 250
9.2 L’estimation de paramètres : deux cas types .................................................................................................................................................
253
9.2.1 L’estimation d’une moyenne ......................................................................................................................................................................................... 254 A La détermination de la marge d’erreur ................................................................................................................................................................................ 255 Théorème central limite et distribution normale ...................................................................................................................................................... 255 Écart type de la distribution d’échantillonnage comme base de la marge d’erreur ................................................................................. 256 B La détermination de l’intervalle de confiance d’une moyenne .................................................................................................................................. 257 C L’interprétation de l’intervalle de confiance d’une moyenne ..................................................................................................................................... 260 D La taille d’échantillon requise ................................................................................................................................................................................................... 261 9.2.2 L’estimation d’une proportion ...................................................................................................................................................................................... 261 A La détermination de la marge d’erreur ................................................................................................................................................................................ 262 Théorème central limite et distribution normale ...................................................................................................................................................... 263 Écart type de la distribution d’échantillonnage comme base de la marge d’erreur ................................................................................. 264 B La détermination de l’intervalle de confiance d’une proportion .............................................................................................................................. 264 C L’interprétation de l’intervalle de confiance d’une proportion ................................................................................................................................... 267 D La taille d’échantillon requise .................................................................................................................................................................................................. 268
En bref .................................................................................................................................................................................................................................................................... 270 On met en pratique ................................................................................................................................................................................................................................ 272
© 2016, Les Éditions CEC inc. • Reproduction interdite
XI
Étape 3
L’analyse des données (suite)
Chapitre 10 Inférer à partir des données : les tests d’hypothèses ...................................... 276 10.1 Les tests impliquant des données de nature qualitative ........................................................................................................... 278 10.1.1 Le test d’hypothèse sur une proportion ........................................................................................................................................................ 278 10.1.2 Le test d’hypothèse sur le lien entre deux variables qualitatives ....................................................................................... 286
10.2 Les tests impliquant des données de nature quantitative ..................................................................................................... 294 10.2.1 Le test d’hypothèse sur une moyenne .......................................................................................................................................................... 294 10.2.2 Le test d’hypothèse sur la différence entre deux moyennes .................................................................................................. 299 10.2.3 Le test d’hypothèse sur le lien entre deux variables quantitatives .................................................................................. 308
10.3 Quelques considérations relatives au choix d’un test d’hypothèse ............................................................................ 312 10.3.1 Entre la théorie et la pratique ................................................................................................................................................................................ 312 10.3.2 Le choix d’autres tests .................................................................................................................................................................................................... 313
En bref ..................................................................................................................................................................................................................................................................... 315 On met en pratique ................................................................................................................................................................................................................................ 317
Étape 4
L’interprétation des résultats
Chapitre 11 Interpréter des résultats : but et facteurs à prendre
en considération ............................................................................................................................................................. 322
11.1 La différence entre interprétation statistique et interprétation théorique ................................................... 324 11.2 Les points à prendre en considération dans la démarche d’interprétation théorique ..................... 324 11.2.1 La confirmation d’une hypothèse ...................................................................................................................................................................... 324 A L’hypothèse n’a pas été confirmée statistiquement ...................................................................................................................................................... 325 Réexamen de la méthodologie utilisée ......................................................................................................................................................................... 326 Retour sur le raisonnement à la base de l’hypothèse ............................................................................................................................................. 327 B L’hypothèse a été confirmée statistiquement ................................................................................................................................................................... 327 11.2.2 L’atteinte d’un objectif ...................................................................................................................................................................................................... 328
En bref .................................................................................................................................................................................................................................................................... 330 On met en pratique ................................................................................................................................................................................................................................ 331
Annexe – Utilisation des fonctions statistiques d’une calculatrice ........................................................................................
335
Corrigé • Pauses-exercices .............................................................................................................................................................................................................. 337 Corrigé • On met en pratique ................................................................................................................................................................................................... 356 Glossaire ................................................................................................................................................................................................................................................................ 376 Bibliographie .................................................................................................................................................................................................................................................. 382 Index ......................................................................................................................................................................................................................................................................... 384
XII
© 2016, Les Éditions CEC inc. • Reproduction interdite
Liste des symboles mathématiques et leur signification, selon le chapitre et la section Chapitre Section Page 2 4
Abréviation / Symbole
35 90 93
n Mo Md
5.2.3.A
115
µ
5.2.3.A
115
x
5.2.3.A
115
xi
5.2.3.A
115
x1, x2, …, xN (ou n)
5.2.3.A
115
∑
5.2.3.A
115
∑xi
5.2.3.A
115
N
5.2.3.A
117
fi vi
2.1.2 4.2.1 4.2.2
5
5.2.3.A
6
7
8
117
f1 v1, f2 v2, …, fN vN (ou n)
5.2.3.A
117
∑ fi vi
6.1.1
133
A
6.2.3.A
153
fi mi
6.2.3.A
153 f1 m1, f2 m2, …, fN mN (ou n)
6.2.3.A
153
∑ fi mi
7.1.3.A
165
σ
7.1.3.A 7.1.4
165 172
s C.V.
7.2.1
174
z(x)
7.2.2
177
Q1, Q2 et Q3
7.2.2 7.2.2 7.2.2 7.2.3.A 7.2.3.B 7.2.3.C 8.1.2.A 8.1.2.A
177 177 177 181 183 184 203 203
V1, V2 etc. D1, D2 etc. C1, C2 etc. Rb R5 R100 fo ft
8.1.2.B
206
c2
8.1.2.C
208
C
8.1.2.C
208
V
Appellation du concept (prononciation)
Taille d’un échantillon Mode Médiane Moyenne d’une population (se prononce « mu ») Moyenne d’un échantillon (pour la variable X) (se prononce « x barre ») L’une quelconque des valeurs x d’une série (se prononce « x i ») Ensemble des N (ou n) valeurs x d’une série (se prononce « série des x ») Symbole indiquant d’effectuer la sommation d’une série (se prononce « somme de ») Somme des différentes valeurs x d’une série (se prononce « somme des x i ») Taille d’une population L’un quelconque des produits fv d’une série (se prononce « produit f i par v i ») Ensemble des N (ou n) produits fv d’une série (se prononce « série des f v ») Somme des différents produits fv d’une série (se prononce « somme des produits f i par v i ») Amplitude de classe L’un quelconque des produits fm d’une série (se prononce « produit f i par m i ») Ensemble des N (ou n) produits fm d’une série (se prononce « série des f m ») Somme des différents produits fm d’une série (se prononce « somme des produits f i par m i ») Écart type d’une population (se prononce « sigma ») Écart type d’un échantillon Coefficient de variation Cote z (ou cote standard) d’une valeur x Premier, deuxième et troisième quartile Premier quintile, deuxième, etc. Premier décile, deuxième, etc. Premier centile, deuxième, etc. Rang brut Rang cinquième Rang centile Fréquence observée Fréquence théorique Variable d’écart entre fréquences observées et fréquences théoriques (se prononce « chi deux » ou « chi carré » ou « khi deux » ou « khi carré ») Coefficient de contingence Coefficient de Cramer (à ne pas confondre avec le symbole V pour les quintiles)
© 2016, Les Éditions CEC inc. • Reproduction interdite
Chapitre Section Page
Abréviation / Symbole
8.2.1.C
215
r
8 8.2.1.C (suite)
215
y
8.2.1.D
216
y’
9.2.1.A 9.2.1.A
255 255
ME IC
9.2.1.A
255
μx
9.2.1.A
255
σx
9.2.1.B
257
NC
9.2.2
262
π
9.2.2
262
p
9.2.2.A
263
μp
9.2.2.A
263
σp
10.1.1
278
H0
10.1.1
279
π0
10.1.1
279
H1
10.1.1
280
a
10.1.1
283
zcrit–
10.1.1
283
zcrit+
10.1.2
290
2 c calc
10.1.2 10.1.2
290 291
2 c crit
10.2.1
294
µ0
10.2.2
301
t
10.2.2
303
tcalc
10.2.2
304
tcrit–
10.2.2
304
tcrit+
10.2.3
308
r
9
10
d.l.
Appellation du concept (prononciation)
Coefficient de corrélation linéaire de Pearson pour un échantillon Moyenne d’un échantillon (pour la variable Y) (se prononce « y barre ») Valeur y prédite pour une valeur x quelconque (se prononce « y prime ») Marge d’erreur Intervalle de confiance Moyenne des moyennes d’échantillons (se prononce « mu de x barre ») Écart type des moyennes d’échantillons (se prononce « sigma de x barre ») Niveau de confiance souhaité Dans l’estimation de paramètre, proportion des unités d’une population partageant un trait donné (se prononce « pi ») Dans l’estimation de paramètre, proportion des unités d’un échantillon partageant un trait donné Moyenne des proportions échantillonnales (se prononce « mu de p ») Écart type des proportions échantillonnales (se prononce « sigma de p ») Hypothèse nulle (se prononce « H zéro ») Proportion de référence sous l’hypothèse nulle (se prononce « pi zéro ») Hypothèse alternative (se prononce « H un ») Seuil de signification choisi dans un test d’hypothèse (se prononce « alpha ») Valeur critique de z située du côté gauche de la courbe Valeur critique de z située du côté droit de la courbe Valeur de khi deux calculée à partir des données recueillies Valeur de khi deux critique Nombre de degrés de liberté Moyenne de référence sous l’hypothèse nulle (se prononce « mu zéro ») Variable d’écart caractérisant le test t de Student Valeur de t calculée à partir des données recueillies Valeur critique de t située du côté gauche de la courbe Valeur critique de t située du côté droit de la courbe Coefficient de corrélation linéaire d’une population (se prononce « rho »)
1
Étape 3
L’analyse des données
DÉMARCHE SCIENTIFIQUE : Les 4 étapes de base de la recherche proprement dite
Étape 1
Étape 2
Étape 3
Étape 4
La construction de la problématique
La collecte des données
L’analyse des données
L’interprétation des résultats
Chapitre 1
Chapitre 2
Chapitres 3 à 10
Chapitre 11
Prise en considération des facteurs déterminant l’analyse
Application de procédures d’inférence statistique
Description statistique des données
Chapitre 3
L’hypothèse ou l’objectif met en jeu deux variables ou plus
L’hypothèse ou l’objectif met en jeu une seule variable
La variable est qualitative
La variable est quantitative avec peu de valeurs possibles
Chapitre 4
Chapitre 5
La variable est quantitative avec un grand nombre de valeurs possibles Chapitres 6 et 7
Le lien entre deux variables ou plus
La distribution normale et l’estimation de paramètres
Les tests d’hypothèses
Chapitre 8
Chapitre 9
Chapitre 10
Chapitre 8 Décrire le lien entre variables OBJECTIFS
À la fin de ce chapitre, vous devriez pouvoir décrire statistiquement des données concernant deux variables ou plus, c’est-à-dire :
• lorsqu’on a deux variables qualitatives : – dresser un tableau et tracer un graphique qui sont appropriés aux données, puis les interpréter, – calculer et interpréter le khi carré ainsi que le coefficient de contingence et le coefficient de Cramer ; • lorsqu’on a une variable qualitative et une variable quantitative, présenter et interpréter un tableau des résultats et un graphique appropriés selon qu’on considère comme variable dépendante : – la variable qualitative, – la variable quantitative ;
194
Étape 3 • L’analyse des données
• lorsqu’on a deux variables quantitatives : – tracer et interpréter un diagramme de dispersion, – calculer et interpréter le coefficient de corrélation linéaire de Pearson, – calculer, tracer et interpréter la droite de régression ; • lorsqu’on a plus de deux variables, pouvoir présenter et interpréter un tableau des résultats et un graphique appropriés dans quelques situations types.
© 2016, Les Éditions CEC inc. • Reproduction interdite
Vu précédemment... au cours du chapitre 7 Pour COMPLÉTER LA DESCRIPTION de données correspondant à une variable quantitative discrète ou continue, on peut calculer :
des mesures de dispersion : expriment jusqu’à quel point les données d’une série sont différentes les unes des autres ; on a : • l’étendue : [plus grande valeur] – [plus petite valeur], • l’écart moyen : basé sur la valeur absolue des écarts à la moyenne, • l’écart type (z) : basé sur la valeur absolue des écarts à la moyenne, • le coefficient de variation (C.V.) : basé sur l’écart type par rapport à la moyenne ;
des mesures de position : situent une donnée par rapport à une distribution : • la cote z (distance de la moyenne en matière d’écart type), • les quantiles (médiane, quartiles, quintiles, déciles et centiles), • les rangs (rang brut, rang cinquième et rang centile).
L
orsqu’on est en présence d’une hypothèse ou d’un objectif portant sur un lien entre variables, que ce lien soit de type causal ou relationnel, les situations pouvant se présenter sont nombreuses et la description statistique des résultats devient rapidement complexe. C’est pourquoi ce chapitre ne propose que les cas de liens entre variables les plus courants : – entre deux variables qualitatives ; – entre deux variables quantitatives ; – entre une variable qualitative et une variable quantitative ; – ainsi que quelques cas mettant en jeu des liens entre plus de deux variables.
8.1 Le lien entre deux variables qualitatives La marche à suivre pour décrire le lien entre deux variables qualitatives sera expliquée à l’aide de l’exemple type ci-dessous et du tableau 8.1.
Voir le chapitre 1, L’hypothèse, Hypothèse causale et Hypothèse relationnelle (p. 14).
Exemple type 1 Le professeur s’intéressant aux stéréotypes sexuels rattachés à certaines activités scolaires (voir l’exemple type 1 du chapitre 4) avait également demandé à ses élèves, outre leur préférence pour un partenaire masculin ou féminin, de choisir un travail de français ou un travail de mathématiques. En recueillant les données, le professeur voulait vérifier l’hypothèse relationnelle suivante : Il existe un lien entre la nature du travail choisi et la préférence concernant le sexe du partenaire d’équipe. Les choix formulés par les étudiants quant à chaque variable qualitative de l’enquête sont compilés dans le tableau de la page suivante. On traite ces données brutes de la même manière, qu’on ait affaire à un objectif, à une hypothèse causale ou à une hypothèse relationnelle, comme dans le cas de l’exemple type 1. Le traitement des données consiste à établir la distribution des variables l’une par rapport à l’autre, puis à calculer certaines mesures de lien entre elles.
© 2016, Les Éditions CEC inc. • Reproduction interdite
Chapitre 8 • Décrire le lien entre variables
195
Tableau 8.1 Réponses fournies par 60 étudiants d’un cégep concernant la nature du travail choisi et leur préférence concernant le sexe du partenaire d’équipe No élève
Travail
Partenaire
No élève
Travail
Partenaire
No élève
Travail
Partenaire
No élève
Travail
Partenaire
1
Fr
F
16
Fr
M
31
Mth
I
46
Fr
M
2
Fr
F
17
Mth
R
32
Mth
M
47
Fr
F
3
Mth
R
18
Fr
F
33
Mth
I
48
Mth
R
4
Fr
M
19
Fr
F
34
Mth
R
49
Mth
F
5
Mth
R
20
Fr
M
35
Mth
F
50
Fr
M
6
Mth
F
21
Fr
I
36
Mth
F
51
Fr
F
7
Fr
M
22
Fr
I
37
Fr
F
52
Fr
F
8
Mth
M
23
Mth
F
38
Fr
F
53
Fr
F
9
Fr
M
24
Mth
M
39
Fr
R
54
Fr
I
10
Fr
F
25
Fr
R
40
Fr
F
55
Fr
F
11
Fr
F
26
Mth
F
41
Fr
M
56
Fr
F
12
Fr
I
27
Fr
M
42
Mth
I
57
Mth
I
13
Mth
I
28
Fr
F
43
Mth
M
58
Mth
M
14
Mth
I
29
Mth
F
44
Fr
I
59
Fr
M
15
Fr
F
30
Mth
I
45
Mth
I
60
Fr
R
Note : Pour le travail, les choix exprimés sont les modalités Français (Fr) ou Mathématiques (Mth), tandis que pour la préférence concernant le partenaire d’équipe, on a les modalités Féminin (F), Masculin (M), Indifférent (I) ou Refus de répondre (R).
8.1.1 La distribution de deux variables qualitatives Établir la distribution des variables l’une par rapport à l’autre requiert que l’on procède d’abord au calcul des fréquences, qu’on en dresse le tableau, puis qu’on en fasse une représentation graphique.
A Le calcul des fréquences Lorsqu’on parle de série statistique sans plus de précision, comme on l’a fait jusqu’ici, on fait habituellement référence à une série statistique univariée, c’est-à-dire à une série ne comportant qu’une variable. Lorsque deux variables sont en cause, comme dans le tableau 8.1, l’expression série statistique bivariée rend explicite le fait qu’on a des paires de données permettant de caractériser chaque unité par rapport aux deux variables. Tel qu’illustré ci-après, la technique du dénombrement manuel utilisée avec une série univariée aux chapitres 4 à 7 peut également l’être avec des séries bivariées : il suffit de prévoir autant de cases qu’il y a de combinaisons de modalités.
UN « FAUX TABLEAU ! » Bien qu’il ressemble à un tableau, le quadrillage ci-contre n’en constitue pas un. Il illustre simplement une façon pratique d’utiliser la technique du dénombrement pour calculer les fréquences à partir desquelles on dressera un tableau en bonne et due forme.
196
Étape 3 • L’analyse des données
Préférence concernant le sexe du partenaire d’équipe Nature du travail choisi
Féminin
Masculin
Mathématiques
= 10
= 17
Français =7
Indifférent
=5
=5
Refus de répondre =3
=8
=5
© 2016, Les Éditions CEC inc. • Reproduction interdite
Pause-exercice
8.1
Trente-deux adultes québécois issus de différents milieux (Ville, Banlieue, Campagne) ont été interrogés pour connaître leur intention de vote dans le cadre d’un référendum sur la souveraineté du Québec (En faveur, Opposé, Indécis). Voici les résultats obtenus. Individu
Milieu
Vote
Milieu
Vote
Individu
Milieu
Vote
Individu
Milieu
Vote
1
V
F
9
Individu
V
O
17
C
I
25
B
O
2
V
O
10
V
I
18
V
F
26
V
O
3
B
F
11
B
I
19
B
F
27
V
I
4
C
O
12
V
O
20
C
F
28
C
F
5
V
I
13
C
O
21
B
O
29
B
O
6
C
F
14
V
I
22
B
O
30
V
O
7
B
O
15
B
F
23
V
F
31
C
F
8
B
F
16
V
F
24
C
F
32
V
O
Légende des modalités : V (Ville), B (Banlieue), C (Campagne), F (En faveur), O (Opposé), I (Indécis).
a) Procédez au dénombrement des données ci-dessus. b) Déterminez la proportion des personnes interrogées qui sont en faveur de la souveraineté.
Voir le chapitre 4, Les normes de présentation d’un tableau (p. 82).
B Le tableau à double entrée avec données groupées par modalités La présentation sous forme de tableau des fréquences établies à partir d’une série bivariée nécessite qu’on applique les mêmes principes que dans le cas d’une série statistique univariée. La présence de deux variables oblige cependant à distinguer différents cas, selon ce qu’on désire mettre en évidence par rapport à l’hypothèse ou à l’objectif, en particulier selon que l’hypothèse est relationnelle ou causale.
Voir le chapitre 1, L’hypothèse (p. 14).
■ Cas d’une hypothèse relationnelle Lorsque l’hypothèse est relationnelle, les totaux indiqués et, surtout, la façon de calculer les fréquences relatives dépendent de l’angle sous lequel on désire examiner le lien entre les variables. Une hypothèse portant sur la simple existence d’un lien Le tableau 8.2 est un tableau de fréquences courant qui a été dressé à partir des données de l’exemple type 1. Comme il s’agit d’un tableau dans lequel les données sont présentées en fonction de deux variables, on l’appelle souvent tableau à double entrée. Cette appellation le différencie d’ailleurs des tableaux à simple entrée qui ont été vus au cours des chapitres précédents. Toutefois, comme un tableau à double entrée peut présenter d’autres données que des fréquences, on utilisera dans ce chapitre l’expression tableau de contingence pour faire référence précisément à un tableau de fréquences où la répartition des unités statistiques est présentée en fonction de deux variables ou plus ; l’appellation tableau croisé est également utilisée dans ce cas.
© 2016, Les Éditions CEC inc. • Reproduction interdite
Chapitre 8 • Décrire le lien entre variables
197
Le tableau 8.2 présente des fréquences absolues et des fréquences relatives, bien que ce ne soit pas toujours nécessaire. On y trouve par ailleurs, outre le total général, le total partiel des fréquences par rangées et par colonnes.
Tableau 8.2 Répartition de 60 étudiants d’un cégep selon la nature du travail choisi et leur préférence concernant le sexe du partenaire d’équipe Préférence concernant le sexe du partenaire d’équipe Nature du travail choisi
Féminin
Masculin
Indifférent
Refus de répondre
Total
Français
17 (28,3 %)
10 (16,7 %)
5 (8,3 %)
3 (5,0 %)
35 (58,3 %)
Mathématiques
7 (11,7 %)
5 (8,3 %)
8 (13,3 %)
5 (8,3 %)
25 (41,7 %)
Total
24 (40,0 %)
15 (25,0 %)
13 (21,7 %)
8 (13,3 %)
60 (100,0 %)
QUELLES FRÉQUENCES PRÉSENTER ? Il arrive souvent qu’un tableau de contingence ne présente que les fréquences relatives, les fréquences absolues pouvant se trouver dans un autre tableau. Un tel tableau est plus simple à consulter, mais il ne donne pas accès rapidement aux deux catégories d’informations. Par contre, lorsqu’on présente les deux types de fréquences dans le même tableau, on doit pouvoir repérer facilement l’un ou l’autre type d’information. Le choix de recourir à des tableaux différents ou à un même tableau dépend à la fois de la clarté de la présentation et de ce sur quoi on compte mettre l’accent dans l’analyse et l’interprétation des données. Même si les fréquences cumulées pouvaient être rapportées dans un tableau de contingence, la représentation de la relation entre variables serait plus complexe. C’est pourquoi on se contente généralement, comme c’est le cas ici, de présenter les fréquences non cumulées.
Les fréquences relatives sont calculées en prenant en considération la façon dont l’hypothèse a été formulée, comme c’est le cas dans l’exemple type ; l’hypothèse suppose l’existence d’un lien entre les variables étudiées, mais sans plus. Le calcul des fréquences relatives a donc été fait en prenant le total général comme dénominateur. Cette façon de procéder vise à évaluer l’importance relative, par rapport à l’ensemble des données, de chaque combinaison de modalités des variables nature du travail choisi et préférence concernant le sexe du partenaire d’équipe. À titre d’exemple, la fréquence 17, qui correspond au nombre de répondants ayant fourni la combinaison de réponses « Français – Féminin », représente environ 28,3 % des 60 répondants. Une hypothèse prenant une variable comme référence Dans la pratique, il est très fréquent qu’on veuille examiner les résultats en prenant une des variables comme référence. Dans l’exemple type 1, le professeur pourrait désirer analyser ses résultats en prenant la variable nature du travail choisi comme variable de référence afin d’étudier l’hypothèse selon laquelle la préférence concernant le sexe du partenaire d’équipe varie selon la nature du travail choisi. La variable prise comme référence est alors traitée comme une variable indépendante au sens large, la variable préférence concernant le sexe du partenaire d’équipe étant ainsi considérée comme une variable dépendante. Le tableau 8.3 illustre la façon dont se présentent les résultats dans un tel cas. Pour chacune des modalités de la variable nature du travail choisi, modalités correspondant aux différentes rangées, la fréquence relative est calculée en utilisant comme dénominateur le total de la rangée où se trouve la fréquence absolue. Ainsi, la fréquence 17 pour Féminin est mise en rapport
198
Étape 3 • L’analyse des données
© 2016, Les Éditions CEC inc. • Reproduction interdite
avec 35 – le total correspondant à la rangée Français –, ce qui donne 48,6 %, indiquant qu’environ 48,6 % des 35 personnes ayant choisi un travail de français préfèrent travailler en équipe avec une fille. Comme on peut le constater, cette façon de procéder fait en sorte que les pourcentages totalisent 100 % dans le sens horizontal.
Tableau 8.3 Préférence exprimée par 60 étudiants d’un cégep concernant le sexe du partenaire d’équipe selon la nature du travail choisi Préférence concernant le sexe du partenaire d’équipe Nature du travail choisi
Féminin
Masculin
Indifférent
Refus de répondre
Total
Français
17 (48,6 %)
10 (28,6 %)
5 (14,3 %)
3 (8,6 %)
35 (100,1 %)
Mathématiques
7 (28,0 %)
5 (20,0 %)
8 (32,0 %)
5 (20,0 %)
25 (100,0 %)
Note : Le pourcentage affiché dans une des rangées n’égale pas 100 % en raison des arrondissements.
Un élément important mérite d’être souligné en ce qui a trait au tableau 8.3 : à la différence du tableau 8.2, le titre ne parle pas simplement de répartition de l’ensemble des répondants par rapport aux deux variables ; il exprime clairement la relation d’une des variables en fonction de l’autre, à savoir la préférence concernant le sexe du partenaire d’équipe « en fonction » de la nature du travail. Or, le professeur pourrait également choisir d’examiner ses données sous un autre angle, à savoir la façon dont les étudiants ayant fait un choix de partenaire sont répartis par rapport au type de travail. Dans ce cas, c’est la variable préférence concernant le sexe du partenaire d’équipe qui deviendrait la variable indépendante – au sens large, ici encore – en fonction de laquelle serait examinée la distribution de la variable dépendante nature du travail choisi. Les différentes modalités de la variable indépendante correspondant cette fois-ci aux différentes colonnes, ce sont alors les totaux des colonnes qu’il aurait été approprié d’utiliser au dénominateur dans le calcul des fréquences relatives.
DES TOTAUX INUTILES À noter que le total des fréquences pour chaque modalité de la variable préférence concernant le sexe du partenaire d’équipe – ici, le total des colonnes – a été omis dans le tableau 8.3, étant donné qu’il n’est pas pertinent au regard de l’hypothèse étudiée. En effet, ce qu’on désire montrer, c’est la façon dont est réparti l’ensemble des individus ayant choisi un travail de français par rapport à ceux ayant fait un travail de mathématiques, et non l’inverse.
C’est ce qui est fait dans le tableau 8.4, où la fréquence 17 (Français – Féminin) représente cette fois environ 70,8 % des 24 personnes ayant choisi de travailler en français avec un partenaire féminin. Comme on peut également le constater, ce sont les colonnes qui, dans ce cas, totalisent 100 %. Là encore, le titre explicite le sens de la relation étudiée entre les variables.
Tableau 8.4 Nature du travail choisi par 60 étudiants d’un cégep selon la préférence concernant le sexe du partenaire d’équipe Préférence concernant le sexe du partenaire d’équipe Nature du travail choisi
Féminin
Masculin
Indifférent
Refus de répondre
Français
17 (70,8 %)
10 (66,7 %)
5 (38,5 %)
3 (37,5 %)
Mathématiques
7 (29,2 %)
5 (33,3 %)
8 (61,5 %)
5 (62,5 %)
Total
24 (100,0 %)
15 (100,0 %)
13 (100,0 %)
8 (100,0 %)
© 2016, Les Éditions CEC inc. • Reproduction interdite
Chapitre 8 • Décrire le lien entre variables
199
Pause-exercice
8.2
a) À partir du dénombrement effectué à la pause-exercice 8.1, construisez un tableau de contingence comprenant les fréquences absolues de même que les fréquences relatives appropriées à l’hypothèse suivante : La position par rapport à la souveraineté varie en fonction du milieu du répondant. b) En quoi le calcul des fréquences relatives fait en a) serait-il différent dans le cas de l’hypothèse suivante ? Le milieu du répondant varie en fonction de la position par rapport à la souveraineté.
■ Cas d’une hypothèse causale Si l’hypothèse étudiée est causale, c’est-à-dire qu’elle met en jeu un lien de cause à effet comportant une variable indépendante au sens strict du terme, les fréquences relatives doivent être calculées en se servant du total correspondant à chaque modalité de la variable indépendante, et seulement de cette façon.
Exemple Lors d’une expérience visant à vérifier si l’apparence influence le comportement d’aide, des étudiants ont fait varier le type d’habillement (Négligé, Normal, Élégant) d’une personne qui demandait à un passant s’il pouvait lui prêter son cellulaire pour un appel local urgent. À chaque demande, ils ont noté le comportement des personnes sollicitées (Accepte d’aider, Refuse d’aider). Leur hypothèse était la suivante : La proportion de personnes acceptant d’aider varie en fonction du type d’habillement du solliciteur. À partir de leurs résultats, les étudiants ont dressé le tableau ci-dessous où, le type d’habillement constituant ici une variable indépendante au sens strict, les fréquences relatives sont calculées par rapport au total des fréquences absolues correspondant à chaque modalité. Comportement d’aide manifesté par 75 participants en fonction du type d’habillement Type d’habillement Comportement d’aide
Négligé
Normal
Élégant
Accepte d’aider
9 (36,0 %)
15 (60,0 %)
17 (68,0 %)
Refuse d’aider
16 (64,0 %)
10 (40,0 %)
8 (32,0 %)
Total
25 (100,0 %)
25 (100,0 %)
25 (100,0 %)
Dans les recherches expérimentales où la nature des unités statistiques n’est pas jugée pertinente pour la question posée, on ne la mentionne pas dans le titre. Elle doit néanmoins toujours l’être dans l’exposé de la méthodologie.
Voir le chapitre 4, La représentation graphique (p. 84).
200
Dans une expérience comme celle que rapporte l’exemple ci-dessus, on fait généralement en sorte que le nombre de personnes soit le même pour chaque modalité de la variable indépendante, ce qui permet une comparaison des données à partir des seules fréquences absolues. Néanmoins, le calcul des fréquences relatives est utile pour évaluer l’ordre de grandeur de chaque fréquence.
Étape 3 • L’analyse des données
© 2016, Les Éditions CEC inc. • Reproduction interdite
C La représentation graphique Les mêmes graphiques qui ont servi à représenter une seule variable peuvent illustrer le lien entre deux variables qualitatives. Là aussi, ils permettront de comparer une partie avec l’ensemble ou les parties entre elles.
■ Comparaison d’une partie avec l’ensemble Il s’agit d’illustrer la façon dont la proportion correspondant aux différentes modalités d’une variable – ici, la préférence pour le sexe du partenaire d’équipe – varie par rapport au sousensemble spécifié par chacune des modalités de l’autre variable – la nature du travail choisi. Lorsque les deux variables sont de niveau nominal, on peut les représenter par des diagrammes circulaires (ou à secteurs), comme dans la figure 8.1. Chaque diagramme correspond alors à une modalité d’une des variables, à savoir celle qu’on a choisie comme variable de référence (variable indépendante). Si les variables sont de niveau nominal ou ordinal, on peut utiliser des diagrammes linéaires horizontaux ou verticaux, comme dans la figure 8.2.
Figure 8.1 Préférence exprimée par 60 étudiants d’un cégep concernant le sexe du partenaire d’équipe selon la nature du travail choisi
Figure 8.2 Préférence exprimée par 60 étudiants d’un cégep concernant le sexe du partenaire d’équipe selon la nature du travail choisi
Préférence concernant le sexe du partenaire
Préférence concernant le sexe du partenaire
Féminin
Indifférent
Féminin
Indifférent
Masculin
Refus de répondre
Masculin
Refus de répondre
20,0 %
14,3 %
28,0 %
48,6 % 32,0 %
28,6 %
Français
20,0 %
Mathématiques Nature du travail
Note : La figure ci-dessus illustre l’utilisation de diagrammes circulaires avec deux variables qualitatives.
Proportion d’étudiants (%)
100
8,6 %
80 60
8,6 % 14,3 %
20,0 %
28,6 %
32,0 %
40 20 0
20,0 % 48,6 % 28,0 % Français
Mathématiques
Nature du travail Note : La figure ci-dessus illustre l’utilisation de diagrammes linéaires avec deux variables qualitatives.
Note : Dans le cas de la modalité Français de chacune des figures ci-dessus, le total des pourcentages n’égale pas 100 % en raison des arrondissements.
© 2016, Les Éditions CEC inc. • Reproduction interdite
Chapitre 8 • Décrire le lien entre variables
201
■ Comparaison des parties entre elles Le diagramme à rectangles chevauchés, illustré sous sa forme verticale dans la figure 8.3 et construit à partir des données du tableau 8.2, permet une comparaison de partie à partie, c’est-àdire tant entre les modalités d’une variable donnée qu’entre les modalités de l’autre variable. À noter qu’on peut également trouver une version horizontale de ce type de diagramme.
Figure 8.3 Répartition de 60 étudiants d’un cégep selon la nature du travail choisi et leur préférence pour le sexe du partenaire d’équipe 18
17
Nombre d’étudiants
16
Français
14
Mathématiques
12
10
10 8
8
7
6
5
5
5
4
3
2 0
Masculin
Féminin
Indifférent
Refus de répondre
Préférence concernant le sexe du partenaire d’équipe
■ Choix du graphique approprié Voir le chapitre 4, La représentation graphique (p. 84).
Le choix d’un graphique dépend en premier lieu de ce qu’on entend mettre en évidence lors de l’interprétation théorique des résultats et, en second lieu, des traditions en vigueur dans le domaine de recherche, la norme générale étant cependant d’utiliser les graphiques de type vertical, comme cela se fait habituellement en mathématiques.
Exemple La figure suivante illustre la façon courante de porter en graphique des résultats tels que ceux issus de la recherche sur le comportement d’aide en fonction du type d’habillement. Comportement d’aide manifesté par 75 sujets en fonction du type d’habillement 80 Proportion de sujets (%)
70
64 %
60
60 %
Accepte d’aider Refuse d’aider
50 40
68 %
36 %
40 % 32 %
30 20 10 0
202
Étape 3 • L’analyse des données
Négligé
Normal Type d’habillement
Élégant
© 2016, Les Éditions CEC inc. • Reproduction interdite
Pause-exercice
8.3
Tracez un graphique illustrant les résultats présentés dans le tableau de contingence suivant. Note obtenue en mathématiques par 120 universitaires en fonction de leur appartenance ou non à une équipe sportive Appartenance à une équipe sportive Note en mathématiques
Oui
Non
A-B
13 (21,7 %)
24 (40,0 %)
C-D
32 (53,3 %)
19 (31,7 %)
E ou autres
15 (25,0 %)
17 (28,3 %)
Total
60 (100,0 %)
60 (100,0 %)
8.1.2 La mesure du lien entre deux variables qualitatives La figure 8.3 permet de constater que la distribution de la préférence pour le choix d’un partenaire d’équipe n’est pas la même selon qu’il s’agit d’un travail de français ou de mathéma tiques, et réciproquement. Quand la distribution d’une variable change ainsi en fonction d’une autre, c’est-à-dire quand les fréquences correspondant aux différentes modalités d’une variable dépendent de la modalité observée sur l’autre variable, on dit que les variables sont liées. Pour obtenir une mesure portant sur la force du lien qui peut exister entre deux variables qualitatives ou plus, on utilise des mesures d’association. Généralement, le calcul de ces mesures requiert au préalable de calculer les fréquences théoriques et le khi carré. Parmi les mesures qu’il est ensuite possible de déterminer, deux seront décrites ici : le coefficient de contingence et le coefficient de Cramer.
A Le calcul des fréquences théoriques Dans le cas d’un tableau de contingence, on appelle fréquence théorique (ft) – ou fréquence attendue, ou encore fréquence espérée – la fréquence à laquelle on devrait théoriquement s’attendre s’il n’y avait pas de lien entre les variables considérées. Le calcul des fréquences théoriques constitue donc le premier pas dans la mesure du lien entre deux variables qualita tives, puisqu’il permet de définir mathématiquement les fréquences reflétant une situation où il n’y aurait pas de lien entre les variables : en évaluant ensuite jusqu’à quel point les fréquences observées diffèrent des fréquences théoriques indiquant une absence de lien, on peut alors évaluer jusqu’à quel point les variables sont liées. Le calcul des fréquences théoriques s’effectue à partir des fréquences observées (fo), c’est-àdire des fréquences absolues effectivement obtenues lors d’une recherche. Pour faciliter l’illustration de ce calcul dans le cas de l’exemple type 1, le tableau 8.2 a été reproduit ci-après.
© 2016, Les Éditions CEC inc. • Reproduction interdite
Chapitre 8 • Décrire le lien entre variables
203
Tableau 8.2 Répartition de 60 étudiants d’un cégep selon la nature du travail (bis) choisi et leur préférence concernant le sexe du partenaire d’équipe Préférence concernant le sexe du partenaire d’équipe Nature du travail choisi
Féminin
Masculin
Indifférent
Refus de répondre
Total
Français
17 (28,3 %)
10 (16,7 %)
5 (8,3 %)
3 (5,0 %)
35 (58,3 %)
Mathématiques
7 (11,7 %)
5 (8,3 %)
8 (13,3 %)
5 (8,3 %)
25 (41,7 %)
Total
24 (40,0 %)
15 (25,0 %)
13 (21,7 %)
8 (13,3 %)
60 (100,0 %)
Si le choix du sexe d’un partenaire d’équipe n’avait eu aucun rapport avec la nature du travail, on aurait dû s’attendre, théoriquement, à ce que la proportion de sujets ayant choisi un partenaire féminin soit la même quelle que soit la nature du travail choisi, c’est-à-dire qu’elle corresponde à la proportion dans laquelle ce choix a été fait dans l’ensemble. Donc, puisque 24 étudiants sur 60 ont choisi un partenaire féminin, ce qui représente 40 % des répondants, on aurait dû s’attendre à ce que le choix Féminin ait été fait par 24
24 (c’est-à-dire 40 %) des 60
35 personnes ayant opté pour un travail de français et (c’est-à-dire 40 %) des 25 personnes 60 ayant opté pour un travail de mathématiques. On aurait ainsi obtenu, pour la fréquence théorique associée à la cellule située à l’intersection des modalités Féminin et Français : ft(Féminin ; Français) =
24 ×35 = 14 60
et, pour la cellule associée à Féminin et Mathématiques : ft(Féminin ; Mathématiques) =
24 ×25 = 10. 60
En appliquant le même raisonnement aux autres combinaisons de modalités, on obtient les autres fréquences théoriques, lesquelles figurent dans le tableau 8.5.
Tableau 8.5 Calcul des fréquences théoriques (ft) à partir des totaux des fréquences observées (fo) du tableau 8.2 Préférence concernant le sexe du partenaire d’équipe Nature du travail choisi Français
Mathématiques Total
204
fo
Féminin
17 7 24
Masculin
ft
fo
24 × 35 60 = 14
10
24 × 25 60 = 10
5
24,0
Étape 3 • L’analyse des données
15
Indifférent
ft
fo
15 × 35 60 = 8,75
5
15 × 25 60 = 6,25
8
15,0
13
ft
Refus de répondre fo ft
13 × 35 60 ≈ 7,583
3
13 × 25 60 ≈ 5,417
5
13,0
8
fo
8 × 35 60 ≈ 4,667
35
8 × 25 60 ≈ 3,333
25
8,0
Total
ft 35,0
25,0
60
60,0
© 2016, Les Éditions CEC inc. • Reproduction interdite
UNE VÉRIFICATION SIMPLE MAIS UTILE Comme les fréquences théoriques constituent la base des calculs permettant de mesurer la force du lien entre deux variables qualitatives, il est important de s’assurer que cette première opération a été correctement effectuée, ce qui est simple à vérifier : le total des fréquences théoriques doit être égal à celui des fréquences observées dans chacune des rangées et chacune des colonnes.
Le raisonnement suivi pour calculer la fréquence théorique de la combinaison des modalités Français et Féminin aurait pu prendre pour point de départ du calcul la proportion des choix correspondant à un travail de français. Le raisonnement aurait alors consisté à dire que, puisque ce choix a été fait par 35 personnes sur 60, on aurait théoriquement dû s’attendre qu’il ait été fait par
35 des 24 personnes ayant opté pour un partenaire d’équipe féminin, d’où : 60 35 ft(Féminin ; Français) = ×24 = 14. 60
On constate ainsi que : ft(Féminin ; Français) =
24 35 24×35 ×35 = ×24 = = 14. 60 60 60
La fréquence théorique pour la cellule correspondant à une combinaison donnée de modalités peut donc être obtenue à l’aide de la formule suivante : ft(cellule) = =
Total de la colonne ×Total de la rangée Grand total
Total de la rangée ×Total de la colonne , Grand total
d’où la formule habituellement présentée : ft(cellule) =
Pause-exercice
Total de la colonne×Total de la rangée . Grand total
8.4
a) À partir du tableau de contingence dressé à la pause-exercice 8.2, construisez un nouveau tableau comprenant les fréquences observées, dans lequel vous présenterez les fréquences théoriques dont vous préciserez le mode de calcul. b) En se basant sur ces fréquences théoriques, peut-on affirmer que le lien entre les variables est élevé ? Justifiez votre réponse.
La plupart des fréquences théoriques qui figurent dans le tableau 8.5 comportent des décimales, ce qui est la situation la plus fréquente. La présence de décimales peut paraître surprenante à première vue : il serait impossible, par exemple, que le nombre d’étudiants ayant choisi de faire un travail de français avec un partenaire masculin soit de 8,75. Une telle observation illustre bien le caractère théorique de ce type de fréquences, leur utilité fondamentale étant de servir de base de comparaison. Par ailleurs, comme ces valeurs serviront à d’autres calculs, il faut se garder de les arrondir trop hâtivement.
© 2016, Les Éditions CEC inc. • Reproduction interdite
Chapitre 8 • Décrire le lien entre variables
205
N’ARRONDISSEZ PAS TROP ! Une erreur fréquente dans le calcul des fréquences théoriques consiste à trop arrondir les valeurs trouvées. Bien que l’effet d’un arrondissement de ces valeurs ne semble pas crucial à ce stade-ci de la démarche, les fréquences théoriques sont généralement employées dans des calculs comportant des mises au carré et des extractions de racine carrée, ce qui multiplie rapidement l’imprécision consécutive à un arrondissement. Il n’y a pas de règle universellement admise, l’usage variant selon le degré de précision que l’on désire conserver. Une règle que l’on observe souvent, cependant, consiste à retenir au moins trois chiffres significatifs, tel qu’illustré par les quelques exemples ci-dessous. 46,7 4,67 0,467 0,0467 À noter qu’un chiffre significatif de plus n’est pas interdit : il sera toujours temps d’arrondir à la fin du calcul de la mesure désirée.
Puisque la distribution des fréquences théoriques décrit une situation où il n’y aurait aucun lien entre les variables, il s’ensuit que plus les fréquences observées diffèrent des fréquences théoriques – ce qui est le cas dans le tableau 8.5 –, plus le lien entre les variables est élevé. Comment s’y prendre alors pour mesurer l’ampleur de cette différence, donc la force du lien ? C’est ici qu’intervient une mesure qui joue un rôle central en statistiques, le khi carré.
B Le calcul du khi carré Pour évaluer jusqu’à quel point les fréquences observées diffèrent des fréquences théoriques, on calcule d’abord le khi carré, qu’on note par le symbole c2, d’après la lettre grecque c.
LE KHI CARRÉ, UNE MESURE AUX GRAPHIES ET AUX APPELLATIONS NOMBREUSES Outre « khi carré », il existe différentes façons d’écrire et de désigner cette quantité : khi 2, khi deux, chi carré, chi deux, chi 2. Qu’on écrive chi ou khi, on prononce « ki ».
La formule à utiliser est la suivante : c2 = ∑
(fo – ft)2 ft
La procédure à suivre pour appliquer la formule du khi carré peut se ramener à deux étapes de base, illustrées dans le tableau 8.6. 1° On calcule, pour chaque cellule correspondant à une combinaison donnée de modalités, l’écart relatif entre la fréquence observée (fo) et la fréquence théorique (ft) de la façon suivante : • on prend la différence, exprimée par (fo – ft), entre la fréquence observée et la fréquence théorique ; Voir le chapitre 7, L’écart type (p. 165).
206
• on met au carré cette différence, exprimée alors par (fo – ft)2, de façon à éviter – comme pour le calcul de l’écart type – que les différences positives et négatives s’annulent par la suite ;
Étape 3 • L’analyse des données
© 2016, Les Éditions CEC inc. • Reproduction interdite
• on relativise cette différence mise au carré en la divisant par la fréquence théorique (ft), (f – f )2 ce qui correspond à o t et fait en sorte qu’une différence au carré, qui serait de 4, par ft exemple, ait moins de poids par rapport à une fréquence théorique de 80 que par rapport à une fréquence théorique de 20. 2° On calcule, pour l’ensemble des cellules correspondant aux différentes combinaisons de modalités, l’écart relatif global en additionnant les écarts relatifs calculés pour chaque (f – f )2 cellule, d’où l’expression ∑ o t présentée plus haut : c’est à la valeur ainsi obtenue ft qu’on fait référence quand on parle de khi carré.
Tableau 8.6 Calcul détaillé du khi carré (χ 2) à partir des fréquences du tableau 8.5 Préférence concernant le sexe du partenaire d’équipe Nature du travail choisi
fo
Féminin (écart relatif)
17 Français
(17 – 14) ≈ 14 2
0,643
7 Mathématiques
Total
fo
14
10
10
(7 – 10) = 10 2
0,900
24
Masculin
ft
24,0
8,75
5
(10 – 8,75) ≈ 8,75 2
0,179
6,25
(5 – 6,25) = 6,25 2
0,250
15
(1,543)
fo
(écart relatif)
5
(écart relatif)
ft
7,583
(5 – 7,583) ≈ 7,583 2
0,880
8
15,0 (0,429)
Indifférent
ft
(8 – 5,417) ≈ 5,417 1,232
13
4,667
(3 – 4,667) ≈ 4,667 2
0,595
5
13,0 (2,112)
3
5,417 2
Refus de répondre fo ft (écart relatif)
(5 – 3,333) ≈ 3,333 0,833
8
35,0
(2,297) 25
8,0 (1,428)
35
3,333 2
Total fo ft (écart relatif)
25,0
(3,215) 60
60,0 (5,512)
UNE VÉRIFICATION SUPPLÉMENTAIRE Pour s’assurer que le calcul du khi carré est juste, il faut vérifier que la somme des écarts relatifs des différentes rangées a la même valeur que la somme des écarts relatifs des différentes colonnes, cette valeur étant celle du khi carré (à savoir 5,512 dans le tableau 8.6).
Une fois trouvée la valeur du khi carré, comment en évaluer l’ordre de grandeur ? La valeur 5,512 obtenue dans le tableau 8.6 est supérieure à 0, ce qui traduit l’existence d’un lien entre les variables, mais une telle valeur indique-t-elle un lien peu élevé ou très élevé ? Et de combien ? Il est difficile de le dire en l’absence de point de repère indiquant un maximum possible. En outre, un retour attentif sur le mode de calcul du khi carré permet de constater que le nombre de cellules correspondant aux différentes combinaisons de modalités a un effet sur le nombre d’écarts relatifs à additionner, donc sur la valeur du khi carré. C’est pour combler ces lacunes que différentes mesures d’association ont été proposées, tels le coefficient de contingence et le coefficient de Cramer.
© 2016, Les Éditions CEC inc. • Reproduction interdite
Chapitre 8 • Décrire le lien entre variables
207
LE NOMBRE D’ÉCARTS RELATIFS ET LE KHI CARRÉ Supposons que l’écart relatif entre fréquence observée et fréquence théorique soit le même dans toutes les cellules et soit égal, par exemple, à 5,1 comme ci-dessous. Variable B
Variable B
b1 b2 b3 Variable A
a1
5,1
5,1
5,1
5,1
5,1
5,1
a2
b1 b2 Variable A
a1
5,1
5,1
a2
5,1
5,1
Dans une telle situation, le khi carré, c’est-à-dire la somme des écarts relatifs dans le tableau présentant six cellules, serait forcément plus grand que le khi carré calculé dans le cas du tableau à quatre cellules. Cela voudrait-il dire que le lien entre les variables est plus grand dans le premier cas ? Non, puisque l’écart relatif est le même partout.
Pause-exercice
8.5
a) À partir du tableau de contingence construit à la pause-exercice 8.4, calculez la valeur du khi carré. b) En se basant sur la valeur du khi carré, peut-on dire que le lien entre les variables est élevé ? Justifiez votre réponse.
C Le calcul du coefficient de contingence et du coefficient de Cramer Le coefficient de contingence et le coefficient de Cramer sont tous deux basés sur la valeur du khi carré, ce qui n’est pas le cas de toutes les mesures d’association. Ces coefficients ont tous deux l’avantage de pouvoir être utilisés même si les variables ne sont que de niveau nominal. Les formules permettant de calculer ces deux mesures sont les suivantes : Coefficient de contingence (C)
c2 c +n c2 = la valeur du khi carré ; C=
où :
Coefficient de Cramer (V) V=
2
n = la taille de l’échantillon (remplacé par N quand il s’agit d’une population).
où :
c2 n(h – 1)
c2 = la valeur du khi carré ;
n = la taille de l’échantillon (remplacé par N quand il s’agit d’une population) ;
h = la valeur la plus petite entre le nombre de modalités d’une des variables (nombre de rangées) et le nombre de modalités de l’autre variable (nombre de colonnes).
Appliquées aux données de l’exemple type, pour lesquelles la valeur c2 calculée dans le tableau 8.6 est d’environ 5,512, et étant donné qu’il s’agit d’un tableau de 2 rangées × 4 colonnes (excluant les totaux) où sont réparties 60 unités statistiques, on a alors :
208
Étape 3 • L’analyse des données
© 2016, Les Éditions CEC inc. • Reproduction interdite
C=
5,512 5,512 + 60 ≈ 0,290 pour le coefficient de contingence
et V=
5,512 ≈ 0,303 pour le coefficient de Cramer. 60(2 – 1)
Par opposition aux différentes mesures de tendance centrale, de dispersion et de position, lesquelles sont des mesures univariées du fait qu’il s’agit de mesures portant sur un aspect ne concernant qu’une seule variable, le coefficient de contingence et le coefficient de Cramer sont considérés comme des mesures bivariées, puisqu’il s’agit de mesures portant sur un aspect concernant par définition deux variables. On remarque par ailleurs que, même si les deux mesures diffèrent, elles sont du même ordre de grandeur.
D L’interprétation statistique d’une mesure d’association La valeur 0 est très simple à interpréter : elle indique une absence totale de lien entre les variables. Par ailleurs, la valeur maximale indiquant que ce lien est parfait est moins simple à préciser, particulièrement dans le cas du coefficient de contingence, et il en est de même de son interprétation. Au-delà des nuances qu’on pourrait apporter ici, on peut dire que plus une mesure d’association est près de 0, plus le lien est faible et, inversement, plus la mesure est près de 1, plus le lien est fort, ainsi que l’illustre le schéma ci-dessous : Minimum possible
Maximum possible
Coefficient de contingence
0
0,707 ou plus (mais n’atteint jamais 1)
Coefficient de Cramer
0
1 (ou parfois un peu plus)
Appréciation du degré d’association
Nulle
Faible
Moyenne
Forte
Ainsi, on peut considérer que, d’après la valeur 0,290 du coefficient de contingence et la valeur 0,303 du coefficient de Cramer obtenues dans le cas de l’exemple type, le lien observé entre les variables nature du travail choisi et préférence concernant le sexe du partenaire d’équipe est plutôt faible. On constate en effet, chez les 60 étudiants ayant participé à la recherche du professeur, une tendance selon laquelle le choix d’un partenaire varie en fonction de la nature du travail, et vice-versa, mais cette tendance n’est pas très marquée. On doit toutefois souligner que l’interprétation formulée ici ne s’applique pour l’instant qu’à l’échantillon. En dépit du fait que la même interprétation soit ici valable pour les deux mesures d’association, ce n’est pas toujours le cas en raison de limitations1 associées au coefficient de contingence. C’est pourquoi le coefficient de Cramer est plus utilisé, car il refléterait mieux la force du lien pouvant exister entre deux variables.
Parfaite
NE GÉNÉRALISONS PAS TOUT DE SUITE... Pour se prononcer sur la possibilité que le lien observé ici soit vrai pour l’ensemble des étudiants en général, c’est-à-dire la population, il faudra avoir procédé à un test d’hypothèse, ce qui fera l’objet du chapitre 10. Par contre, lorsqu’une mesure d’association est calculée à partir d’une population, comme lorsqu’on utilise les données de Statistique Canada, l’interprétation peut être appliquée d’emblée à l’ensemble de cette population.
1. Expliquer les limitations liées au coefficient de contingence demanderait un développement qu’il ne serait pas approprié de présenter ici. C’est pourquoi nous nous contentons de signaler l’existence de ces limitations. © 2016, Les Éditions CEC inc. • Reproduction interdite
Chapitre 8 • Décrire le lien entre variables
209
Pause-exercice
8.6
Considérant qu’en calculant le khi carré à partir des données du tableau de la pause-exercice 8.3, on aurait obtenu 6,71 : a) calculez et interprétez le coefficient de contingence ; b) calculez et interprétez le coefficient de Cramer ; c) l’interprétation donnée dans chaque cas peut-elle s’appliquer à l’ensemble de la population ? Justifiez votre réponse.
Activité synthèse 8.1
8.2 Le lien entre deux variables quantitatives Le traitement de données à effectuer pour décrire le lien entre deux variables quantitatives n’est pas le même selon le type de lien spécifié par l’hypothèse ou l’objectif et selon la procédure utilisée pour recueillir les données. Deux cas principaux peuvent se présenter : • Le premier cas est celui où aucune valeur concernant les variables n’a été prédéterminée, les deux variables ayant été mesurées auprès des différentes unités statistiques ; • Le second cas est celui où les valeurs de la variable indépendante ont été prédéterminées, la variable dépendante ayant ensuite été mesurée pour chacune des valeurs de la variable indépendante.
8.2.1 Aucune valeur n’a été prédéterminée
Voir le chapitre 1, L’hypothèse (p. 14).
Il arrive souvent que, dans les recherches, les variables n’aient aucune valeur prédéterminée, c’est-à-dire fixée avant la collecte des données. Il se peut qu’il ait été impossible ou difficile de manipuler la variable indépendante, ou encore que le lien qui faisait l’objet de l’hypothèse ou de l’objectif ait été simplement de nature relationnelle. On mesure alors habituellement les deux variables à partir d’une même unité statistique, comme dans l’exemple type ci-dessous, où on a une hypothèse relationnelle. Les données brutes de la recherche décrite dans cet exemple figurent dans le tableau 8.7.
Exemple type 2 Le test d’anglais qu’a fait passer une entreprise à ses employés (voir l’exemple type du chapitre 6) comprenait trois parties : une première partie objective notée sur 20, comprenant des questions à choix multiple, une deuxième, notée sur 10, constituée de brèves questions à développement, et une troisième, notée sur 5, consistant en un test oral. À la suite de discussions avec 39 employés, pour qui les questions objectives telles que les questions à choix multiple ne mesurent pas aussi bien les connaissances acquises que les questions à développement, l’entreprise décide de vérifier s’il y a un lien entre les deux. Pour ce faire, elle compile, d’une part, la note sur 20 obtenue par les 39 employés intéressés à la question pour la partie objective du test et, d’autre part, leur note sur 10 pour la partie à développement. Considérant que c’est souvent la valeur prédictive des questions objectives qui est critiquée, l’entreprise formule alors l’hypothèse suivante : Plus la note pour la partie objective du test est élevée, plus la note pour la partie à développement l’est.
210
Étape 3 • L’analyse des données
© 2016, Les Éditions CEC inc. • Reproduction interdite
Tableau 8.7 Notes au test d’anglais concernant la partie objective et la partie à développement pour 39 employés Note obtenue N employé o
Obj
Dév
Note obtenue N employé
Obj
Dév
o
Note obtenue N employé o
Obj
Dév
Note obtenue N employé
Obj
Dév
o
1
7,5
3,30
11
15,0
7,75
21
8,5
2,95
31
16,0
5,90
2
12,5
7,05
12
13,5
7,25
22
17,0
10,00
32
17,0
8,75
3
15,5
8,00
13
8,5
6,75
23
7,5
6,00
33
12,5
5,15
4
13,5
5,75
14
12,5
9,75
24
16,0
8,00
34
11,5
4,40
5
16,0
9,00
15
8,5
5,25
25
9,5
3,40
35
8,5
5,75
6
8,5
5,50
16
11,5
6,75
26
7,5
2,30
36
15,0
7,40
7
12,5
7,15
17
11,5
6,45
27
10,5
8,25
37
13,5
10,00
8
15,0
9,75
18
18,0
9,65
28
17,0
6,75
38
13,5
3,65
9
12,5
8,15
19
13,5
8,50
29
16,0
10,00
39
18,0
9,00
10
15,0
5,50
20
11,5
8,90
30
17,0
9,75
Note : La note pour la partie objective (Obj) est sur 20 et celle pour la partie à développement (Dév) est sur 10.
L’hypothèse de l’exemple type 2 met en cause une série statistique bivariée, puisque chaque mesure concernant une variable est associée à une mesure concernant l’autre du fait que les deux proviennent d’un même employé. On doit cependant retenir que la variable note pour la partie objective est prise ici comme variable indépendante au sens large, puisqu’elle n’a pas été manipulée directement et ne sert que comme variable à partir de laquelle on veut prédire l’autre. Pour utiliser au maximum l’information contenue dans les données recueillies dans une telle situation, on porte directement en graphique les données, c’est-à-dire sans dresser au préalable un tableau de fréquences, ce qui pourrait malgré tout se faire. On calcule ensuite la force du lien à l’aide du coefficient de corrélation linéaire de Pearson et on détermine la droite de régression représentant le mieux la relation entre les variables.
LES CLASSES DE FRÉQUENCES, PAS TOUJOURS LA BONNE SOLUTION Pour traiter les données du tableau 8.7 en fonction de l’hypothèse formulée, on pourrait créer des classes de fréquences pour chacune des variables, puis établir, comme pour deux variables qualitatives, un tableau de contingence où les individus seraient répartis en fonction des deux variables ainsi catégorisées. Toutefois, comme le regroupement par classes entraîne une perte d’information, ce n’est généralement pas la solution la plus avantageuse.
A La représentation graphique des données La meilleure façon de visualiser dans quelle mesure la note pour la partie objective du test donne une bonne idée de la note obtenue pour la partie à développement consiste à tracer ce qu’il est convenu d’appeler un diagramme de dispersion. Il s’agit d’un graphique où, une des variables se trouvant en abscisse et l’autre, en ordonnée, le point correspondant à chaque paire de données de la série statistique est tracé à l’intersection des deux axes.
© 2016, Les Éditions CEC inc. • Reproduction interdite
Chapitre 8 • Décrire le lien entre variables
211
La figure 8.4 illustre le diagramme de dispersion tracé pour l’exemple type 2. Le point correspondant à l’employé 1 – plus gros sur le graphique pour en faciliter le repérage – est placé à l’intersection des coordonnées (7,5 ; 3,30). Le point correspondant à l’employé 2 – également plus gros pour la même raison – se trouve aux coordonnées (12,5 ; 7,05), et ainsi de suite, jusqu’à ce que tous les points soient représentés. Deux employés qui ont eu la même note aux deux évaluations seront évidemment situés au même point sur le graphique. On appelle nuage de points l’ensemble des points dans un diagramme de dispersion, même s’il arrive fréquemment que cette appellation désigne le graphique lui-même.
Note pour la partie à développement
Figure 8.4 Note obtenue par 39 employés pour la partie objective et pour la partie à développement 10 9 8 7 6 5 4 3 2 1 0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Note pour la partie objective
B L’évaluation du lien à partir du diagramme de dispersion En observant le nuage de points de la figure 8.4, on se rend compte que, dans l’ensemble, les employés qui ont eu une bonne note pour la partie objective ont également eu une bonne note pour la partie à développement ; inversement, ceux qui ont eu une moins bonne note pour l’une des parties ont eu une moins bonne note pour l’autre. Le graphique révèle donc un lien entre les variables, puisque la note du test pour la partie objective permet de prédire la note approximative pour la partie à développement. Lorsque le nuage de points a une forme ovoïde qui tend à se rapprocher d’une ligne droite, comme c’est le cas ici, cela indique une relation de type linéaire entre les deux variables ; on parle alors de corrélation linéaire. Le diagramme de dispersion permet ainsi d’établir une première évaluation visuelle du sens et de la force de la corrélation linéaire observée entre deux variables quantitatives.
■ Sens de la corrélation linéaire observée Lorsque le nuage de points tend à se rapprocher d’une droite dont la pente est ascendante, on parle de corrélation positive, alors que la corrélation est dite négative lorsque la pente de la droite vers laquelle tendent les points est descendante. La figure 8.4, par exemple, révèle non seulement un lien entre les variables, mais elle indique de plus que ce lien correspond à une corrélation positive. Par contre, la figure 8.5 révèle une corrélation négative, étant donné que les points tendent à se rapprocher d’une droite descendante, indiquant que, de façon générale, plus la note obtenue pour la partie objective est élevée, moins le nombre de points perdus dans la partie à développement est élevé.
212
Étape 3 • L’analyse des données
© 2016, Les Éditions CEC inc. • Reproduction interdite
Nombre de points perdus pour la partie à développement
Figure 8.5 Note obtenue par 39 employés pour la partie objective et nombre de points perdus pour la partie à développement 10 9 8 7 6 5 4 3 2 1 0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Note pour la partie objective
■ Force de la corrélation linéaire observée La corrélation linéaire observée dans les figures 8.4 et 8.5 n’est pas parfaite. Pour qu’elle le soit, il aurait fallu que les employés ayant eu une note donnée pour la partie objective aient tous eu la même note pour la partie à développement et que l’augmentation – de 1 point, par exemple – pour la partie objective ait correspondu à la même augmentation pour la partie à développement. Tous les points se seraient alors alignés parfaitement sur une droite, telle que schématisée dans la figure 8.6A. Si tous les points s’étaient plutôt trouvés alignés sur une droite descendante, telle que schématisée dans la figure 8.6B, on aurait plutôt eu une corrélation linéaire qui, bien que négative, aurait également été parfaite.
Figure 8.6 Représentation schématique de diagrammes de dispersion illustrant une corrélation linéaire parfaite
A
© 2016, Les Éditions CEC inc. • Reproduction interdite
B
Chapitre 8 • Décrire le lien entre variables
213
Par contre, si le graphique tracé à partir des données de l’exemple type avait plutôt ressemblé au diagramme de dispersion schématisé dans la figure 8.7, il aurait été impossible de prédire la note pour une partie à partir de l’autre note. On aurait été en présence d’une situation où il n’y aurait aucun lien systématique entre les variables, la corrélation linéaire étant alors nulle.
Figure 8.7 Représentation schématique d’un diagramme de dispersion illustrant une corrélation linéaire nulle
Pause-exercice
8.7
Une chercheuse pose l’hypothèse qu’une diminution du temps de sommeil chez un individu a pour effet de nuire à sa concentration. Pour vérifier cette hypothèse, elle conduit une étude pilote où neuf personnes acceptent de venir dormir au laboratoire pour ensuite se prêter à différents tests. Après avoir noté le temps écoulé entre l’endormissement et le premier réveil (tel que mesuré par le tracé électroencéphalographique), elle mesure le temps que les sujets ont mis pour résoudre un problème de mathématiques 30 minutes après leur réveil. En voici les résultats. Durée du sommeil (heures) Temps de résolution du problème (minutes)
3,0
5,4
5,8
6,2
6,6
7,6
8,4
9,1
10,0
16,1
10,6
11,0
8,1
9,1
6,2
7,5
6,7
4,4
a) Représentez ces données dans un diagramme de dispersion. b) À partir de la représentation graphique, peut-on dire qu’il existe un lien entre ces deux variables ? c) Si un lien existe, pourrait-on dire que les variables varient dans le même sens ou dans le sens contraire ? d) Comment qualifieriez-vous la force du lien ?
C La mesure du lien entre deux variables quantitatives La mesure habituellement utilisée pour évaluer la force d’une corrélation linéaire entre deux variables quantitatives (de niveau intervallaire, ou proportionnelle) est le coefficient de corrélation linéaire de Pearson. Il s’agit, comme pour les autres mesures, de déterminer ce coefficient, puis de l’interpréter statistiquement.
214
Étape 3 • L’analyse des données
© 2016, Les Éditions CEC inc. • Reproduction interdite
■ Détermination du coefficient de corrélation linéaire de Pearson Comme la formule du coefficient de corrélation de Pearson est un peu plus complexe que celle des autres mesures vues jusqu’ici, nous nous contenterons de la présenter dans le cas d’un échantillon, puis d’ajouter une précision concernant ce qui change dans le cas d’une population. Ainsi donc, dans le cas d’un échantillon, la valeur du coefficient de corrélation linéaire de Pearson, noté r, est calculée à l’aide de la formule suivante : r=
∑ xi yi – n x y (n – 1)sx sy
où :
∑ xi yi = la somme de tous les produits xy de chaque couple (x ; y),
c’est-à-dire de chaque paire de données constituant la série statistique bivariée ;
n = la taille de l’échantillon, c’est-à-dire le nombre de couples (x ; y) ;
x = la moyenne de l’échantillon pour la variable X ;
y = la moyenne de l’échantillon pour la variable Y ;
sx = l’écart type de l’échantillon pour la variable X ;
LE COEFFICIENT DE CORRÉLATION POUR UNE POPULATION Dans le cas d’une population – ce qui est fréquent lorsqu’on travaille à partir de données provenant de Statistique Canada –, le coefficient de corrélation Pearson est noté r et la formule est analogue : il suffit de remplacer n par N ainsi que sx et sy par sx et sy, respectivement.
sy = l’écart type de l’échantillon pour la variable Y. Le calcul manuel du coefficient de corrélation linéaire de Pearson est extrêmement fastidieux. Il est en revanche beaucoup plus simple à effectuer à l’aide d’une calculatrice à deux variables statistiques. De toute façon, qu’on procède manuellement ou qu’on utilise la calculatrice, l’application de la formule donne toujours une valeur comprise dans l’intervalle [−1 ; 1], c’est-àdire qu’elle ne peut jamais être inférieure à −1 ni supérieure à 1. Dans le cas des données du tableau 8.7, on obtient effectivement une valeur comprise dans cet intervalle, c’est-à-dire une valeur r égale à 0,663 environ.
Voir l’annexe Utilisation des fonctions statistiques d’une calculatrice (p. 335).
■ Interprétation statistique du coefficient de corrélation linéaire de Pearson Tout comme pour l’évaluation à partir du diagramme de dispersion, on fera porter l’interprétation statistique d’un coefficient de corrélation linéaire de Pearson sur deux aspects : le sens et la force de la corrélation. Le sens de la corrélation observée Le signe, positif ou négatif, de la valeur r indique le sens de la corrélation. Une valeur r positive signifie que les deux variables tendent à varier dans le même sens ; une valeur négative signifie qu’elles varient dans le sens contraire l’une de l’autre. Ainsi, une valeur r positive correspond à une situation où la droite vers laquelle tend à se rapprocher l’ensemble des points d’un diagramme de dispersion a une pente ascendante. C’est ce qu’on constate avec la valeur r égale à 0,663 de l’exemple type 2 : la valeur positive indique une corrélation positive conforme à la tendance ascendante observée dans la figure 8.4. Cela signifie que plus la note aux questions objectives est élevée, plus la note aux questions à développement tend à l’être aussi, et vice-versa. Par ailleurs, le calcul de r à partir des valeurs de la figure 8.5 aurait donné une valeur négative, indiquant, en conformité avec la figure, une corrélation négative qui signifie que plus la note au test est élevée pour la partie objective, moins le nombre de points perdus pour la partie à développement est élevé. © 2016, Les Éditions CEC inc. • Reproduction interdite
Chapitre 8 • Décrire le lien entre variables
215
La force de la corrélation observée Plus la valeur r est différente de 0, plus la corrélation linéaire est forte, et plus la précision dans la prédétermination de la valeur d’une variable à partir de l’autre variable est élevée. La force d’une corrélation est donc indiquée par la valeur absolue de r et correspond, sur le plan graphique, à la tendance du nuage de points à se rapprocher d’une droite. Ainsi, un coefficient égal à −1 et un coefficient égal à +1 indiquent tous deux une corrélation parfaite et correspondent, sur le plan graphique, au cas où tous les points se trouvent sur une droite, peu importe que la pente de cette dernière soit descendante ou ascendante. Par contre, une valeur r égale à 0 indique une corrélation nulle et correspond, sur le plan graphique, au cas où les points ne tendent pas du tout à s’aligner sur une droite. Par ailleurs, bien qu’il n’y ait pas de critères précis pour évaluer la force d’un coefficient de corrélation quand il s’agit de valeurs intermédiaires entre une corrélation parfaite et une corrélation nulle, on peut néanmoins utiliser, à titre indicatif, la gradation présentée dans le schéma ci-dessous. r :
–1 Parfaite
Élevée
–0,5 Modérée
Faible
0 Nulle
Faible
+0,5 Modérée
Élevée
+1 Parfaite
En se basant sur ces degrés d’appréciation, on peut considérer que la valeur 0,663 obtenue pour les données de l’exemple type 2 révèle l’existence, au sein de l’échantillon, d’un lien relativement élevé entre les deux modes d’évaluation, en conformité avec la tendance des points à se rapprocher de la droite (voir la figure 8.4). Il est à noter que, si l’on avait calculé la valeur r à partir des données de la figure 8.5, on aurait obtenu la même valeur absolue, sauf que le signe aurait été négatif.
Pause-exercice
8.8
À partir des éléments de la pause-exercice 8.7 : a) calculez la force du lien à l’aide du coefficient de corrélation linéaire r ; b) qualifiez ce lien ; c) faites une interprétation statistique du signe du coefficient de corrélation dans cette situation.
D La détermination de la droite de régression On appelle droite de régression la droite vers laquelle tendent idéalement tous les points d’un diagramme de dispersion ; ce type de droite est représenté en trait pointillé dans les figures 8.4 et 8.5. C’est un modèle mathématique qui permet non seulement de mieux visualiser l’allure générale des résultats, mais également de faire certaines prédictions concernant une variable à partir de l’autre. La formule permettant de calculer la droite de régression est : y’ = a + bx où : y’ = la valeur y prédite pour une valeur x quelconque lorsque la corrélation est parfaite ; a = la valeur de l’ordonnée à l’origine (c’est-à-dire pour x = 0) ; b = la valeur de la pente.
216
Étape 3 • L’analyse des données
© 2016, Les Éditions CEC inc. • Reproduction interdite
Les coefficients a et b étant connus, il suffit de donner une valeur à x pour déterminer y’ ; la droite peut alors être tracée en calculant y’ pour deux valeurs de x. Pour connaître la valeur des coefficients a et b, le plus simple est d’utiliser une calculatrice à deux variables statistiques.
Voir l’annexe Utilisation des fonctions statistiques d’une calculatrice (p. 335).
LA CALCULATRICE À UNE SEULE VARIABLE Pour calculer les coefficients a et b d’une droite de régression à l’aide d’une calculatrice à une seule variable, on peut utiliser les équations ci-dessous. Étant donné que le calcul de a requiert la valeur de la pente b, on trouve d’abord cette dernière à l’aide de la formule suivante : sy b = r s x où : r = le coefficient de corrélation linéaire dans l’échantillon ; sy = l’écart type de l’échantillon pour la variable Y ; sx = l’écart type de l’échantillon pour la variable X. On calcule ensuite la valeur de l’ordonnée à l’origine, c’est-à-dire a, à l’aide de la formule suivante : a = y – bx où :
b = la valeur de la pente ;
y = la moyenne de l’échantillon pour la variable Y ;
x = la moyenne de l’échantillon pour la variable X.
Par ailleurs, comme la droite qu’on tracera est une droite idéale, on utilisera le symbole y’ – qu’on prononce « y prime » – pour signaler qu’on ne fait pas référence à une valeur observée, mais à une valeur calculée prédisant ce qu’on obtiendrait si la corrélation linéaire était parfaite. En calculant les valeurs a et b à partir des données de l’exemple type 2, on obtient respectivement 1,228 pour a, la valeur de l’ordonnée à l’origine, et 0,447 pour b, la valeur de la pente. Cela donne, pour l’équation de la droite de régression : y’ = 1,228 + 0,447x. Pour tracer la droite sur le diagramme de dispersion correspondant, il suffit alors de déterminer y’ pour deux valeurs quelconques de x.
LE CHOIX DES VALEURS DE X POUR LA DROITE DE RÉGRESSION En théorie, les valeurs de X qu’on utilise n’ont aucune importance. En pratique, il est plus simple de choisir, pour la première valeur x, une valeur avoisinant la plus petite valeur x parmi les données et, pour la seconde, une valeur avoisinant la plus grande valeur x parmi les données.
© 2016, Les Éditions CEC inc. • Reproduction interdite
Chapitre 8 • Décrire le lien entre variables
217
Considérant que, dans le cas de l’exemple type 2, la plus petite valeur x observée est 7,5 et que la plus grande est 18, on pourrait ainsi calculer deux points (x ; y) à partir des valeurs x 5 et 20 s’en rapprochant. Pour x1 = 5, on aurait alors : y’1 = 1,228 + 0,447×5 ≈ 3,46, d’où : (x1 ; y’1) = (5 ; 3,46) et pour x2 = 20 : y’2 = 1,228 + 0,447×20 ≈ 10,17, d’où : (x2 ; y’2) = (20 ; 10,17). En portant en graphique les deux points ainsi définis et en superposant la droite correspondant au nuage de points, on obtiendrait la figure 8.8, dans laquelle le maximum de l’axe des ordonnées a été fixé à 12 de façon à inclure l’ordonnée du point y’2, dont la valeur est 10,17.
Note pour la partie à développement
Figure 8.8 Droite de régression superposée au nuage de points de la figure 8.4 12
(20 ; 10,17)
10 8 6 4 2 0
(5 ; 3,46)
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Note pour la partie objective
La droite de régression décrit la façon dont devrait varier la variable Y en fonction de la variable X si la corrélation était parfaite. On utilise souvent ce qu’on appelle le coefficient de détermination pour exprimer jusqu’à quel point on peut, dans l’ensemble, expliquer les variations de la variable Y observées en fonction de celles de la variable X. Le coefficient de détermination correspond mathématiquement à r2, c’est-à-dire à la valeur au carré du coefficient de corrélation r. Puisqu’on a ici r ≈ 0,663, on obtient donc r2 ≈ 0,44. Cela peut être interprété en disant que la variation de la note pour la partie à développement est expliquée à 44 % environ par la variation de la note pour la partie objective.
Pause-exercice
8.9
À partir du contexte de la pause-exercice 8.7 et des calculs effectués à la pause-exercice 8.8 : a) déterminez la droite de régression (pour trouver les coefficients a et b, utilisez votre calculatrice) ; b) à combien estimez-vous le temps nécessaire à un sujet ayant eu quatre heures de sommeil pour réaliser le problème de mathématiques ?
Activité synthèse 8.2.1
218
Étape 3 • L’analyse des données
© 2016, Les Éditions CEC inc. • Reproduction interdite
LA SIGNIFICATION DU COEFFICIENT DE DÉTERMINATION : UN APERÇU La signification du coefficient de détermination n’est pas simple à saisir, mais le schéma simplifié ci-dessous peut aider à en donner un aperçu. Tracé à partir de huit paires de données, il correspond à des valeurs r et r2 approximativement égales à 0,75 et 0,56, respectivement. Si on prend le point (7 ; 28), par exemple, on note que sa coordonnée y présente une « variation » de 6,5 unités au-dessus de la moyenne des valeurs y (c’est-à-dire 28 − 21,5). Or, d’après l’équation de la droite de régression, on devrait s’attendre que, pour x = 7, la valeur y soit approximativement égale à 23,7, c’est-àdire à 2,2 unités au-dessus de la moyenne (variation illustrée par la flèche en trait plein). On peut donc dire que, pour la variation de 6,5 unités au-dessus de la moyenne correspondant au point (7 ; 28), une partie correspondant à 2,2 unités est déjà expliquée par x. La partie restante (illustrée par la flèche en trait pointillé) correspond à la variation non expliquée, approximativement égale à 4,3 (c’est-à-dire 28 − 23,7). Ce que mesure le coefficient de détermination, c’est la variation expliquée, et ce, pour l’ensemble des points.
30 25
(7 ; 28)
Moyenne des valeurs y = 21,5
20 Variable Y
Variation non expliquée ≈ 28 – 23,7 = 4,3
r ≈ 0,75 r2 ≈ 0,56
15
Variation expliquée par x ≈ 23,7 – 21,5 = 2,2
y1 ≈ 12,5 – 1,6x
10
Moyenne des valeurs x = 5,625
5 0
0
2
4
6
8
10
Variable X
8.2.2 L es valeurs de la variable indépendante sont prédéterminées La prédétermination des valeurs de la variable indépendante se rencontre dans deux cas principaux : l’étude d’une hypothèse relationnelle et celle d’une hypothèse causale.
A Un cas type d’hypothèse relationnelle : la série chronologique Par série chronologique, on entend une série statistique bivariée mettant en relation une variable d’ordre temporel et une variable exprimant la mesure d’un phénomène variant dans le temps. Les hypothèses relationnelles mettant en jeu de telles séries sont extrêmement répandues en sciences humaines : on peut, par exemple, penser au nombre de naissances en fonction de l’année (et au fameux « boom » qui a marqué l’arrivée des baby boomers), au nombre d’émigrés que le Canada a accueillis depuis les 10 dernières années, ou encore à l’augmentation du prix de l’essence depuis les années 2000. Lorsque les deux variables sont de nature quantitative, comme dans les exemples cités, on peut calculer un coefficient de corrélation linéaire et déterminer la droite de régression en prenant comme variable indépendante la variable exprimant différents moments dans le temps.
© 2016, Les Éditions CEC inc. • Reproduction interdite
Chapitre 8 • Décrire le lien entre variables
219
Exemple Le tableau ci-dessous présente le nombre total de décès enregistrés au Québec de 2007 à 2012. Nombre total de décès enregistrés au Québec de 2007 à 2012 Année
2007
2008
2009
2010
Nombre de décès
56 521
57 106
57 769
58 808
2011 59 539
2012 60 774
Source : © Adapté de Statistique Canada (2016). « Décès, selon le mois, Canada, provinces et territoires ». (Page consultée le 22 février 2016 à l’adresse suivante : <http://www5.statcan.gc.ca/cansim/a47#customizeTab>.) Cela ne constitue pas une approbation de ce produit par Statistique Canada.
Portées en graphique, ces données mettent en évidence une augmentation marquée des décès. D’après la droite de tendance calculée à partir de ces données, dont l’équation est y’ ≈ –1 639 538 + 844,965x, on pourrait s’attendre que le nombre total de décès en 2013 (non indiqué sur le site au moment de la consultation) soit d’environ 61 377. 63 000 (2013 ; 61 377)
62 000
Nombre de décès
61 000 60 000 59 000 58 000 57 000 56 000 55 000 0
2007
2008
2009
2010
2011
2012
2013
Année
Dans les études qui comportent des séries chronologiques, la droite de régression est souvent appelée droite de tendance, parce qu’elle est censée représenter le sens dans lequel tend à évoluer un phénomène. Le graphique illustrant une série chronologique est appelé chronogramme.
B Le cas d’une hypothèse causale Il s’agit ici du cas où l’on fait varier la variable indépendante en fixant à l’avance ses valeurs, de façon à étudier les effets de ces variations sur la variable dépendante. L’exemple type qui suit illustre ce genre de situation. Les données brutes de l’expérimentation présentées dans cet exemple figurent dans le tableau de compilation 8.8.
220
Étape 3 • L’analyse des données
© 2016, Les Éditions CEC inc. • Reproduction interdite
Exemple type 3 Une chercheuse en milieu scolaire a mené une expérience en vue de vérifier s’il y a un lien entre la température ambiante et le rendement lors de l’exécution d’une tâche de résolution de problèmes. Afin de vérifier l’hypothèse causale suivante : Plus la température ambiante est élevée, moins le nombre de problèmes réussis est élevé, elle a préparé une série de problèmes de difficulté moyenne et sélectionné un échantillon de 54 élèves qu’elle a répartis au hasard en 3 groupes. Elle leur a soumis les problèmes dans 3 pièces différentes, dont elle avait fixé la température à 18 °C pour le premier groupe, à 22 °C pour le deuxième groupe et à 26 °C, pour le troisième.
Tableau 8.8 Nombre de problèmes réussis par chacun des sujets dans chacune des trois conditions de température ambiante Température ambiante 18 °C
22 °C
26 °C
Sujet 1
14
Sujet 19
11
Sujet 37
14
Sujet 2
19
Sujet 20
11
Sujet 38
12
Sujet 3
11
Sujet 21
22
Sujet 39
9
Sujet 4
16
Sujet 22
19
Sujet 40
9
Sujet 5
18
Sujet 23
15
Sujet 41
12
Sujet 6
20
Sujet 24
14
Sujet 42
15
Sujet 7
14
Sujet 25
12
Sujet 43
13
Sujet 8
16
Sujet 26
15
Sujet 44
12
Sujet 9
15
Sujet 27
18
Sujet 45
9
Sujet 10
18
Sujet 28
12
Sujet 46
10
Sujet 11
21
Sujet 29
16
Sujet 47
9
Sujet 12
15
Sujet 30
16
Sujet 48
13
Sujet 13
14
Sujet 31
20
Sujet 49
9
Sujet 14
12
Sujet 32
15
Sujet 50
11
Sujet 15
19
Sujet 33
18
Sujet 51
4
Sujet 16
21
Sujet 34
17
Sujet 52
19
Sujet 17
13
Sujet 35
8
Sujet 53
13
Sujet 18
20
Sujet 36
20
Sujet 54
14
Dans une telle situation, la façon habituelle de traiter les données ne consiste pas à en établir la distribution ni à calculer une mesure de lien entre les variables. Le traitement consiste simplement à calculer le nombre moyen de problèmes réussis dans chacune des conditions et à examiner, à l’aide d’un tableau et d’un graphique, comment cette valeur varie selon les conditions de mesure. Les résultats des calculs effectués à partir du tableau 8.8 sont donnés dans le tableau 8.9.
© 2016, Les Éditions CEC inc. • Reproduction interdite
Chapitre 8 • Décrire le lien entre variables
221
Tableau 8.9 Nombre moyen de problèmes réussis en fonction de la température ambiante Température ambiante
Moyenne Écart type
18 °C
22 °C
26 °C
16,4
15,5
11,5
3,15
Nombre de sujets
3,71
18
3,24
18
18
Comme on le constate dans ce tableau, on y trouve généralement, outre les valeurs moyennes, l’écart type et le nombre de données correspondant à chaque condition. L’intérêt de ces deux dernières informations est qu’elles permettront, entre autres, de procéder à un test d’hypothèse – comme on le verra au chapitre 10. La figure 8.9 représente graphiquement la façon dont les valeurs moyennes présentées dans le tableau 8.9 varient en fonction de la température ambiante. On appelle graphique linéaire, à ne pas confondre avec le diagramme linéaire, le type de graphique où l’on illustre la relation entre deux variables quantitatives en reliant par des segments de droite les points correspondant aux différents couples (x ; y). Comme on l’a mentionné précédemment, il est d’usage courant de désigner sous le nom de courbe la ligne brisée constituée par la séquence des segments de droite reliant deux points consécutifs.
Figure 8.9 Nombre moyen de problèmes réussis en fonction de la température ambiante (n = 54)
Nombre moyen de problèmes réussis
25 20 15 10 5 0
18
22
26
30
Température ambiante (°C) Note : Les segments verticaux au-dessus et au-dessous de chaque point illustrent l’ordre de grandeur des écarts types, information qui peut s’avérer utile si l’on a l’intention d’aborder ce point dans la discussion des résultats.
Les résultats tendent à confirmer l’hypothèse selon laquelle la température ambiante influerait de façon négative sur le nombre de problèmes réussis, le graphique indiquant même que c’est au-delà de 22 °C que cette tendance se manifesterait le plus. Il importe cependant de se rappeler que cette interprétation statistique ne vaut que pour les données recueillies auprès de l’échantillon et qu’on ne pourra se prononcer sur le bien-fondé de cette hypothèse auprès de la population visée qu’après confirmation – si c’est le cas – au moyen d’un test d’hypothèse. Activité synthèse 8.2.2
222
Étape 3 • L’analyse des données
© 2016, Les Éditions CEC inc. • Reproduction interdite
8.3 Le lien entre une variable qualitative et une variable quantitative En présence d’une variable qualitative et d’une variable quantitative, le traitement de données peut varier grandement selon le type de relation qui fait l’objet de l’hypothèse ou de l’objectif. On considérera ici le cas général où l’on étudie une relation entre une variable indépendante – au sens strict ou non – et une variable dépendante. Dans ce contexte, on distinguera deux cas principaux, selon que c’est la variable qualitative ou la variable quantitative qui constitue la variable dépendante. On examinera ensuite le cas particulier d’une variable dépendante quantitative dans une série chronologique.
8.3.1 La variable qualitative comme variable dépendante Lorsque la variable qualitative est considérée comme variable dépendante, les données sont habituellement traitées comme un cas à deux variables qualitatives, mais avec certaines différences selon que l’hypothèse est relationnelle ou causale.
A Le cas d’une hypothèse relationnelle Dans l’exemple de recherche qui suit, la variable qualitative degré de diminution de la qualité de vie constitue la variable dépendante, laquelle est évaluée en fonction de la variable quantitative âge. Cette dernière sert de variable indépendante, mais au sens large, puisqu’elle n’a pas été manipulée directement.
Exemple Une équipe de 3 étudiantes a mené auprès de 78 femmes une enquête sur le syndrome prémenstruel (SPM) afin de savoir si leur qualité de vie (conjugale, familiale, professionnelle, scolaire, sociale et globale) durant la période prémenstruelle n’était aucunement diminuée ou l’était un peu, moyennement ou grandement. L’hypothèse des étudiantes était la suivante : La diminution de la qualité de vie varie en fonction de l’âge. Après avoir regroupé les fréquences sous deux modalités (Un peu et Moyennement ou plus), les étudiantes ont dressé le tableau de contingence 8.10. Les fréquences relatives y ont été calculées en prenant comme référence le total des fréquences absolues pour l’âge concerné.
Tableau 8.10 Degré de diminution de la qualité de vie selon l’âge chez 78 femmes ayant déclaré être affectées par le SPM Groupe d’âge Degré de diminution de la qualité de vie
15 ans
25 ans
35 ans
Un peu
65,6 % (21)
80,0 % (20)
66,7 % (14)
Moyennement ou plus
34,4 % (11)
20,0 % (5)
33,3 % (7)
Total
100,0 % (32)
100,0 % (25)
100,0 % (21)
Note : Les valeurs entre parenthèses correspondent aux fréquences absolues.
© 2016, Les Éditions CEC inc. • Reproduction interdite
Chapitre 8 • Décrire le lien entre variables
223
À partir de ces fréquences, on pourrait tracer un graphique à rectangles verticaux chevauchés, comme dans la figure 8.3, dans lequel on verrait à placer l’âge le long de l’axe des abscisses. Le lien pourrait ensuite être mesuré au moyen de l’une ou l’autre des mesures d’association, telles que les coefficients de contingence ou de Cramer.
Pause-exercice
8.10
Calculez et interprétez le coefficient de contingence et le coefficient de Cramer des résultats de la recherche portant sur le lien entre l’âge et la diminution de la qualité de vie attribuable au SPM. Utilisez les données du tableau 8.10.
B Le cas d’une hypothèse causale Dans la recherche de l’exemple ci-dessous, la variable quantitative degré de difficulté perçu constitue la variable dépendante qui est évaluée en fonction de la variable température ambiante. Cette dernière est une variable indépendante au sens strict, parce que ses valeurs ont été prédéterminées pour définir trois conditions.
Exemple Une chercheuse en milieu scolaire a mené une expérimentation en vue de vérifier l’hypothèse causale suivante : Plus la température ambiante est élevée, plus les problèmes sont perçus comme difficiles. Après avoir préparé une série de problèmes de difficulté moyenne, elle a sélectionné un échantillon de 54 élèves qu’elle a répartis au hasard en 3 groupes. Elle leur a soumis les problèmes dans 3 pièces différentes, dont elle avait fixé la température à 18 °C pour le premier groupe, à 22 °C pour le deuxième groupe et à 26 °C pour le troisième. À la sortie des élèves, elle a demandé à chacun de dire s’il avait trouvé la série de pro blèmes très facile, facile, de difficulté moyenne, difficile ou encore très difficile. Après avoir recueilli et compilé ses données, la chercheuse a dressé le tableau de contingence 8.11, où elle a indiqué les fréquences absolues et les fréquences relatives, ces dernières ayant été calculées séparément pour chaque température. La représentation graphique et la mesure du lien entre les variables pourraient être réalisées de la même manière qu’à l’exemple précédent, dont les fréquences sont rapportées dans le tableau 8.10.
224
Étape 3 • L’analyse des données
© 2016, Les Éditions CEC inc. • Reproduction interdite
Tableau 8.11 Degré de difficulté d’une série de problèmes perçu en fonction de la température ambiante Température ambiante (°C) Degré de difficulté perçu
18 °C
22 °C
26 °C
Très facile
3 (16,7 %)
2 (11,1 %)
1 (5,6 %)
Facile
5 (27,8 %)
5 (27,8 %)
3 (16,7 %)
De difficulté moyenne
7 (38,9 %)
6 (33,3 %)
6 (33,3 %)
Difficile
2 (11,1 %)
2 (11,1 %)
4 (22,2 %)
Très difficile
1 (5,6 %)
3 (16,7 %)
4 (22,2 %)
Total
18 (100,0 %)
18 (100,0 %)
18 (100,0 %)
Pause-exercice
8.11
Utilisez les données du tableau 8.11 pour construire un graphique illustrant les résultats de la recherche portant sur le lien entre la température et le degré de difficulté perçu d’une série de problèmes.
8.3.2 L a variable quantitative comme variable dépendante Lorsque, à l’inverse de la situation étudiée au point précédent, c’est la variable quantitative qui constitue la variable dépendante, différents cas peuvent se poser. Nous en examinerons ici deux parmi les plus courants : celui où les mesures quantitatives appartiennent à une série chronologique et celui où elles ont été recueillies dans chacune des conditions ou pour chacun des groupes définis par la variable qualitative indépendante.
A Les mesures appartenant à des séries chronologiques Lorsque la variable temporelle d’une série chronologique est qualitative, elle est nécessairement de niveau ordinal. Il s’agit souvent du mois de l’année, comme dans l’exemple ci-après.
Exemple type 4 Le taux de chômage observé au Canada au cours des six premiers mois de l’année 2015 est présenté dans le tableau ci-dessous. Évolution du taux de chômage au Québec au cours des six premiers mois de l’année 2015 Mois
Janvier
Février
Mars
Avril
Mai
Juin
Taux de chômage (%)
8,1
8
8,3
8,1
7,6
7,5
Source : Adapté de Statistique Canada (2015). « Enquête sur la population active (EPA), estimations selon le Système de classification des industries de l'Amérique du Nord (SCIAN), le sexe et le groupe d'âge, non désaisonnalisées ». (Page consultée le 11 décembre 2015 à l’adresse suivante : <http://www5.statcan.gc.ca/cansim/a26?lang=fra&retrLang=fra&id=2820007&pattern=&csid=>.) Cela ne constitue pas une approbation de ce produit par Statistique Canada.
© 2016, Les Éditions CEC inc. • Reproduction interdite
Chapitre 8 • Décrire le lien entre variables
225
La figure 8.10 présente deux graphiques souvent utilisés pour rapporter des données comme celles de l’exemple précédent. Le graphique linéaire – à ne pas confondre avec le diagramme linéaire – a l’avantage de mieux mettre en évidence la continuité temporelle en présentant une courbe dont les points consécutifs correspondent à chacun des mois.
Figure 8.10 Deux façons courantes de représenter graphiquement une série chronologique comme celle de l’exemple type 4 9,0
8,5 8,0
8,3 % 8,1 % 8,0 %
Taux de chômage (%)
Taux de chômage (%)
9,0
8,1 % 7,6 %
7,5
7,5 %
7,0 0,0
Janvier Février Mars
Avril
Mai
8,5 8,0
8,3 % 8,0 %
8,1 % 7,6 %
7,5
7,5 %
7,0 0,0
Juin
8,1 %
Janvier Février Mars
Mois
Avril
Mai
Juin
Mois
Par ailleurs, certaines mesures ont été créées pour aider à mettre en lumière l’évolution d’un phénomène dans le temps. La plus simple, la variation, correspond à la différence entre deux mesures prises à deux moments dans le temps, par exemple la différence entre le taux de chômage en janvier 2015 et celui en juin 2015. En pratique, on s’en sert habituellement pour définir deux autres mesures : la variation relative et la variation moyenne. La variation relative calculée à un moment donné se définit par rapport à un moment choisi comme référence. Elle est égale à :
Variation relative (%) =
226
Étape 3 • L’analyse des données
Mesure à un Mesure au moment – moment donné choisi comme référence Mesure au moment choisi comme référence
×100.
© 2016, Les Éditions CEC inc. • Reproduction interdite
Exemple D’après Statistique Canada, le taux de chômage est passé de 8,1 % à 7,5 % de janvier 2015 à juin 2015. Sur la base de ces données, on peut dire que la variation relative du taux de chômage au cours de cette période est égale à :
Variation relative (%) =
=
Taux de chômage Taux de chômage – en juin 2015 en janvier 2015 Taux de chômage en janvier 2015
×100
7,5 % – 8,1 % ×100 8,1 %
≈ –7,4 %.
Source : Adapté de Statistique Canada (2015). « Enquête sur la population active (EPA), estimations selon le Système de classification des industries de l'Amérique du Nord (SCIAN), le sexe et le groupe d'âge, non désaisonnalisées ». (Page consultée le 11 décembre 2015 à l’adresse suivante : <http://www5.statcan.gc.ca/cansim/a26?lang=fra&retrLang=fra&id=2820007&pattern=&csid=>.) Cela ne constitue pas une approbation de ce produit par Statistique Canada.
À noter que le taux de chômage utilisé dans cet exemple pour illustrer la variation relative permet de souligner un phénomène qui survient fréquemment et qui peut être source de confusion : un calcul de pourcentage à partir de pourcentages. La valeur de –7,4 % pour la variation relative de chômage ne signifie pas une baisse du taux de chômage de –7,4 %, baisse qui est en fait de –0,6 % ; elle indique plutôt une baisse correspondant à environ –7,4 % du taux qui prévalait en janvier, ce qui n’est pas la même chose. La variation moyenne (ou taux de variation), qui s’applique à une période donnée à partir d’un moment choisi comme référence, est donnée par :
Variation moyenne =
Mesure à un Mesure au moment – moment donné choisi comme référence Nombre d’unités de temps écoulées au cours de la période choisie
.
Exemple À partir des données de l’exemple précédent, le taux de variation par mois est égal à :
Variation mensuelle moyenne =
=
Taux de chômage Taux de chômage – en juin 2015 en janvier 2015 5 mois
7,5 % – 8,1 % 5 mois
≈ – 0,12 % par mois.
Dans ce second exemple, le signe de pourcentage renvoie bien au taux de chômage et le taux de variation indique que le taux de chômage a baissé en moyenne d’environ –0,12 % par mois au cours de la période allant de janvier 2015 à juin 2015.
© 2016, Les Éditions CEC inc. • Reproduction interdite
Chapitre 8 • Décrire le lien entre variables
227
Il y a lieu de signaler que les notions de variation relative et de variation moyenne peuvent s’appliquer tant lorsque la variable temporelle est qualitative (le mois, par exemple) que lorsqu’elle est quantitative (l’année, par exemple).
Pause-exercice
8.12
Le prix de l’essence est un sujet quotidien de préoccupation pour les automobilistes. Le tableau ci-dessous présente le prix de l’essence ordinaire à Québec pour la période de juillet à décembre 2015. Prix de l’essence ordinaire à Québec au cours des six derniers mois de l’année 2015 Trimestre
juillet à septembre
octobre à décembre
Mois
Juillet
Août
Septembre
Octobre
Novembre
Décembre
Prix de l’essence ordinaire (¢/litre)
122,7
115,4
111,9
103,7
104,5
102,3
Source : © Adapté de Statistique Canada (2016). « Prix de détail moyens, essence et mazout, selon le centre urbain ». (Page consultée le 22 février 2016 à l’adresse suivante : <http://www5.statcan.gc.ca/cansim/a47#customizeTab>.) Cela ne constitue pas une approbation de ce produit par Statistique Canada.
a) À partir de ces données, tracez un graphique approprié pour cette série statistique. b) Calculez la variation relative de juillet à décembre. c) Pendant quel mois a-t-on remarqué la plus forte baisse relative par rapport au mois précédent ? d) Calculez la variation mensuelle moyenne de juillet à décembre.
es mesures quantitatives provenant de différentes conditions B L ou de différents groupes La façon habituelle d’étudier le lien entre les variables dans la situation dont il est ici question consiste à calculer la mesure de tendance centrale de la variable dépendante dans chacune des conditions ou pour chacun des groupes définis par la variable indépendante, puis de comparer les mesures ainsi obtenues.
Exemple Une équipe d’étudiants s’est intéressée aux liens entre certains facteurs et le niveau d’anxiété chez les athlètes pratiquant un sport au niveau compétitif. Supposant que les femmes manifestent un degré d’anxiété plus élevé que les hommes avant une activité sportive, ils ont demandé à 9 athlètes féminines et à 15 athlètes masculins pratiquant le badminton de répondre à la version française d’un test très utilisé dans le monde du sport, le SCAT (Sport Competition Anxiety Test)*, où les résultats peuvent varier entre 10 et 30 inclusivement. *Le SCAT a été créé par R. Martens et a été publié en 1977 par Human Kinetics Publishers. Après avoir recueilli les données, les étudiants ont dressé le tableau 8.12, où sont indiqués la moyenne au SCAT pour chaque groupe, l’écart type et le nombre de données.
228
Étape 3 • L’analyse des données
© 2016, Les Éditions CEC inc. • Reproduction interdite
Tableau 8.12 Cote moyenne obtenue au test d’anxiété Sport Competition Anxiety Test (SCAT) par 24 athlètes en fonction de leur sexe Sexe de l’athlète
Moyenne
Féminin
Masculin
22,56
21,73
Écart type
2,186
Nombre de sujets
3,150
9
15
Comme on peut le constater, la présentation des résultats dans un tableau mettant en relation deux variables est beaucoup plus simple à effectuer qu’un tableau de contingence. La représentation graphique des résultats l’est tout autant. Dans le diagramme à rectangles verticaux de la figure 8.11, on trouve en ordonnée non pas la fréquence, mais la moyenne de la variable dépendante cote obtenue au SCAT.
Voir le chapitre 4, La représentation graphique (p. 84).
Figure 8.11 Cote moyenne obtenue au test d’anxiété Sport Competition Anxiety Test (SCAT) par 24 athlètes en fonction de leur sexe 25
Cote moyenne obtenue au SCAT
20 15 10 5 0
Féminin
Masculin
Sexe de l’athlète Note : L’ordonnée débute à 0, même si ce n’était pas nécessaire compte tenu du caractère intervallaire des données.
LES DONNÉES INTERVALLAIRES ET LA REPRÉSENTATION GRAPHIQUE Étant donné que les valeurs possibles des cotes du test d’anxiété SCAT vont de 10 à 30, ce test ne mesure pas le degré absolu d’anxiété d’un athlète, mais indique simplement l’écart entre son score et celui des autres. Il s’agit là d’un bon exemple où le caractère intervallaire – par opposition à proportionnel – des données doit être pris en considération dans l’interprétation des résultats illustrés par un graphique. On ne pourrait pas dire que la 22,56 moyenne des femmes est = 1,04 fois plus élevée que celle des hommes, mais simplement que l’intervalle 21,73 entre les deux est de 0,83 point.
Activité synthèse 8.3
© 2016, Les Éditions CEC inc. • Reproduction interdite
Chapitre 8 • Décrire le lien entre variables
229
8.4 Le lien entre plus de deux variables Les principes à la base des procédures de traitement des données pour décrire le lien entre deux variables sont également valables lorsqu’une hypothèse ou un objectif fait intervenir plus de deux variables. Ce cas se présente dans plusieurs situations dont le traitement détaillé déborderait le cadre de ce manuel, mais il peut s’avérer toutefois utile de connaître celle où l’on a une distribution de fréquences comportant trois variables ou plus et celle où une variable quantitative est fonction de deux autres variables.
8.4.1 La distribution de fréquences comportant trois variables ou plus Les données recueillies dans le cadre de certaines recherches, par exemple si on voulait savoir comment se distribuent les immigrés syriens en fonction du sexe, de l’état matrimonial et de la formation professionnelle, mettent en jeu une série statistique multivariée, c’est-à-dire une série constituée de groupes de trois données ou plus recueillies auprès des différentes unités statistiques et permettant de caractériser chaque unité par rapport à trois variables ou plus.
Exemple Dans son étude sur les stéréotypes, le professeur aurait pu noter non seulement la nature du travail choisi et la préférence concernant le sexe du partenaire d’équipe, mais également le sexe de l’étudiant ayant répondu. Les données ainsi recueillies se seraient alors présentées comme suit. No de l’étudiant
Nature du travail choisi Sexe du partenaire d’équipe
Sexe du répondant
1
Fr
F
M
2
Fr
F
F
3
Mth
R
M
etc.
etc.
etc.
etc.
Il est possible de dresser un tableau de contingence à partir de cette série statistique. Toutefois, comme le laisse entrevoir le tableau 8.13, un tel tableau est moins aisé à consulter que celui à deux variables ; il en serait de même pour le diagramme qu’on pourrait tracer à partir du tableau. C’est pourquoi on préfère souvent ne tenir compte que de deux variables, les variables retenues étant celles sur lesquelles on prévoit mettre l’accent à l’étape de l’interprétation.
Tableau 8.13 Répartition de 60 étudiants d’un cégep selon la nature du travail choisi, leur préférence concernant le sexe du partenaire d’équipe et le sexe du répondant Préférence concernant le sexe du partenaire d’équipe Nature du travail choisi Français Mathématiques Total
230
Sexe du répondant
Féminin (F)
Masculin (M)
Indifférent (I)
Refus de répondre (R)
Total
F
12
3
3
1
19
M
5
7
2
2
16
F
4
2
4
2
12
M
3
3
4
3
13
F
16
5
7
3
31
M
8
10
6
5
29
Étape 3 • L’analyse des données
35 25 60
© 2016, Les Éditions CEC inc. • Reproduction interdite
LES TABLEAUX À TROIS VARIABLES OU PLUS Étant donné qu’un tableau prenant en considération trois variables est le plus simple des tableaux multivariés qu’on puisse dresser, il est aisé de comprendre pourquoi les tableaux élaborés à partir de plus de trois variables ne sont généralement pas appropriés dans le corps d’un rapport de recherche. On les place plutôt en annexe ou dans les banques de données ayant explicitement pour fonction de rendre disponibles de grandes quantités d’informations. Le site Internet de Statistique Canada est un exemple manifeste de banques de données présentant ce type de tableau où le volume d’information va de pair avec la lourdeur de la consultation.
8.4.2 Une variable quantitative fonction de deux autres variables Lorsque l’hypothèse ou l’objectif porte sur la relation entre une variable quantitative dépendante et deux variables indépendantes définissant différentes conditions ou différentes catégories d’unités statistiques, on commence généralement par calculer la mesure de tendance centrale de la variable dépendante pour chaque condition ou groupe, puis on compare les mesures ainsi obtenues.
Exemple Dans une expérience visant à étudier la façon dont la mémorisation d’un ensemble d’informations peut être influencée par le profil neurosensoriel et par le mode de présentation, des étudiants d’un cours de pédagogie ont demandé à 11 sujets catégorisés comme étant visuels de mémoriser deux listes de 25 mots de difficulté équivalente, présentés à intervalles de 4 secondes. Alors que, dans un cas, les mots étaient affichés sur un écran d’ordinateur (présentation visuelle), dans l’autre cas, ils l’étaient sur support audio seulement (présentation auditive). Les étudiants ont également soumis à la même tâche neuf sujets catégorisés comme étant auditifs. Le nombre moyen de mots retenus – variable dépendante quantitative – en fonction du mode de présentation et du profil neurosensoriel – deux variables indépendantes – est rapporté dans le tableau 8.14.
Tableau 8.14 Nombre moyen de mots retenus sur 25 en fonction du mode de présentation et du profil neurosensoriel Mode de présentation
Profil neurosensoriel
Visuel
Auditif
Moyenne
Visuel (n = 11)
11,09
8,73
9,91
Auditif (n = 9)
8,86
9,00
8,93
Moyenne
10,09
8,85
9,47
© 2016, Les Éditions CEC inc. • Reproduction interdite
Chapitre 8 • Décrire le lien entre variables
231
Comme on peut le constater, la présentation de résultats comportant trois variables est plus simple lorsque la variable dépendante est quantitative plutôt que qualitative. Il en est de même de la représentation graphique, ainsi que l’illustre la figure 8.12 ci-dessous.
Figure 8.12 Nombre moyen de mots retenus sur 25 en fonction du mode de présentation et du profil neurosensoriel 12
Nombre moyen de mots retenus
10
11,09 8,86
8,73
9,00
8
Profil visuel Profil auditif
6 4 2 0
Visuel
Auditif Mode de présentation
Activité synthèse 8.4
L’étude des liens entre variables conclut, avec celle des cas où l’hypothèse ou l’objectif ne comporte qu’une seule variable, le volet descriptif du traitement de données dans ce manuel. Les deux chapitres qui suivent porteront sur le volet inférentiel d’un traitement statistique, non requis lorsque les données ont été recueillies auprès de toute la population, mais essentiel lorsqu’elles l’ont été auprès d’un échantillon pour juger de la valeur représentative des résultats obtenus.
232
Étape 3 • L’analyse des données
© 2016, Les Éditions CEC inc. • Reproduction interdite
En bref Lorsque l’hypothèse ou l’objectif porte sur les relations entre deux variables ou plus, il y a lieu de distinguer différentes situations selon la nature des variables et le type de relation étudiée. 1) Lien entre deux variables qualitatives • On établit la distribution des variables l’une par rapport à l’autre : — on calcule les fréquences en procédant au dénombrement à partir d’une série bivariée (constituée de paires de données) ; — on dresse un tableau de fréquences à double entrée (tableau de contingence ou tableau croisé) ; — on donne une représentation graphique du tableau de fréquences : Accent sur le rapport partie à tout 18
28,0 %
48,6 % 28,6 %
32,0 %
20,0 %
80 60
8,6 % 14,3 %
20,0 %
28,6 %
32,0 %
40
20,0 % 48,6 %
20
28,0 %
0
Diagrammes circulaires juxtaposés
17
16 Nombre d’étudiants
20,0 %
14,3 %
Proportion d’étudiants (%)
100 8,6 %
Accent sur le rapport entre modalités 14 12
10
10 8
8
7
6
5
5
5
4
3
2
ou Diagrammes linéaires juxtaposés
0
Masculin
Féminin
Indifférent
Refus de répondre
Préférence concernant le sexe du partenaire d’équipe Diagramme à rectangles chevauchés
• On mesure la force du lien à partir des fréquences observées (fo) en calculant : — les fréquences théoriques (ft) données par : ft(cellule) =
Total de la colonne × Total de la rangée Grand total
— la valeur du khi carré (c2) donnée par : c2 = ∑
(fo – ft)2 ft
— l’une ou l’autre de deux mesures de lien (chacune pouvant osciller entre 0 et 1) : Coefficient de contingence (C) C=
c2 c +n 2
Coefficient de Cramer (V) V=
c2 n(h – 1)
Note : Dans chaque cas, l’association est d’autant plus forte que la mesure s’approche de 1.
2) Lien entre deux variables quantitatives • Cas où aucune valeur n’a été prédéterminée — on décrit la série bivariée au moyen d’un diagramme de dispersion (ci-contre : peut tendre vers une pente positive, négative ou nulle) ; — on calcule le coefficient de corrélation linéaire de Pearson noté r (échantillon) ou r (population) : donne une valeur entre –1 (corrélation négative) et +1 (corrélation positive), le lien entre les variables étant d’autant plus fort que r qu’il s’éloigne de 0 ;
© 2016, Les Éditions CEC inc. • Reproduction interdite
Chapitre 8 • Décrire le lien entre variables
233
En bref — on calcule l’équation de la droite de régression (vers laquelle tendent les points du diagramme de dispersion) ; — on calcule le coefficient de détermination (r2) pour évaluer jusqu’à quel point on peut expliquer les variations de la variable Y en fonction de la variable X. • Cas où les valeurs de la variable indépendante sont prédéterminées — Avec une hypothèse relationnelle où la variable indépendante est une variable temporelle : – on parle de série chronologique ; – le diagramme est appelé chronogramme ; – la droite de régression est appelée droite de tendance. — Avec une hypothèse causale où les valeurs de la variable indépendante ont été prédéterminées : – on compare les mesures de tendance centrale calculées sur la variable dépendante pour les différentes valeurs de la variable indépendante ; – les mesures obtenues peuvent être présentées dans un tableau et représentées dans un gra phique linéaire reliant par des segments de droite les points correspondants. 3) Lien entre une variable qualitative et une variable quantitative • Si la variable qualitative est la variable dépendante, procéder comme on le fait pour deux variables qualitatives. • Si la variable quantitative est la variable dépendante, différents cas peuvent se présenter. — Les mesures quantitatives appartiennent à une série chronologique, et alors : – on a une variable qualitative ordinale ; – les données sont habituellement illustrées dans un graphique à rectangles ou un graphique linéaire ; – l’évolution dans le temps est donnée par la variation relative et la variation moyenne. — Les mesures quantitatives ont été recueillies dans différentes conditions ou avec différents groupes, et alors : – on compare les mesures de tendance centrale calculées sur la variable dépendante pour chacune des valeurs de la variable indépendante ; – on représente habituellement les données au moyen d’un graphique à rectangles verticaux. 4) Lien entre plus de deux variables • Avec une distribution de fréquences comportant trois variables ou plus : — on parle de série statistique multivariée ; — on utilise le même type de traitement qu’avec deux variables qualitatives, mais la consultation d’un tableau et d’un graphique est plus complexe. • Avec une variable quantitative qui est fonction de deux autres variables indépendantes : — on compare les mesures de tendance centrale calculées sur la variable dépendante pour chaque combinaison de valeurs des variables indépendantes ; — le tableau et le graphique demeurent aisés à effectuer et à consulter.
234
Étape 3 • L’analyse des données
© 2016, Les Éditions CEC inc. • Reproduction interdite
On met en pratique 1. Un sociologue s’intéresse à l’influence parentale sur la consommation de cigarettes des adolescents. Il émet l’hypothèse que l’habitude de consommation de tabac chez les adolescents est liée à l’habitude de consommation chez le parent de même sexe. Les résultats de l’étude menée avec un échantillon de 500 jeunes âgés de 12 à 17 ans ont donné la répartition suivante.
Psychologie Sociologie
Répartition de 500 adolescents selon leur habitude de consommation de tabac et celle du parent de même sexe
Nombre d’adolescents
300 250
Consommation chez l’adolescent
264
Jamais À l’occasion
200
Régulièrement
150 100 50 0
37
67 24
Jamais
19
19
22
12
À l’occasion
36
Régulièrement
Consommation de tabac chez le parent de même sexe
a) À partir de ce graphique, dressez un tableau présentant les fréquences observées et les fréquences théoriques. b) Calculez le khi carré. c) Calculez et interprétez le coefficient de Cramer et le coefficient de contingence. d) L’hypothèse du sociologue est-elle fondée ? Justifiez votre réponse.
2. Des psychologues ont avancé l’hypothèse selon laquelle les jeunes enfants qui ont un ou plusieurs
frères ou sœurs sont plus sociables et communiquent plus souvent avec leurs pairs que les enfants uniques. Ils ont tenté de vérifier cette hypothèse en observant le comportement de 2 groupes de 75 enfants, dont l’un était constitué d’enfants uniques et l’autre, d’enfants ayant un ou plusieurs frères ou sœurs, et en catégorisant le comportement d’un enfant en présence d’enfants de son âge, selon le barème suivant : A : Ignore les autres et communique rarement ou pas du tout ; B : Se tient en retrait, communique peu et seulement en réponse à une question ; C : Joue avec les autres, mais parle peu ; D : Joue avec les autres et communique beaucoup.
Une fois les observations terminées, les psychologues ont effectué les dénombrements suivants. Groupe des enfants uniques
Groupe des enfants ayant des frères ou sœurs
A :
A :
B :
B :
C :
C :
D :
D :
© 2016, Les Éditions CEC inc. • Reproduction interdite
Psychologie
Chapitre 8 • Décrire le lien entre variables
235
On met en pratique a) À partir de ces données brutes, construisez un tableau de fréquences absolues tenant compte des deux groupes d’enfants. b) Construisez le tableau des fréquences théoriques. c) Calculez la valeur du khi carré. d) Calculez et interprétez le coefficient de Cramer et le coefficient de contingence. e) L’hypothèse des psychologues est-elle fondée ? Justifiez votre réponse.
3. En criminologie, on s’intéresse beaucoup au lien qui existe entre les différents types de crimes
Psychologie Sociologie
perpétrés et le profil du criminel. Dans la recherche dont les résultats figurent dans le tableau ci-dessous, l’objectif est de décrire le lien pouvant exister, au Canada, entre le type d’infraction au Code criminel (excluant les délits de la route) et le groupe d’âge du criminel. Répartition des Canadiens accusés d’infractions au Code criminel (excluant les délits de la route) selon le type d’infraction et le groupe d’âge en 2014 Type d’infraction au Code criminel
Âge
Crimes avec violence
Crimes contre la propriété
Autres crimes
Total
Adultes
138 325
115 960
144 724
399 009
Jeunes
14 917
15 032
12 246
42 195
Total
153 242
130 992
156 970
441 204
Source : Adapté de Statistique Canada (2015). « Statistiques des crimes fondés sur l’affaire, par infractions détaillées ». (Page consultée le 13 décembre 2015 à l’adresse suivante : <http://www5.statcan.gc.ca/cansim/a26?lang=fra&retrLang=fra&id= 2520051&tabMode=dataTable&srchLan=-1&p1=-1&p2=9#customizeTab>.) Cela ne constitue pas une approbation de ce produit par Statistique Canada.
a) De combien d’infractions au Code criminel a-t-on eu connaissance au Canada en 2014 ? b) Quelle proportion des crimes avec violence ont été commis par des jeunes ? c) Quelle proportion des adultes criminels au Canada en 2014 ont commis des crimes contre la propriété ? d) Quelle est, dans ce contexte, la variable dépendante ? e) Construisez un tableau de fréquences relatives en utilisant le total de chaque ligne du tableau. f) Sur l’ensemble des crimes commis dans la catégorie Autres crimes, combien devrait-on en trouver, théoriquement, qui ont été commis par des jeunes s’il n’y avait aucun lien entre le type d’infraction au Code criminel et le groupe d’âge ? g) Calculez le coefficient de Cramer et donnez-en une interprétation statistique.
236
Étape 3 • L’analyse des données
© 2016, Les Éditions CEC inc. • Reproduction interdite
On met en pratique 4. Les policiers qui enquêtent sur les circonstances des accidents d’automobiles ont souvent besoin
Sociologie
de connaître la vitesse du ou des véhicules en cause avant l’impact. Un des moyens pour estimer cette vitesse consiste à mesurer les traces de freinage. En effet, les spécialistes s’entendent pour dire qu’il y a un lien entre les deux variables. Voici les résultats d’une recherche menée sur de l’asphalte sec avec un échantillon de 12 automobilistes. Vitesse (km/h) Trace de freinage (m)
35
45
55
2,21
3,35
4,24
65
75
85
95
105
115
125
135
6,00
7,12
8,45
10,04
10,96
12,86
13,54
14,48
145 14,57
a) Situez graphiquement les 12 automobilistes dans un diagramme de dispersion. b) Calculez et interprétez statistiquement le coefficient de corrélation de Pearson. c) Déterminez la droite de régression qui constitue le modèle mathématique permettant de prédire la longueur de la trace de freinage à laquelle on peut s’attendre habituellement en fonction de la vitesse au moment du freinage. d) Peut-on affirmer que ce modèle mathématique donne des résultats assez près de la réalité ? Justifiez votre réponse. e) Un automobiliste impliqué dans un accident affirme qu’il roulait en dessous de la limite permise de 50 km/h au moment où il a commencé à freiner. Les policiers ont mesuré des traces de freinage de 4,36 m. Expliquez à partir du modèle mathématique si on peut considérer que l’automobiliste dit la vérité.
5. Des sociologues américains se sont penchés sur la perception que les gens ont des hommes
Psychologie Sociologie
de grande taille. Ils croient ainsi que les hommes grands sont mieux perçus par la société en général et qu’ils en tirent certains avantages. Ils ont étudié le revenu annuel d’un échantillon de 13 hommes de différentes tailles. Voici ce qu’ils ont obtenu. Taille (en m)
1,65
1,68
?
1,82
1,85
1,73
1,91
1,58
1,89
1,52
1,66
1,75
1,6
Salaire (en milliers de $)
55,4
56,1
64,2
81,0
75,9
64,3
?
29,2
46,8
35,9
42,4
90,3
38,4
a) Selon l’hypothèse des chercheurs, la corrélation serait-elle positive ou négative ? b) Sachant que la moyenne de revenu annuel de l’échantillon est de 60 469 $, calculez le revenu annuel du septième individu de l’échantillon. c) Sachant que la taille moyenne de l’échantillon est de 1,72 m, calculez la taille du troisième individu de l’échantillon. d) Calculez et interprétez statistiquement le coefficient de corrélation de Pearson. e) Déterminez le modèle mathématique permettant de prédire le revenu annuel d’un homme à partir de sa taille. f) Selon ce modèle mathématique, quelle serait la taille d’un joueur de hockey professionnel dont le revenu annuel est de 1,2 million de dollars ? Donnez la raison pour laquelle le résultat obtenu pour cette dernière question est insensé.
© 2016, Les Éditions CEC inc. • Reproduction interdite
Chapitre 8 • Décrire le lien entre variables
237
On met en pratique Psychologie
6. Les psychologues parlent de diffusion de responsabilité pour désigner le phénomène selon lequel un individu en présence d’une personne en difficulté sera plus tenté de lui porter secours s’il est l’unique témoin ou l’un des rares témoins que s’il est en présence d’une foule de témoins. Plusieurs simulations de vol d’un sac à main ont été effectuées pour démontrer ce principe. L’expérience a été répétée 42 fois devant un seul témoin et celui-ci a tenté de rattraper le voleur à 31 reprises. La victime a été aidée à 10 reprises sur les 34 expériences menées devant un groupe d’une dizaine de témoins et à 12 reprises sur les 62 expériences menées devant une foule de plus de 50 témoins. a) Quelles sont les deux variables en cause ? b) Construisez un tableau des fréquences observées. c) Dans quelle proportion des essais la victime a-t-elle été aidée ? d) Tracez un graphique à partir des fréquences observées.
Psychologie
7. Le gouvernement a commandé une étude pour évaluer l’effet sur le comportement des auto mobilistes du remplacement des gyrophares extérieurs des voitures de police des différents corps policiers québécois par des gyrophares intérieurs. Pour réaliser l’expérience, on a demandé à un policier à bord d’un véhicule muni de gyrophares extérieurs de se garer sur le bord d’une autoroute fréquentée et de mesurer la vitesse des 20 premières automobiles. Ensuite, au même endroit, les mesures de vitesse des 20 premières automobiles ont été effectuées à bord d’un véhicule ayant des gyrophares intérieurs. Voici le polygone de fréquences illustrant les deux situations. Répartition de 40 automobilistes selon leur vitesse et le type de voiture de police au moment de la mesure
Nombre d’automobilistes
8
Gyrophares extérieurs Gyrophares intérieurs
6 4 2 0
100
105
110
115
120
125
130
Vitesse (km/h)
a) À l’aide des données du graphique, interprétez statistiquement la différence qu’il y a entre les vitesses mesurées à partir des deux types de voitures de police. b) Calculez la vitesse moyenne enregistrée dans chaque cas. c) Calculez l’écart type de la vitesse enregistrée dans chaque cas. d) Quelle différence relative y a-t-il entre les deux moyennes ? e) Peut-on dire que la façon dont les résultats ont été traités indique une utilisation maximale de l’information contenue dans les mesures recueillies ?
238
Étape 3 • L’analyse des données
© 2016, Les Éditions CEC inc. • Reproduction interdite
On met en pratique 8. Le tableau ci-dessous rapporte la série chronologique concernant les taux de participation officiels aux élections générales fédérales canadiennes pour les treize élections qui se sont tenues au cours des quatre décennies qui ont précédé l’année 2010.
Histoire Sciences politiques
Taux de participation officiels aux élections générales fédérales canadiennes de 1972 à 2008 Année
1972 1974 1979 1980 1984 1988 1992 1993 1997 2000 2004 2006 2008
Taux de participation (%)
76,7
71,0
75,7 69,3
75,3
75,3
71,8
69,6
67,0
64,1
60,9
64,7
58,8
a) Tracez le chronogramme de cette série chronologique. b) Calculez et interprétez le coefficient de corrélation. c) Déterminez l’équation de la droite de tendance. d) En vous servant de cette équation, calculez le taux de participation auquel on aurait pu s’attendre lors de l’élection suivante, qui s’est tenue en 2011. e) Calculez et commentez brièvement la variation relative du taux de participation entre 1972 et 2008.
9. Le tableau suivant présente l’évolution du taux d’homicides enregistrés au Québec au cours
Sociologie
des 21 années ayant précédé 2014. Taux d’homicides enregistrés au Québec de 1993 à 2013 (par 100 000 habitants) Années
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
Taux d’homicides
2,19
2,06
2,01
2,14
1,96
1,85
1,77
1,78
1,78
1,86
1,74
Années
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
Taux d’homicides
1,95
2,06
1,86
1,81
1,84
1,81
1,63
1,74
1,56
1,44
Source : © Adapté de Statistique Canada (2015). « Enquête sur les homicides, nombre et taux (pour 100 000 habitants) de victimes d’homicide, Canada, provinces et territoires ». Tableau 253-0001 (Page consultée le 13 décembre 2015 à l’adresse suivante : <http://www5. statcan.gc.ca/cansim/a26>.) Cela ne constitue pas une approbation de ce produit par Statistique Canada.
a) Tracez le chronogramme correspondant au tableau. b) Commentez brièvement l’allure générale de la courbe. c)
Calculez la variation relative (en %) : • de 1993 à 1998, en prenant comme année de référence 1993 ; • de 1998 à 2003, en prenant comme année de référence 1998 ; • de 2003 à 2008, en prenant comme année de référence 2003 ; • de 2008 à 2013, en prenant comme année de référence 2008.
d) Tracez un chronogramme de la variation relative en fonction de chaque bloc de cinq années. e) Calculez la variation annuelle moyenne pour chacune des quatre périodes. f) Tracez un chronogramme du taux de variation annuel en fonction de chaque bloc de cinq années (utilisez le même type de graphique qu’en d). g) Comparez les chronogrammes tracés en d) et en f), puis commentez-les en les comparant avec l’évolution du taux d’homicides au Québec de 1993 à 2013 (5 à 10 lignes).
© 2016, Les Éditions CEC inc. • Reproduction interdite
Chapitre 8 • Décrire le lien entre variables
239
Méthodes quantitatives en sciences humaines UNE DÉMARCHE COMPLÈTE : UN CONTENU PRÉCIS ET DES EXERCICES PRATIQUES INTÉGRANT LE TABLEUR EXCEL® Cette 3e édition revue et corrigée de Méthodes quantitatives en sciences humaines propose une démarche d’apprentissage qui favorise la compréhension de l’analyse quantitative et des techniques statistiques dans des contextes signifiants en sciences humaines. Les concepts sont présentés au fur et à mesure des différentes étapes de la recherche, laquelle s’inscrit dans le cadre de la démarche scientifique permettant d’organiser le contenu du manuel en quatre parties : la construction de la problématique, la collecte des données, l’analyse des données et l’interprétation des résultats. Les notions, rédigées dans une langue claire et précise, sont mises en contexte à l’aide d’exemples types et rapidement appliquées au moyen d’exercices et d’activités de synthèse pour faciliter l’assimilation des concepts. À la fin des chapitres, une section En bref résume les principales notions abordées sous forme de tableaux récapitulatifs et une banque d’exercices aide à valider les connaissances ainsi qu’à consolider les apprentissages.
Les nouveautés de la 3e édition : • Plus de tableaux et de figures pour illustrer les notions et les concepts ; • Une plus grande variété d’exemples et d’exercices dans le contexte des sciences humaines ; • Des notions mathématiques complètes encore mieux vulgarisées ; • Des résumés clairs et efficaces ; • De nombreux problèmes mis en contexte à la fin de chaque chapitre ; • Des exercices avec tableurs Excel® intégrés ; • Une base de données réelles.
Détenteur d’un doctorat en psychologie, orientation expérimentale, Guy Parent a enseigné au collégial pendant 35 ans. Outre le cours d’initiation à la psychologie, ce sont principalement les cours de méthodologie Initiation pratique à la méthodologie des sciences humaines et Méthodes quantitatives en sciences humaines qu’il a donnés. Parue alors qu’il était encore enseignant, la 1re édition du manuel portant sur ce dernier cours lui a valu, en mai 2004, le Prix du ministre de l’Éducation.
VERSIONS NUMÉRIQUES ACCESSIBLES AVEC OU SANS CONNEXION INTERNET
La version de l’enseignant
La version de l’étudiant
• Pour l’animation en classe et la correction collective, la version numérique vous permet : – de projeter, d’annoter et de feuilleter le manuel en entier ; – de partager des notes et des documents avec vos étudiants ; – d’accéder au solutionnaire détaillé des exercices du manuel, chapitre par chapitre ; – d’accéder à tout le matériel complémentaire : - exercices avec tableurs Excel® accessibles au fil des pages, - tutoriels d’utilisation d’Excel®, - base de données de l’activité synthèse et pistes d’exploitation, - exercices supplémentaires, - sites Internet.
• La version numérique de l’étudiant lui permet : – de feuilleter et d’annoter chaque page ; – d’avoir accès aux tableurs Excel® des exercices du manuel et aux tutoriels d’utilisation d’Excel® ; – d’avoir accès à la base de données de l’activité synthèse ainsi qu’à la marche à suivre.
L’accès de six mois au manuel numérique est offert gratuitement aux étudiants et aux enseignants avec l’achat du manuel papier. L’accès d’un an à la version numérique uniquement est aussi offert pour achat en ligne au www.editionscec.com.