Analyse quantitative

Page 1

en sciences humaines Mélina bouffard Jean-philippe villeneuve Analyse quantitative

1 étape Définir un problème de recherche

1 / Choisir un sujet et une ou des questions de recherche

2 / Faire la recension de la documentation

3 / Poser une hypothèse ou fixer un objectif de recherche

4 / Opérationnaliser les concepts de l’hypothèse ou de l’objectif de recherche

2 étape Élaborer la méthodologie et collecter les données

1 / Choisir la méthode de collecte de données

2 / Construire l’instrument de collecte

3 / Sélectionner les unités statistiques

4 / Appliquer l’instrument de collecte

5 / Construire, héberger et nettoyer la base de données

6 / Présenter les données dans des tableaux ou des graphiques

3 étape Analyser les données et interpréter les résultats

1 / Choisir le type d’analyse quantitative

2 / Interpréter les résultats de l’analyse

Diffuser les résultats de la recherche

1 / Rédiger un contenu

2 / Choisir un moyen de diffusion

Les étapes et sous-étapes de la démarche scientifique appliquée à l’analyse quantitative1
étape
1 Le cours d’analyse quantitative n’est pas conçu de manière à aborder toutes les étapes et sous-étapes de la démarche scientifique.

Présentation de l’ouvrage

Au fil des chapitres, un contenu clair, accessible et pratique est présenté.

La rubrique Quanti-Pense amorce le chapitre par une situation qui expose concrètement une notion présentée dans le chapitre. À tort ou à raison, c’est l’angle de réflexion proposé par cette rubrique.

Des exemples accompagnent et complètent certaines explications.

À la fin de chaque chapitre, un résumé reprend les faits essentiels, et des questions de révision sont proposées.

Des rubriques présentent du contenu complémentaire.

Des figures et des tableaux facilitent la compréhension de la matière.

Des rubriques Pause exercice sont également proposées pour permettre l’application des connaissances acquises.

Les annexes offrent différentes ressources pour favoriser la compréhension de certains aspects abordés dans les chapitres.

III Présentation de l’ouvrage
Analyse quantitative en sciences humaines IV
Chapitre 1 LA QUANTIFICATION EN SCIENCES HUMAINES 1 1.1 L’émergence de la quantification en sciences humaines 2 1.2 La quantification et la démarche scientifique 5 1.3 Les différences entre l’analyse qualitative et l’analyse quantitative ............................... 10 1.4 Pourquoi choisir l’analyse quantitative ? ..... 12 1.5 L’éthique et l’analyse quantitative ............... 12 1.5.1 Les lois et politiques régissant les recherches en sciences humaines 13 1.5.2 Les enjeux éthiques 14 1.6 La pensée critique et les statistiques 15 EN Résumé 17 QUESTIONS 18 1 Définir un problème de recherche étape Chapitre 2 La définition d’un problème de recherche EN ANALYSE QUANTITATIVE 20 2.1 La population et les unités statistiques 21 2.2 Les variables 22 2.2.1 Les variables qualitatives .................. 23 2.2.2 Les variables quantitatives 24 2.2.3 Le choix d’un type de variable 26 2.3 Les échelles de mesure 27 2.3.1 L’échelle nominale 27 2.3.2 L’échelle ordinale 28 2.3.3 L’échelle d’intervalles ........................ 30 2.3.4 L’échelle de rapports 31 2.3.5 Le choix d’une échelle de mesure 32 2.4 Rendre les phénomènes humains mesurables 34 2.4.1 Le processus d’opérationnalisation des concepts 34 2.4.2 La formulation opérationnelle de l'hypothèse et de l'objectif de recherche ...................................... 37 EN Résumé 38 QUESTIONS 39 2 Élaborer la méthodologie et collecter les données étape Chapitre 3 LA COLLECTE DE DONNÉES 43 3.1 Les données primaires et secondaires 44 3.2 Les méthodes de collecte et leurs instruments 45 3.2.1 La distinction entre les méthodes de collecte 45 3.2.2 L'enquête par questionnaire 47 3.3 La sélection des unités statistiques 50 3.3.1 Le recensement 50 3.3.2 L’échantillonnage et la représentativité d'un échantillon 51 3.3.3 Les composantes d'un sondage 52 3.4 Les techniques d’échantillonnage 53 3.4.1 Les techniques d’échantillonnage aléatoire (probabiliste) 54 3.4.2 Les techniques d’échantillonnage non aléatoire (non probabiliste) 58 3.4.3 Le choix d’une technique d’échantillonnage 60 3.5 Les erreurs et les biais dans la construction des données quantitatives 62 3.5.1 Les principales erreurs 62 3.5.2 Les principaux biais 63 EN Résumé .............................................................. 64 QUESTIONS 64
Table des matières
V Table des matières Chapitre 4 LA PRÉSENTATION DES DONNÉES 70 4.1 La base de données 72 4.2 La présentation de données quantitatives 75 4.2.1 Le groupement de données et leur dénombrement .................................. 75 4.2.2 Le choix d’un tableau ou d’un graphique 76 4.2.3 Le tableau : normes de présentation et interprétation 76 4.2.4 Le graphique : normes de présentation et interprétation 78 4.3 Les données d’une variable qualitative groupées par modalités 79 4.3.1 Le tableau de distribution 79 4.3.2 Les graphiques d’une variable qualitative 83 4.4 Les données d’une variable quantitative groupées par valeurs 87 4.4.1 Le tableau de distribution .................. 87 4.4.2 Le diagramme à bâtons 89 4.5 Les données d’une variable quantitative groupées par classes 91 4.5.1 Le groupement des données par classes 91 4.5.2 Le tableau de distribution .................. 95 4.5.3 L’histogramme et le polygone de fréquences 98 4.6 Les données d’une distribution des fréquences relatives cumulées 102 4.6.1 Le tableau de distribution des fréquences relatives cumulées 102 4.6.2 Les graphiques des fréquences relatives cumulées ........................... 103 4.7 Les données d’une série chronologique ..... 105 4.8 Les graphiques pour illustrer simplement des millions de données 109 en Résumé 110 QUESTIONS 112 3 Analyser les données et interpréter les résultats étape Chapitre 5 LES INDICATEURS QUANTITATIFS ........................... 118 5.1 La construction d'indicateurs quantitatifs 120 5.1.1 Construire un indicateur fidèle et valide 120 5.1.2 Produire un nombre facile à utiliser 121 5.1.3 Les outils mathématiques 121 5.2 La proportion 122 5.3 Les taux 123 5.3.1 Les taux en économie ...................... 124 5.3.2 Les taux en démographie 126 5.3.3 Les taux dans d'autres disciplines ... 128 5.3.4 Les biais mathématiques 128 5.4 Les rapports 130 5.5 Les indices 131 5.5.1 Les indices élémentaires 131 5.5.2 Les indices synthétiques 134 EN Résumé ............................................................ 138 QUESTIONS 139 Chapitre 6 LES MESURES DE TENDANCE CENTRALE 145 6.1 Un aperçu des mesures de tendance centrale 147 6.2 Le mode 147 6.2.1 Le centre de concentration des données 147 6.2.2 La détermination et l’interprétation 148 6.2.3 Les distributions unimodales, bimodales et multimodales 151 6.3 La médiane 153 6.3.1 Le centre de position des données 153 6.3.2 La détermination et l’interprétation 154 6.3.3 L'étalement des données 161 6.4 La moyenne 162 6.4.1 Le centre d'équilibre des données 162 6.4.2 Le calcul et l’interprétation .............. 163 6.4.3 La sensibilité aux valeurs éloignées .......................................... 165 6.5 L'analyse des données avec une mesure de tendance centrale 166 6.5.1 Les types de distributions unimodales 166 6.5.2 Le choix de la mesure la plus appropriée 169 6.5.3 Les forces et les faiblesses 171 EN Résumé 172 QUESTIONS ............................................................. 172 Chapitre 7 LES MESURES DE DISPERSION 179 7.1 Un aperçu des mesures de dispersion 180 7.2 L’étendue 181 7.2.1 Le calcul et l’interprétation 181 7.2.2 L'analyse des données 182 7.3 L’écart type 183 7.3.1 Les écarts à la moyenne 184 7.3.2 Le calcul et l’interprétation ............. 184 7.3.3 L'analyse des données 188 7.4 Le coefficient de variation 189 7.4.1 La moyenne comme point de repère 189 7.4.2 Le calcul et l’interprétation 189 7.4.3 L'analyse des données 191 EN Résumé ............................................................ 193 QUESTIONS 194
Analyse quantitative en sciences humaines VI Chapitre 8 LES MESURES DE POSITION 197 8.1 Un aperçu des mesures de position 198 8.2 Les quantiles 199 8.2.1 Les groupes de données 199 8.2.2 La détermination et l’interprétation 200 8.2.3 L'analyse des données 204 8.3 Le rang 207 8.3.1 Du premier au dernier 207 8.3.2 La détermination et l’interprétation ................................. 207 8.3.3 L'analyse des données 210 8.4 La cote Z 211 8.4.1 L'axe des cotes Z 211 8.4.2 Le calcul et l’interprétation 212 8.4.3 L'analyse des données 213 8.5 La cote R, une mesure québécoise 214 8.5.1 Les deux indicateurs de la cote R .... 214 8.5.2 La CRC d'un cours 215 8.5.3 La CRC moyenne .............................. 216 EN Résumé 217 QUESTIONS 217 Chapitre 9 L’ANALYSE INFÉRENTIELLE 222 9.1 Un aperçu de l'analyse inférentielle 223 9.2 Le modèle normal 224 9.2.1 La modélisation d'une distribution normale 224 9.2.2 Les caractéristiques du modèle normal 226 9.2.3 Quelques calculs possibles 228 9.2.4 La notation alpha ............................. 233 9.3 L’estimation de paramètres par intervalle de confiance 234 9.3.1 Un aperçu de l'estimation de paramètres 234 9.3.2 Le théorème central limite 235 9.3.3 L’estimation d’une moyenne par intervalle de confiance 238 9.3.4 L’estimation d’un pourcentage par intervalle de confiance 242 9.3.5 Les intervalles de confiance : entre précision et confiance 249 9.4 Les tests d’hypothèses 251 9.4.1 Un aperçu des tests d'hypothèses 251 9.4.2 Le test d’hypothèse sur une moyenne 251 9.4.3 Le test d’hypothèse sur un pourcentage 258 9.4.4 Les deux types d'erreurs 264 EN Résumé ............................................................ 265 QUESTIONS ............................................................. 266 Chapitre 10 L’ANALYSE BIVARIÉE 271 10.1 Un aperçu de l'analyse bivariée 272 10.1.1 Le rôle des variables . 272 10.1.2 Les types de liens entre deux variables 273 10.1.3 Les outils statistiques .................. 275 10.2 Le lien entre une variable qualitative et une autre variable 275 10.2.1 La présentation de deux variables dans un tableau 276 10.2.2 La présentation de deux variables dans un graphique 280 10.2.3 Le test d'indépendance du khi-deux 280 10.3 Le lien entre deux variables quantitatives : corrélation et régression 287 10.3.1 Le nuage de points 287 10.3.2 Les corrélations linéaires et non linéaires 289 10.3.3 Le calcul et l'interprétation du coefficient de corrélation linéaire 289 10.3.4 La sensibilité du coefficient de corrélation linéaire 292 10.3.5 La droite de régression ................. 294 EN Résumé 297 QUESTIONS 298 Chapitre 11 PRODUIRE, RECEVOIR ET COMPRENDRE l'information quantitative 303 11.1 Retour sur la question de recherche 304 11.1.1 L'interprétation statistique et l'interprétation scientifique 304 11.1.2 L’hypothèse de recherche 305 11.1.3 L’objectif de recherche 306 11.2 Recevoir de l'information de nature quantitative 307 11.3 Les erreurs et les biais potentiels dans l'interprétation des données quantitatives 311 11.3.1 Les principales erreurs 311 11.3.2 Les principaux biais 312 EN Résumé ............................................................ 313 QUESTIONS 313 ANNEXES Annexe 1 Quelques notions mathématiques 317 La règle de trois 317 Le pourcentage 317 La moyenne pondérée 319 Les conventions dans l'arrondissement et les calculs 320 Les mesures de comparaison de deux nombres 320 Annexe 2 La table du modèle normal centré réduit 326 Annexe 3 La table des valeurs critiques du khi-deux 327 Annexe 4 Comment utiliser les fonctions statistiques d'une calculatrice 328 Annexe 5 Liste des symboles .......................... 332 Annexe 6 Le sondage 333 CORRIGÉ 347 GLOSSAIRE 372 Médiagraphie 378

chapitre

OBJECTIFS du chapitre

/ Utiliser de manière pertinente des données primaires ou secondaires

/ Utiliser de manière appropriée des mesures descriptives

/ Mettre en relation et interpréter avec justesse des données quantitatives dans différents contextes 1 2 3

Définir un problème de recherche

Les Mesures de tendance centrale

DE MANIÈRE CONCRÈTE, À LA FIN DE CE CHAPITRE, VOUS POURREZ

: distinguer le mode, la médiane et la moyenne ; déterminer et interpréter le mode avec des données groupées ou non ; déterminer si une distribution est unimodale, bimodale ou multimodale ; déterminer et interpréter la médiane avec des données groupées ou non ; calculer et interpréter la moyenne avec des données groupées ou non ; décrire les caractéristiques d’une distribution unimodale à l’aide des mesures de tendance centrale ; choisir la mesure de tendance centrale adéquate pour décrire une distribution.

Élaborer la méthodologie et collecter les données

Analyser les données et interpréter les résultats

Diffuser les résultats de la recherche

6
étape étape étape étape

/quantipense/

Fausse nouvelle sur la moyenne

L’administration du collège QP diffuse l’information suivante : « Ici, tous les cours obtiennent des moyennes qui passent.  Un ami vous dit : « Cool ! Je vais m’inscrire à ce collège… Tout le monde passe ses cours !  Votre ami a-t-il tort ou raison ?

• Il a raison si tous les cours ont des moyennes qui passent et que tous les élèves ont passé le cours. Cette situation est illustrée par les données du groupe A, où la moyenne passe le cours (elle est de 65 %) et que tous les élèves ont passé le cours.

• Il a tort si la moyenne d’un cours passe, mais que la majorité des élèves n’ont pas passé le cours. Cette situation est illustrée par les données du groupe B, où la moyenne passe le cours (elle est de 65 %), mais la majorité des élèves (60 %) n’ont pas passé le cours.

Groupe A

60, 60, 61, 62, 65, 65, 67, 70, 70, 70

Regardons de plus près…

Groupe B 39, 45, 50, 54, 55, 55, 70, 90, 95, 97

Contrairement à ce qu’on pense, la moyenne n’est pas une mesure associée à la majorité des unités statistiques. Il est donc possible que la moyenne d’une classe soit supérieure ou égale à 60 % et que la majorité n’ait pas passé le cours. Si on veut une mesure qui caractérise la majorité, il faut plutôt s’intéresser à la médiane. Pour poursuivre cette réflexion, allez à la page 160.

L’étape 3 de la démarche scientifique est d’analyser les données et d’interpréter les résultats de l’analyse. Vous devez donc :

Sous-étape 1 : Choisir le type d’analyse quantitative

Sous-étape 2 : Interpréter les résultats de l’analyse

L’analyse quantitative de données signifie d’effectuer des calculs sur les données afin d’en extraire des informations quantitatives importantes (l’unité statistique, la variable, le type de variable et le nombre d’unités statistiques) par rapport à la problématique. Encore une fois, on ne fait pas des calculs pour faire des calculs ; on fait des calculs pour produire de l’information pertinente sur la problématique, pour faire « parler » les données. L’analyse peut porter sur une variable (analyse univariée), sur un échantillon afin de tirer une conclusion sur la population (analyse inférentielle) ou sur deux variables (analyse bivariée). On reviendra sur l’analyse inférentielle et sur l’analyse bivariée aux chapitres 9 et 10.

L’analyse quantitative d’une variable (ou analyse univariée) s’effectue en calculant des mesures descriptives univariées. Le choix de la mesure dépend de votre question de recherche et de ce que vous voulez décrire.

Les mesures de tendance centrale comme le mode, la médiane et la moyenne permettent de sélectionner un représentant des données (chapitre 6).

Les mesures de dispersion comme l’étendue, l’écart type et le coefficient de variation permettent de déterminer si les données sont près les unes des autres ou si elles ne le sont pas (chapitre 7).

Les mesures de position comme le quantile, le rang et la cote Z permettent de situer les données les unes par rapport aux autres (chapitre 8).

146 Analyse quantitative en sciences humaines

Un aperçu des mesures de tendance centrale

Une mesure de tendance centrale permet de choisir une modalité d’une variable qualitative ou une valeur d’une variable quantitative pour qu’elle soit représentative de l’ensemble de toutes les données. Ainsi, l’objectif est de résumer toutes les données par une seule modalité ou une seule valeur qui devient en quelque sorte le centre de la distribution.

Il y a trois mesures de tendance centrale qui permettent de déterminer le centre d’une distribution de données.

1. Le mode représente la modalité ou la valeur qui a la plus grande fréquence. Il est le centre de concentration des données.

2. La médiane représente la modalité ou la valeur qui se trouve à la moitié des données ordonnées. Elle est la position centrale (ou le centre de position) des données.

3. La moyenne représente la valeur à attribuer à chaque unité statistique pour que la somme totale soit également répartie entre toutes les unités statistiques. Cette redistribution des valeurs permet notamment au graphique d’être en équilibre sur la moyenne et, par conséquent, la moyenne agit comme le centre d’équilibre des données.

Le mode

Le mode a les caractéristiques suivantes : il représente le centre de concentration, soit la modalité ou la valeur ayant la plus grande fréquence ; il est possible de le déterminer pour tous les types de variables ; il n’est pas nécessairement unique, c’est-à-dire qu’une distribution peut avoir plusieurs modes.

6.2.1 Le centre de concentration des données

Le mode permet de repérer le centre de concentration des données : une modalité ou une valeur à laquelle ou près de laquelle se concentrent beaucoup de données. Le graphique suivant donne les résultats d’un échantillonnage accidentel effectué à la cafétéria pendant le repas du midi.

Répartition en pourcentage des personnes interrogées selon le nombre de repas hebdomadaires pris à la cafétéria

147 3 Chapitre 6 LES Mesures de tendance centrale
6.1
6.2
Figure 6.1 / Illustration du centre de concentration
Source :
Pourcentage de personnes (%) Nombre de repas 70 60 50 40 30 20 10 0 0 1 2 3 4 5 Mode
Données fictives.

Dans la distribution de la figure 6.1, la majorité des personnes interrogées (60 %) ont déclaré manger 4 repas à la cafétéria par semaine. Cette valeur est donc le centre de concentration des données, parce qu’elle représente celle qui revient le plus souvent chez les personnes. Le mode sera donc « 4 repas » et la distribution sera appelée unimodale, parce qu’elle n’a qu’un mode.

6.2.2 La détermination et l’interprétation

Le mode représente la donnée la plus populaire, la donnée la plus « à la mode » et se note Mo. Il se détermine en repérant la donnée ayant la plus grande fréquence. La technique pour déterminer le mode est la même que les données proviennent d’une population ou d’un échantillon, mais il est suggéré d’utiliser des données groupées, parce qu’elles ont déjà été dénombrées.

Tableau 6.1 / Détermination du mode selon le type de données

TYPE DE DONNÉES

Non groupées Pour une question d’efficacité, il est suggéré de grouper les données pour déterminer le mode.

Groupées par modalités Le mode se détermine en repérant la modalité ayant la plus grande fréquence (absolue ou relative) dans le tableau de distribution ou dans son graphique.

Groupées par valeurs Le mode se détermine en repérant la valeur ayant la plus grande fréquence (absolue ou relative) dans le tableau de distribution ou dans son graphique.

Groupées par classes Le mode est inclus dans la classe modale qui se détermine en repérant la classe ayant la plus grande fréquence (absolue ou relative) dans le tableau de distribution ou dans l’histogramme. Le mode peut être choisi comme le milieu de la classe modale ou comme le point le plus élevé sur un polygone de fréquences.

Il est à noter que le groupement des données par classes permet de faire apparaître le mode sous la forme d’une classe modale, autrement il n’y aura probablement pas de mode. En effet, comme les données d’un groupement par classes sont en général toutes différentes, il est fort possible qu’aucune d’elles ne se distinguerait des autres par sa fréquence, ce qui n’est pas le cas des classes.

Le tableau de distribution suivant présente les données d’un groupe d’étudiants selon qu’ils ont occupé ou non un emploi durant l’été.

Répartition des étudiants selon qu’ils ont occupé ou non un emploi d’été

Source : Données fictives. La modalité ayant le plus haut pourcentage dans le tableau est « Oui  . Le mode est donc cette modalité et on peut le noter Mo = Oui.

148 Analyse quantitative en sciences humaines
TECHNIQUE POUR DÉTERMINER
LE MODE
Exem ple
EMPLOI D’ÉTÉ NOMBRE D’ÉTUDIANTS POURCENTAGE D’ÉTUDIANTS (%) Oui 20 55,6 Non 16 44,4 Total 36 100,0

Dans l’exemple précédent, le mode n’est pas 55,6 %, mais la modalité « Oui ». En fait, on utilise l’effectif ou le pourcentage pour déterminer le mode, mais le mode n’est pas l’effectif, ni le pourcentage. Il est la modalité, la valeur ou la classe dont l’effectif ou le pourcentage est le plus élevé.

Pour des données groupées par modalités ou par valeurs, le mode s’interprète selon sa fréquence.

Si la fréquence relative (exprimée en pourcentage) du mode est plus grande que 50 %, alors le mode s’interprète ainsi : La majorité [des unités statistiques] ont [le mode].

Si la fréquence relative (exprimée en pourcentage) du mode est plus petite ou égale à 50 %, alors le mode s’interprète ainsi : Une pluralité [des unités statistiques] ont [le mode].

Pour des données groupées par classes, la classe modale (et son mode, s’il y a lieu) s’interprète selon sa fréquence.

Si la fréquence relative (exprimée en pourcentage) de la classe modale est plus grande que 50 %, alors :

•l’interprétation de la classe modale est : La majorité [des unités statistiques] sont [dans la classe modale] ;

•l’interprétation du mode est : La majorité [des unités statistiques] sont autour [du mode].

Si la fréquence relative (exprimée en pourcentage) de la classe modale est plus petite ou égale à 50 %, alors :

•l’interprétation de la classe modale est : Une pluralité [des unités statistiques] sont [dans la classe modale] ;

•l’interprétation du mode est : Une pluralité [des unités statistiques] sont autour [du mode].

Le mode de l’exemple sur l’occupation d’un emploi d’été s’interprète ainsi : La majorité des étudiants (55,6 %) du groupe ont occupé un emploi d’été.

Dans ce manuel, il est sous-entendu que la majorité est une majorité absolue et que la pluralité est une majorité simple. Rappelons que :

la majorité absolue représente plus de 50 % des unités statistiques, aussi décrite comme 50 % des unités statistiques + 1 ;

la majorité simple représente 50 % et moins des unités statistiques. Dans ce cas, on parle plutôt de pluralité.

Pourquoi distinguer la majorité de la pluralité dans l’interprétation du mode ?

Parce qu’on cherche une donnée qui est la plus représentative des données et cette distinction est importante.

Si le mode est majoritaire, alors la majorité des données est concentrée au mode et le mode résume bien la tendance centrale des données.

Si le mode n’est pas majoritaire, alors le mode est une pluralité et il est possible :

•d’avoir plusieurs modes, et donc plusieurs centres de concentration (voir la section 6.2.3) ;

•que le mode ne représente pas la tendance centrale des données (voir la section 6.5.2) ;

•de faire des groupements de modalités, de valeurs ou de classes afin de rendre le mode très minoritaire (illustré dans le prochain exemple).

149 Chapitre 6 LES Mesures de tendance centrale 3

Une municipalité veut aménager une piste cyclable dans un nouveau quartier résidentiel. Elle a convenu de trois tracés différents. Elle décide de sonder deux groupes de personnes.

Dans le groupe A, le mode est le tracé 3 et il représente la majorité des personnes (75,0 %). Le centre de la distribution est le tracé 3 et la concentration des données y est très forte. Le consensus sur le tracé 3 représente très bien l’opinion des personnes.

Répartition en pourcentage des personnes du Groupe A selon leur opinion

Source : Données fictives.

Dans le groupe B, le mode demeure le tracé 3, mais il ne représente qu’une pluralité (37,0 %) des personnes. Ainsi, la concentration des données est faible au mode de sorte que si les personnes du tracé 1 s’unissent à celles du tracé 2, elles l’emporteront sur celles du tracé 3. Ceci n’était pas possible pour les personnes du groupe A. Le tracé 3 représente quand même la tendance centrale, mais cette tendance est très faible.

Répartition en pourcentage des personnes du Groupe B selon leur opinion

Données fictives.

150 Analyse quantitative en sciences humaines
Exem ple
Pourcentage de personnes (%) Opinion 80 60 40 20 0 Tracé 1 Tracé 2 Tracé 3 Indécis 10,0 10,0 75,0 5,0 Opinion Tracé 1 Tracé 2 Tracé 3 Indécis 30,0 28,0 37,0 5,0 Pourcentage de personnes (%) 80 60 40 20 0
Source :

1. En 1666, Jean Talon a été le premier surintendant à faire le recensement de la population d’ascendance européenne en Nouvelle-France. Les variables ont été l’âge, le type d’emploi, le statut matrimonial, le nombre de personnes par famille et le lieu de résidence. Répartition des habitants d’ascendance européenne selon le lieu d’habitation, Nouvelle-France, 1666

Source : Statistique Canada. Recensement de 1665-1666 Nouvelle-France, Tableau I - Ménages, Population, Sexes, État de Mariage. [https://web.archive.org/web/20130517210756/http://statcan.gc.ca/kits-trousses/jt1-fra.htm]

(Page consultée le 8 mars 2023).

a) Relevez les informations quantitatives importantes.

b) Quel est le mode ? Interprétez-le.

6.2.3 Les distributions unimodales, bimodales et multimodales

Le mode est la seule mesure de tendance centrale qui n’est pas nécessairement unique dans une distribution de données. En effet, comme le mode représente un centre de concentration de données dans une distribution, il est possible qu’il y en ait un, deux ou plus de deux ou bien qu’il n’y en ait aucun (c’est le cas lorsque toutes les modalités, valeurs ou classes ont sensiblement la même fréquence). Ainsi, une distribution est : une distribution unimodale si elle a un seul mode ; une distribution bimodale si elle a deux modes ; une distribution multimodale si elle a plus de deux modes.

Il est à noter que dans une distribution bimodale ou multimodale, il est possible que les modes n’aient pas exactement la même fréquence, mais des fréquences similaires qui se démarquent nettement des autres fréquences, comme le montre l’exemple de la page suivante.

151 Chapitre 6 LES Mesures de tendance centrale 3
Pause exercice
LIEU NOMBRE D’HABITANTS
EUROPÉENNE
D’ASCENDANCE
D’ASCENDANCE EUROPÉENNE (%) Québec et ses environs 2 135 66,4 Trois-Rivières et ses environs 455 14,2 Montréal et ses environs 625 19,4 Total 3 215 100,0
POURCENTAGE D’HABITANTS

Voici la distribution des employés d’une usine selon leur salaire annuel de 2022.

Répartition en pourcentage des employés d’une usine selon le salaire

Source : Données fictives.

Les classes salariales [0, 20[, [20, 40[ et [80, 100[ ont des fréquences similaires (22 %, 22 % et 23 %) qui se distinguent nettement des autres. Même si deux de ces classes sont collées, elles constituent quand même deux classes modales distinctes. La distribution a donc 3 modes ; elle est multimodale.

Une distribution ayant plusieurs modes illustre généralement la présence de sous-groupes concentrés autour des modes. Il est alors suggéré de faire une étude plus exhaustive pour préciser les caractéristiques de ces sous-groupes.

Différents facteurs influencent la présence de plusieurs modes et en les repérant, on peut réussir à diviser la distribution en sous-groupes. Dans l’exemple de la distribution multimodale des salaires, le fait d’occuper un emploi à temps partiel ou à temps complet a un impact sur le salaire annuel. Il faut donc séparer les employés selon qu’ils sont à temps partiel ou à temps plein. Ce faisant, on obtient deux distributions unimodales.

Répartition en pourcentage des employés à temps partiel d’une usine selon le salaire

Source : Données fictives.

152 Analyse quantitative en sciences humaines
Exem ple
Exem ple
Pourcentage d’employés (%) Salaire (en milliers de dollars) 25 20 15 10 5 0 0 20 40 60 80 100 120 140 12,0 8,0 23,0 10,0 3,0 22,0 22,0 Pourcentage d’employés (%) Salaire (en milliers de dollars) 50 40 30 20 10 0 0 20 40 60 80 100 120 140 15,0 0,0 0,0 0,0 0,0 45,0 40,0

Répartition en pourcentage des employés à temps complet d’une usine selon le salaire

0 20 40 60 80 100 120 140 15,0 45,0 5,0 0,0 3,0 20,0 12,0 Pourcentage d’employés (%) 50 40 30 20 10 0

Source : Données fictives.

6.3

Salaire

La médiane

La médiane a les caractéristiques suivantes : elle représente le centre de position, soit la modalité ou la valeur située à la moitié des données ordonnées ; elle se détermine à partir de données qui doivent être ordonnées, comme les données d’une variable qualitative ordinale ou d’une variable quantitative (discrète ou continue) ; elle ne peut donc pas être déterminée dans une série de données provenant d’une variable qualitative nominale, car il n’est pas possible de les ordonner ; elle est utile lorsque la distribution est unimodale et fortement étalée.

6.3.1 Le centre de position des données

La médiane permet de déterminer la position centrale (aussi appelée centre de position) des données, soit la modalité ou la valeur qui est située à la moitié des données ordonnées . On peut dire que la médiane est ce qui coupe la série statistique en deux parties égales. Si l’on veut trouver la médiane de la variable du temps pris pour se rendre au cégep pour un groupe de neuf personnes, on peut la représenter de la manière suivante.

Temps pour se rendre au cégep (en minutes) Médiane

153 Chapitre 6 LES Mesures de tendance centrale 3
Source : Données fictives. 0 10 20 30 40 50 60 4 données 4 données
Figure 6.2 / Illustration du centre de position
(en milliers de dollars)

La médiane est la donnée située à la position 5, car il y a 4 données inférieures et 4 données supérieures. On voit que la médiane coupe la série en deux groupes de même taille, mais ces groupes ne représentent pas exactement 50 % des données. Comme on interprète généralement la médiane avec « inférieure ou égale », on a tendance à ajouter la médiane au calcul du pourcentage. Ainsi, 5 données sur 9 sont inférieures ou égales à la médiane, ce qui représente 55,6 % des données.

6.3.2 La détermination et l’interprétation

La médiane représente ce qui coupe les données en deux parties égales et se note Md (ou Me, chez certains auteurs). Elle se détermine en ordonnant les données, puis en choisissant la modalité ou la valeur selon qu’il y a une position centrale (nombre impair de données) ou deux positions centrales (nombre pair de données)1.

La technique pour déterminer la médiane est la même qu’il s’agisse de données provenant d’une population ou d’un échantillon. On a choisi d’adopter une approche qui diffère légèrement selon que les données sont non groupées ou groupées.

Si les données sont non groupées, on utilise le nombre de données qui correspond à la taille de la population (N) ou à la taille de l’échantillon (n). Comme les formules sont les mêmes, on utilisera N Si les données sont groupées, on peut utiliser le nombre de données, mais on a choisi d’utiliser le pourcentage pour éviter de distinguer les séries impaires des séries paires. Dans ce cas, il faut regarder si le pourcentage cumulé du tableau des fréquences relatives cumulées atteint 50 % ou le dépasse. Cependant, il n’est pas nécessaire de faire le tableau des fréquences relatives cumulées pour trouver ce pourcentage cumulé, car on peut le trouver en additionnant les pourcentages dans le tableau de distribution ou sur son graphique.

Tableau 6.2 / Détermination de la médiane selon le type de données

Modalités non groupées

La médiane se détermine en ordonnant les données par ordre croissant, puis en sélectionnant la modalité selon le nombre N de données.

Si N est impair, la médiane est la modalité située à la position (N + 1) 2

Si N est pair, la médiane est la modalité située à la position N 2

Valeurs non groupées

La médiane se détermine en ordonnant les données en ordre croissant, puis en sélectionnant la valeur selon la parité des N données.

Si N est impair, la médiane est la valeur située à la position (N + 1) 2  .

Si N est pair, la médiane est la demi-somme des valeurs situées aux positions N 2 et N 2 + 1

Groupées par modalités

La médiane est la première modalité pour laquelle le cumul des pourcentages atteint exactement 50 % ou le dépasse.

1 Le cas (plutôt rare) où les données sont paires et les deux positions centrales sont différentes est problématique, car il faut en choisir une pour que la médiane joue son rôle de couper les données en deux parties égales. Dans ce manuel, il a été convenu de choisir la modalité la plus basse pour les valeurs qualitatives ordinales et la valeur qui est la demi-somme entre les deux valeurs centrales pour les variables quantitatives (discrètes ou continues).

154 Analyse quantitative en sciences humaines
TYPE DE DONNÉES TECHNIQUE POUR DÉTERMINER LA MÉDIANE

TYPE DE DONNÉES TECHNIQUE POUR DÉTERMINER LA MÉDIANE

Groupées par valeurs

Le choix de la médiane dépend du cumul des pourcentages, s’il atteint exactement 50 % ou s’il le dépasse.

Si le cumul des pourcentages donne exactement 50 %, la médiane est la demi-somme entre la valeur où le 50 % est atteint et la valeur suivante.

Si le cumul des pourcentages dépasse 50 %, la médiane est la première valeur où le 50 % est dépassé.

Groupées par classes

La médiane se détermine par la méthode numérique ou par la méthode graphique.

Méthode numérique : La classe médiane est la première classe où le cumul des pourcentages atteint ou dépasse 50 %. La médiane se situe dans la classe médiane et se calcule ainsi :

Md ≈ Binférieure + 50 − PCclasse précédente Pclasse × A

Binférieure : Borne inférieure de la classe du quantile

PCclasse précédente : Pourcentage cumulé de la classe précédente

Pclasse : Pourcentage de la classe médiane

A : Amplitude de la classe du quantile

Méthode graphique : Sur l’ogive, la médiane est la valeur sur l’axe des valeurs (axe horizontal) qui correspond à 50,0 sur l’axe des pourcentages cumulés (axe vertical).

Le contexte suivant servira à déterminer la médiane avec des valeurs non groupées.

Voici la série statistique de la variable nombre de médecins par 1 000 habitants pour les 7 pays du G7. Série statistique du nombre de médecins par 1 000 habitants

Source : The World Bank. Physicians (per 1,000 people). [https://data.worldbank.org/indicator/SH.MED.PHYS.ZS] (Page consultée le 7 mars 2023).

Les données sont des valeurs non groupées dont le nombre est impair (N = 7). Il faut donc les ordonner, puis sélectionner la valeur située à la position 4 : 7 + 1 2 = 8 2 = 4

Voici la série ordonnée :

Donc, Md = 3,0 médecins par 1 000 habitants

Dans ce contexte, la médiane coupe la série statistique en deux parties égales, car il y a 3 pays qui ont un nombre de médecins par 1 000 habitants inférieur à la médiane et 3 pays qui ont un nombre de médecins par 1 000 habitants supérieur à la médiane. L’interprétation de cette médiane est présentée à la page 158.

155 Chapitre 6 LES Mesures de tendance centrale 3
PAYS NOMBRE DE MÉDECINS PAR 1 000 HABITANTS Allemagne 4,4 Canada 2,4 États-Unis 2,6 France 3,3 PAYS NOMBRE DE MÉDECINS PAR 1 000 HABITANTS Italie 3,9 Japon 2,5 Royaume-Uni 3,0
2,4 2,5 2,6 3,0 3,3 3,9 4,4

Le contexte suivant servira à déterminer la médiane avec des données groupées par modalités. Ce tableau présente la distribution de la variable taille de l’entreprise parmi les travailleurs du Québec en août 2022.

Répartition des travailleurs selon la taille de l’entreprise, Québec, août 2022

TAILLE

Le cumul des pourcentages est 27,3 + 32,9 = 60,2.

Note : En raison de l’arrondissement des pourcentages, le total n’est pas exactement de 100,0 %.

Source : Statistique Canada. Emploi selon la taille d’établissement, données mensuelles non désaisonnalisées (× 1 000) (No 14-10-0067-01). [https://www150.statcan.gc.ca/t1/tbl1/fr/tv.action?pid=1410006701] (Page consultée le 17 septembre 2022).

Les données sont groupées par modalités. Il faut donc additionner les pourcentages et choisir la modalité pour laquelle le cumul des pourcentages atteint exactement 50,0 % ou le dépasse. La médiane est la deuxième modalité, parce qu’elle représente 27,3 + 32,9 = 60,2 %. Donc, Md = Entreprise de moyenne taille (20 à 99 employés)

Dans ce contexte, comme il y a beaucoup d’unités statistiques qui ont la modalité médiane (32,9 % des travailleurs pour être exact), la médiane ne coupe pas les unités statistiques en deux groupes de taille égale. En effet, il y a 60,2 % des travailleurs qui prennent la médiane ou une modalité inférieure et 72,8 % des travailleurs qui prennent la médiane ou une modalité supérieure (l’interprétation de la médiane dans ce contexte est présentée à la page 158). C’est pourquoi il faudra interpréter la médiane en parlant non pas de 50 % des données, mais d’« au moins 50 % des données ».

156 Analyse quantitative en sciences humaines
DE
DE TRAVAILLEURS (EN MILLIERS) POURCENTAGE DE TRAVAILLEURS (%) Entreprise de petite taille (moins de 20 employés) 1 066,9 27,3 Entreprise de moyenne taille (20 à 99 employés) 1 286,1 32,9 Entreprise de grande taille (100 à 500 employés) 798,2 20,4 Entreprise de très grande taille (plus de 500 employés) 762,4 19,5 Total 3 913,6 100,0
L’ENTREPRISE NOMBRE

Le contexte suivant servira à déterminer la médiane avec des valeurs groupées par classes selon la méthode numérique et la méthode graphique.

Ce tableau des fréquences relatives cumulées donne l’âge des habitants du Canada en 2020. Répartition cumulée des habitants selon l’âge, Canada, 2020

Le cumul des pourcentages dépasse 50 %.

Source : Statistique Canada. Estimations de la population au 1er juillet, par âge et sexe (No 17-10-0005-01). [https://www150.statcan.gc.ca/t1/tbl1/fr/tv.action?pid=1710000501] (Page consultée le 17 mars 2023).

A / La Méthode numérique

La classe médiane est [40, 50[ parce qu’elle est la première classe où le cumul des pourcentages atteint ou dépasse 50,0 %.

Md ≈ Binférieure + 50 – PCclasse précédente Pclasse × A

≈ 40 + 50 – 48,8 12,8 × 10

≈ 40,9 ans

L’interprétation de la médiane dans ce contexte est présentée à la page 158.

Binférieure = 40 ans

PCclasse précédente = 48,8 %

Pclasse = 12,8 %

A = 10 ans

La méthode numérique produit une approximation plus précise que la méthode graphique, car elle permet d’ajouter des décimales.

157 Chapitre 6 LES Mesures de tendance centrale 3
ÂGE (ANNÉES) NOMBRE D’HABITANTS POURCENTAGE D’HABITANTS (%) POURCENTAGE CUMULÉ D’HABITANTS (%) [0, 10[ 3 965 077 10,4 10,4 [10, 20[ 4 174 081 11,0 21,4 [20, 30[ 5 124 309 13,5 34,9 [30, 40[ 5 290 075 13,9 48,8 [40, 50[ 4 853 389 12,8 61,6 [50, 60[ 5 195 620 13,7 75,3 [60, 70[ 4 727 430 12,4 87,7 [70, 80[ 3 007 467 7,9 95,6 [80, 90[ 1 332 684 3,5 99,1 90 et plus 337 034 0,9 100,0 Total 38 007 166 100,0

B / La méthode graphique

Il faut commencer par tracer l’ogive, puis suivre les trois étapes.

Étape 1 : Sur l’axe des y, tracer une droite horizontale à partir du 50 % et jusqu’à l’ogive.

Étape 2 : Au croisement de cette droite et de l’ogive, tracer une droite verticale jusqu’à l’axe des x.

Étape 3 : La médiane est la valeur approximative où cette droite coupe l’axe des x

Figure 6.3 / Utilisation de l'ogive pour déterminer graphiquement une médiane

Répartition cumulée des habitants selon l’âge, Canada, 2020

La médiane est donc environ 41 ans : Md ≈ 41 ans.

La médiane s’interprète très bien lorsque la variable est quantitative et qu’elle prend beaucoup de valeurs différentes (groupement par classes ). En effet, la médiane coupe la série statistique en deux groupes sensiblement de même taille. En général, on interprète la médiane vers le bas : Environ 50 % [des unités statistiques] ont [la médiane] ou moins. La médiane du contexte sur la répartition des habitants du Canada selon l’âge s’interprète ainsi : Environ 50 % des habitants du Canada sont âgés de 40,9 ans ou moins. Toutefois, il y a des situations où les valeurs élevées sont plus importantes que les valeurs faibles et on préférera interpréter la médiane vers le haut : Environ 50 % [des unités statistiques] ont [la médiane] ou plus. C’est le cas de l’explication de la rubrique Quanti-Pense (voir la page 146).

Si la variable est qualitative ordinale ou quantitative prenant peu de valeurs différentes (groupement par modalités ou par valeurs), alors la médiane s’interprète ainsi : Au moins 50 % [des unités statistiques] ont [la médiane] ou moins. Il est suggéré de remplacer « [la médiane] ou moins » en nommant les modalités ou les valeurs lorsqu’elles sont peu nombreuses.

La médiane du contexte sur le nombre de médecins par 1 000 habitants pour les 7 pays du G7 s’interprète ainsi : Au moins 50 % des pays du G7 ont 3,0 médecins par 1 000 habitants ou moins.

La médiane du contexte sur la répartition des travailleurs québécois selon la taille de l’entreprise s’interprète ainsi : Au moins 50 % des travailleurs du Québec occupent un emploi dans une entreprise de petite taille ou de moyenne taille.

158 Analyse quantitative en sciences humaines
Pourcentage cumulé d’habitants (%) Âge (années) 100 90 80 70 60 50 40 30 20 10 0 0 10 20 30 40 50 60 70 80 90 100
Étape 2 Étape 3
Étape 1

Il faut cependant faire très attention dans l’interprétation de la médiane pour les groupements par modalités ou par valeurs, surtout si la médiane ne représente pas la tendance centrale. En effet, si on applique la phrase « Au moins 50 % [des unités statistiques] ont [la médiane] ou moins » sans réfléchir, elle peut produire une évidence ou bien créer un biais d’ancrage (voir le chapitre 3, à la page 63).

Si la médiane est la modalité ou la valeur la plus haute, alors l’intervalle « la médiane ou moins » couvre tous les cas et le « au moins 50 % » devient 100 %. L’interprétation produit donc une évidence. Ce cas survient uniquement lorsque le mode est majoritaire et situé à la modalité ou à la valeur la plus haute. Il est suggéré de ne pas interpréter la médiane et de choisir le mode comme mesure de tendance centrale (voir la figure 6.4).

Répartition en pourcentage des citoyens selon leur niveau de confiance

Source : Données fictives.

Si beaucoup de données sont égales à la médiane, alors le pourcentage exact peut être très loin du 50 % et l’interprétation de la médiane avec « au moins 50 % » crée un contexte susceptible d’activer le biais d’ancrage. En effet, le 50 % agit comme une ancre et on peut être porté à croire que le pourcentage réel est près de l’ancre. En général, ce cas survient quand la médiane est égale au mode. Il est donc suggéré de ne pas interpréter la médiane et de choisir le mode comme mesure de tendance centrale (voir la figure 6.5).

Répartition en pourcentage des citoyens

159 Chapitre 6 LES Mesures de tendance centrale 3
Figure 6.4 / Distribution unimodale étalée vers la gauche (avec mode majoritaire) Figure 6.5 / Distribution unimodale non étalée (avec mode majoritaire) selon leur niveau de confiance
Pourcentage de citoyens (%) Niveau de confiance 60 50 40 30 20 10 0 Nul Faible Moyen Fort Absolu 5,0 5,0 10,0 25,0 55,0 Pourcentage de citoyens (%) Niveau de confiance 80 70 60 50 40 30 20 10 0 Nul Faible Moyen Fort Absolu 10,0 5,0 5,0 5,0 75,0
Source : Données fictives.

2. Le tableau suivant présente la distribution des fréquences relatives cumulées de la variable âge parmi les habitants du Canada en 2000. C’est donc 20 ans avant le tableau de la page 157. Répartition cumulée des habitants selon l’âge, Canada, 2000

/quantipense/

Note : Les données des habitants âgés de 90 ans et plus ne sont pas disponibles.

Source : Statistique Canada. Estimations de la population au 1er juillet, par âge et sexe (No 17-10-0005-01).

[https://www150.statcan.gc.ca/t1/tbl1/fr/tv.action?pid=1710000501] (Page consultée le 2 mars 2023).

a) Estimez la médiane avec la méthode numérique.

b) Estimez la médiane avec la méthode graphique (avec l’ogive).

c) Comparez votre résultat avec l’âge médian de 2020.

La rubrique Quanti-Pense illustre bien la situation où la médiane est une mesure plus appropriée que devrait prendre en considération le futur étudiant. Vous avez pu constater que la moyenne ne donnait pas d’information sur la majorité des étudiants. Autrement dit, si la moyenne d’un cours est supérieure ou égale à 60 %, on ne peut pas conclure que la majorité des étudiants ont passé le cours. Par contre, si la médiane d’un cours est supérieure ou égale à 60 %, on peut conclure que la majorité des étudiants ont passé le cours puisqu’au moins 50 % des étudiants ont eu un résultat égal ou supérieur à la médiane. Illustrons-le avec les données suivantes, où la médiane est de 70 %.

Groupe C

160 Analyse quantitative en sciences humaines
Pause exercice
ÂGE
NOMBRE D’HABITANTS POURCENTAGE D’HABITANTS (%) POURCENTAGE CUMULÉ D’HABITANTS (%) [0, 10[ 3 827 648 12,5 [10, 20[ 4 151 752 13,6 [20, 30[ 4 142 589 13,6 [30, 40[ 4 942 224 16,2 [40, 50[ 4 916 363 16,1 [50, 60[ 3 600 687 11,8 [60, 70[ 2 395 189 7,8 [70, 80[ 1 809 938 5,9 [80, 90[ 770 795 2,5 Total 30 557 185 100,0
(ANNÉES)
0 10 20 30 40 50 60 70 80 90 100 Majorité Md
Note (%)

Pour le groupe C, c’est l’interprétation de la médiane avec sa partie supérieure qui est intéressante parce qu’elle permet de justifier que la majorité des étudiants ont eu une note supérieure ou égale à la médiane.

Maintenant, si la médiane du cours est strictement inférieure à 60 %, peut-on conclure que la majorité des étudiants ont échoué à leur cours ? Oui, parce qu’au moins 50 % des étudiants ont eu un résultat égal ou inférieur à la médiane. C’est le cas illustré ci-dessous où la médiane est de 54%.

Groupe D

Donc, si la médiane du cours est supérieure ou égale à 60 %, alors tout le monde a-t-il passé le cours ? Pas nécessairement… avez-vous passé le cours ? Pas nécessairement… la majorité a-t-elle passé le cours ? Assurément !

6.3.3 L’étalement des données

La médiane est très intéressante pour décrire la tendance centrale d’une distribution unimodale fortement étalée, soit une distribution dont beaucoup d’unités statistiques prennent quelques valeurs ou modalités près les unes des autres et peu d’unités statistiques prennent d’autres valeurs ou modalités éloignées des premières. On présentera une définition plus précise à la section 6.5.1 pour les variables quantitatives. En attendant, intéressons-nous aux variables qualitatives ordinales (les variables qualitatives nominales n’ont pas de médiane).

Pour déterminer la tendance centrale d’une variable qualitative ordinale, il faut choisir entre le mode et la médiane, car cette variable n’a pas de moyenne. On choisit la médiane uniquement si la distribution est unimodale et que la médiane est située plus au milieu des données que le mode. Ceci apparaît généralement lorsque les données sont étalées et que la médiane est différente du mode (voir la figure 6.6, où le mode est « absolu » et la médiane est « fort »). Notons que si la médiane est différente du mode, le mode représente nécessairement une pluralité, car un mode majoritaire est toujours égal à la médiane.

161 Chapitre 6 LES Mesures de tendance centrale 3
Note (%) 0 10 20 30 40 50 60 70 80 90 100 Majorité Md
Répartition en pourcentage des citoyens selon leur niveau de confiance Source : Données fictives. Pourcentage de citoyens (%) Niveau de confiance 50 40 30 20 10 0 Nul Faible Moyen Fort Absolu 5,0 10,0 15,0 30,0 40,0
Figure 6.6 / Distribution unimodale étalée dont le mode est différent de la médiane

La moyenne

La moyenne a les caractéristiques suivantes : elle représente la valeur à attribuer à chaque unité statistique pour que la somme totale soit également répartie entre toutes les unités statistiques. Cette redistribution des valeurs permet au graphique d’être en équilibre sur la moyenne et, par conséquent, la moyenne agit comme le centre d’équilibre des données ; elle se calcule uniquement pour les variables quantitatives (discrètes ou continues), parce qu’il faut que la somme des valeurs ait un sens ; elle est la seule mesure de tendance centrale sensible aux valeurs éloignées et extrêmes.

6.4.1 Le centre d’équilibre des données

La moyenne permet de déterminer le centre d’équilibre des données, soit la valeur qui permet de tenir les unités statistiques en équilibre sur un graphique. La recherche d’équilibre est représentée dans l’illustration suivante qui présente les notes d’un échantillon de 5 étudiants : Alex : 51, Bianca : 62, Claudia : 76, Dimitri : 82, Émile : 89.

/ Illustration du centre d’équilibre

Si on met le doigt ici, le graphique sera alors en équilibre (les billes ne tomberont pas).

Le graphique est en équilibre sur la moyenne parce que les données supérieures à la moyenne sont contrebalancées par les données inférieures à la moyenne. Pour trouver la valeur exacte, il faut trouver le nombre de points à enlever aux notes les plus élevées pour les donner aux notes les moins élevées afin que tous aient la même note. Une option serait la suivante.

Ainsi, les 5 étudiants auraient chacun 72 points.

Au lieu de jouer à trouver l’équilibre sur un graphique avec son doigt ou à trouver les valeurs à enlever aux plus élevées pour les donner aux moins élevées, il est plus simple de calculer la moyenne en additionnant toutes les notes et en divisant le total par le nombre d’étudiants.

Moyenne = 51 + 62 + 76 + 82 + 89

= 360 5 = 72

162 Analyse quantitative en sciences humaines
6.4 Note 50 55 60 65 70 75 80 85 90
Figure 6.7
Alex Bianca Claudia Dimitri Émile
Émile 89 − 17 = 72 Alex 51 + 17 = 68 10
Dimitri 82 − 10 = 72 Bianca 62 + 10 = 72 4 points Claudia 76 − 4 = 72 Alex 68 + 4 = 72
17 points
points
5

6.4.2 Le calcul et l’interprétation

La moyenne se calcule en additionnant toutes les valeurs, puis en divisant la somme par le nombre d’unités statistiques. Le calcul est le même qu’il s’agisse de données provenant d’une population ou d’un échantillon, mais sa notation est différente.

Si les données proviennent d’une population, alors la moyenne se note μ (mu)2

Si les données proviennent d’un échantillon, alors la moyenne se note x (x barre).

La moyenne peut être calculée avec : une calculatrice (voir l’Annexe 4, à la page 328) ; un chiffrier électronique (voir la fonction MOYENNE dans Excel – cette fonction peut seulement être utilisée pour les données non groupées) ; une formule (voir le tableau).

Tableau 6.3 / Calcul de la moyenne selon le type de données

TYPE DE DONNÉES

Non groupées Moyenne = Somme de toutes les valeurs Nombre d’unités statistiques

Groupées par valeurs Moyenne = Somme des produits des valeurs par leur effectif Nombre d’unités statistiques

Groupées par classes Moyenne ≈ Somme des produits du milieu des classes par leur effectif Nombre d’unités statistiques

Ce calcul produit une approximation parce que les données ont été remplacées par le milieu des classes. Pour obtenir la valeur exacte, il faut utiliser les données non groupées de la série statistique.

S’il y a une classe ouverte dans le groupement, il est préférable de calculer la moyenne avec les données non groupées. Dans le cas où les données non groupées sont indisponibles, le calcul demande de fermer la classe ouverte. Il sera alors nécessaire d’ajouter une note précisant qu’une classe a été fermée. La précaution est de mise dans cette situation, car ce calcul produit une approximation qui peut être très éloignée de la valeur réelle.

Voici le tableau de distribution de la répartition du nombre de cellulaires achetés au cours de la dernière année par un échantillon de 31 étudiants. Répartition de 31 étudiants selon leur nombre de cellulaires

Source : Données fictives.

163 Chapitre 6 LES Mesures de tendance centrale 3
CALCUL
DE LA MOYENNE
2 Ce symbole est le m minuscule de l’alphabet grec.
/attention/
NOMBRE DE CELLULAIRES NOMBRE D’ÉTUDIANTS POURCENTAGE D’ÉTUDIANTS (%) 0 12 38,7 1 14 45,2 2 4 12,9 3 1 3,2 Total 31 100,0
Exem ple

La moyenne se note x parce que les données proviennent d’un échantillon. Pour la calculer, il faut additionner le produit des valeurs (première colonne) par leur effectif (deuxième colonne), puis diviser la somme obtenue par le nombre d’unités statistiques (total de la deuxième colonne).

Dans le cas d’une variable qui ne prend que des valeurs entières, il faut arrondir la moyenne à une décimale pour obtenir une mesure plus précise. Cette précision est importante lorsque les populations sont de grandes tailles ou lorsqu’on veut comparer des groupes.

Exem ple

Si les personnes interrogées ont acheté en moyenne 0,8 cellulaire en un an et qu’on arrondit à 1 cellulaire, alors sur une population de 10 millions, l’arrondi crée un achat non réalisé de 2 millions de cellulaires !

L’interprétation de la moyenne est faite en donnant sa valeur (avec ses unités) dans son contexte : [La variable] moyenne [des unités statistiques] est [la moyenne (avec ses unités)]. La moyenne de l’exemple sur le nombre de cellulaires achetés par 31 étudiants s’interprète ainsi : Le nombre moyen de cellulaires achetés au cours de la dernière année par les étudiants est de 0,8 cellulaire.

Il est aussi possible d’interpréter la moyenne en parlant du groupe : [Les unités statistiques] ont en moyenne [la moyenne (avec ses unités)]. Cependant, cette interprétation peut être problématique si la moyenne n’est pas représentative de la tendance centrale des données parce qu’elle crée un contexte susceptible d’activer le biais d’ancrage. Si on lit que dans une entreprise, « les travailleurs gagnent en moyenne 45 $ de l’heure », on pourrait croire que tous les travailleurs ont un salaire horaire près de 45 $ de l’heure. Comme ce n’est pas nécessairement le cas, il est préférable d’interpréter la moyenne ainsi : Le salaire moyen des travailleurs est 45 $ de l’heure. Cette interprétation est plus neutre parce qu’elle ne dit pas que les travailleurs gagnent un certain montant, mais que le salaire moyen est d’une certaine valeur.

Pause exercice

3. Une agence de recrutement a sélectionné un échantillon de Québécois partis dans l’Ouest canadien pour planter des arbres pendant l’été. Elle s’est intéressée à leur revenu quotidien. Complétez le tableau, puis calculez et interprétez la moyenne. Répartition de planteurs d’arbres québécois selon leur revenu quotidien

164 Analyse quantitative en sciences humaines
x = (0 • 12) + (1 • 14) + (2 • 4) + (3 • 1) 31 = 25 31 = 0,8
REVENU (EN DOLLARS) NOMBRE DE PLANTEURS D’ARBRES POURCENTAGE DE PLANTEURS D’ARBRES (%) [0, 100[ 2 [100, 200[ 12 [200, 300[ 20 [300, 400[ 15 [400, 500[ 2 Total Source : Données fictives.

6.4.3 La sensibilité aux valeurs éloignées

La moyenne est la seule mesure de tendance centrale où toutes les valeurs font partie du calcul. Ainsi, les valeurs éloignées des autres ont un impact sur la moyenne et cet impact peut être important. En effet, la moyenne est toujours attirée vers les valeurs plus éloignées parce que, d’un point de vue graphique, elles génèrent beaucoup de poids par rapport au centre d’équilibre du graphique. Ce n’est pas le cas du mode, parce que les valeurs éloignées ne sont pas populaires, ni de la médiane qui se situe toujours au milieu des données.

Pour offrir un cadeau à Kenza, 5 de ses amis donnent chacun 20 $, Félix donne 10 $ et Mathilde hésite entre 30 $, 50 $ ou 70 $. Voici les pictogrammes des trois séries.

Comme vous pouvez l’observer, la contribution de Mathilde a un impact sur la moyenne, mais aucun sur le mode et la médiane. De plus, si elle augmente la valeur de sa contribution, elle augmente aussi la moyenne. En fait, plus Mathilde augmente la valeur de sa contribution, plus la moyenne s’éloigne du mode et de la médiane. Éventuellement, la moyenne ne pourra plus être représentative des données parce que peu de données seront près de la moyenne. Dans le cas où la contribution de Mathilde serait de 1 000 $, la moyenne passerait à 158,57 $. Il serait alors trompeur d’affirmer que les amis ont donné en moyenne 158,57 $ alors que la presque totalité des amis (6 sur 7) ont donné 20 $ ou moins.

Une valeur très éloignée des autres est nommée valeur extrême (la définition sera précisée aux chapitres 7 et 8). Elle a un impact considérable sur la moyenne, comme l’illustre l’exemple classique suivant.

Exem ple

Une personne ayant une fortune de 10 millions de dollars entre dans une pièce où se trouvent 9 personnes sans un sou. Instantanément, tous deviennent en moyenne millionnaires sans que la presque totalité le soit.

165 Chapitre 6 LES Mesures de tendance centrale 3
CHOIX DE MATHILDE MODE MÉDIANE MOYENNE ILLUSTRATION 30 $ 20 $ 20 $ 20 $ Contribution (en dollars) 50 $ 20 $ 20 $ 22,86 $
70 $ 20 $ 20 $ 25,71 $
Contribution (en dollars)
Contribution (en dollars)
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70
Exem ple

Une valeur extrême se distingue d'une valeur aberrante comme suit : une valeur extrême est une valeur très éloignée des autres valeurs de la série statistique, alors qu'une valeur aberrante est une valeur extrême qui n'a pas de sens. Dans une entreprise dont la presque totalité des employés gagnent un salaire inférieur à 100 000 $, un employé qui déclare un salaire de 2 000 000 000 $ produit une valeur aberrante et une employée qui déclare un salaire de 200 000 $ produit une valeur extrême.

La sensibilité de la moyenne aux valeurs éloignées (et extrêmes) est un désavantage pour décrire la tendance centrale des données, mais c’est un avantage pour décrire toutes les données. En effet, il y a des contextes où il faut absolument conserver les valeurs extrêmes.

Un salaire très élevé doit être inclus dans la masse salariale et dans le salaire moyen, parce que ce salaire doit être payé.

Une maison dont la valeur est très élevée doit être incluse dans la valeur moyenne des maisons lorsque la ville fait son budget puisque les taxes de cette maison seront payées.

Pour ces contextes, la moyenne ne représente pas la tendance centrale, mais elle permet de résumer toutes les valeurs. En effet, en multipliant la moyenne par le nombre d’unités statistiques, on obtient toujours la somme totale des valeurs (le salaire moyen multiplié par le nombre d’employés donne la masse salariale).

6.5

L’ANALYSE DES données avec une mesure de tendance centrale

Les mesures de tendance centrale permettent d’analyser les données : en déterminant des types de distributions unimodales ; en trouvant le centre (ou les centres) d’une distribution, soit une modalité ou une valeur qui est prise par beaucoup de données.

6.5.1 Les types de distributions unimodales

Les distributions unimodales n’ont qu’un mode et pour les variables quantitatives, la position relative du mode, de la médiane et de la moyenne permet de distinguer des types de distributions unimodales, soit symétriques, asymétriques à gauche ou asymétriques à droite.

A / LA Distribution unimodale symétrique

La distribution unimodale symétrique est caractérisée par le fait que le mode, la moyenne et la médiane sont égaux et situés au milieu de la distribution. En fait, la distribution est symétrique parce que la moyenne est égale à la médiane et qu’il y a autant de données de part et d’autre du mode.

Répartition en pourcentage de 30 étudiants selon leur note

Source : Données fictives.

166 Analyse quantitative en sciences humaines
/attention/
Pourcentage d’étudiants (%) Note (%) 30 20 10 0 0 30 40 50 60 70 80 90 100
μ = Md = Mo

Cette distribution peut avoir une forme très aplatie, la forme d’une cloche ou une forme très étroite. La distribution unimodale symétrique ayant la forme d’une cloche s’appelle distribution normale et elle jouera un rôle important lorsqu’il sera question de choisir la moyenne comme mesure de tendance centrale ou dans la justification théorique des sondages (estimation de paramètre du chapitre 9). Le degré d’aplatissement de la distribution peut être calculé par une mesure descriptive (voir la rubrique Pour aller plus loin, à la page 168).

Distribution très aplatie

Distribution normale

Distribution très étroite

B / LA Distribution unimodale asymétrique à gauche

La distribution unimodale asymétrique à gauche est caractérisée par un étalement des données à gauche du mode. Il y a ainsi plus de données à gauche du mode qu’à sa droite. De plus, l’étalement à gauche a un impact sur la moyenne, qui la diminue et qui la rend inférieure à la médiane. Répartition en pourcentage des étudiants selon le temps pris pour faire un quiz de 30 minutes

Source : Données fictives.

Une distribution asymétrique à gauche est aussi appelée asymétrique négative. En effet, la moyenne étant inférieure à la médiane (μ < Md), la différence entre la moyenne et la médiane est négative (μ – Md < 0). La moyenne sous-estime donc la médiane ; la majorité des unités statistiques dépassent la moyenne.

167 Chapitre 6 LES Mesures de tendance centrale 3
μ = Md = Mo μ = Md = Mo μ = Md = Mo
Pourcentage d’étudiants (%) Temps (min) 50 40 30 20 10 0 0 20 22 24 26 28 30 Mo = 29 Md = 28 μ = 27,2

pour aller plus loin/

C / LA Distribution unimodale asymétrique à droite

La distribution unimodale asymétrique à droite est caractérisée par un étalement des données à droite du mode. Il y a ainsi plus de données à droite du mode qu’à sa gauche. De plus, l’étalement à droite a un impact sur la moyenne, qui l’augmente et qui la rend supérieure à la médiane. Répartition en pourcentage des étudiants selon leur revenu annuel

Source : Données fictives.

Une distribution asymétrique à droite est aussi appelée asymétrique positive. En effet, la moyenne étant supérieure à la médiane (μ > Md), la différence entre la moyenne et la médiane est positive (μ – Md > 0). La moyenne surestime donc la médiane ; la majorité des unités statistiques n’atteignent pas la moyenne.

Il existe des mesures pour calculer le degré d’aplatissement d’une distribution unimodale symétrique et le degré d’asymétrie d’une distribution unimodale asymétrique. Ces mesures ont été programmées dans Excel.

• La fonction KURTOSIS renvoie une valeur négative lorsque la distribution est relativement plate, une valeur nulle lorsque la distribution est normale et une valeur positive lorsque la distribution a un pic étroit.

• La fonction COEFFICIENT.ASYMETRIE renvoie une valeur négative lorsque l’asymétrie est négative (asymétrie à gauche) et une valeur positive lorsque l’asymétrie est positive (asymétrie à droite).

168 Analyse quantitative en sciences humaines
Pourcentage d’étudiants (%) Revenu annuel (en dollars) 50 40 30 20 10 0 0 5 000 10 000 15 000 20 000 25 000 Mo = 2 500 Md = 6 000 μ =
7 350

4. Le tableau de distribution suivant représente la répartition des homicides commis au Canada selon l’âge du suspect.

Répartition des homicides selon l’âge du suspect, Canada, 2021

Note : Les données ont été ajustées et régulées. De plus, en raison de l’arrondissement des pourcentages, le total n’est pas exactement de 100,0 %.

Source : Statistique Canada. Nombre de victimes d’homicide et personnes accusées d’homicide, selon l’identité autochtone, le groupe d’âge et le sexe (No 35-10-0060-01).

[https://www150.statcan.gc.ca/t1/tbl1/fr/cv.action?pid=3510006001] (Page consultée le 17 mars 2023).

a) Trouvez les informations quantitatives importantes.

b) Déterminez le mode, la médiane et la moyenne.

c) La distribution est-elle unimodale, bimodale ou multimodale ? Si elle est unimodale, est-elle symétrique ou non ?

6.5.2 Le choix de la mesure la plus appropriée

Laquelle des trois mesures de tendance centrale est la plus appropriée pour décrire la tendance centrale des données ? Rappelez-vous que la mesure doit être une modalité ou une valeur qui représente bien toutes les données et qui devient en quelque sorte le centre de la distribution. Vous devez donc vous assurer que beaucoup de données sont près de la mesure choisie. Pour déterminer la mesure de tendance centrale à sélectionner, il faut toujours commencer par considérer le mode (voir la figure 6.8, à la page 170).

Si la distribution a deux modes ou plus, chaque mode devient un centre de concentration et la distribution a plusieurs centres. Il est suggéré de faire une étude plus approfondie pour expliquer la présence de plusieurs centres.

169 Chapitre 6 LES Mesures de tendance centrale 3
Pause exercice
ÂGE DU SUSPECT NOMBRE D’HOMICIDES POURCENTAGE D’HOMICIDES (%) [0, 10[ 0 0,0 [10, 20[ 73 11,6 [20, 30[ 240 38,0 [30, 40[ 183 29,0 [40, 50[ 78 12,3 [50, 60[ 38 6,0 60 et plus 20 3,2 Total 632 100,0

Si la distribution a un seul mode, il faut poursuivre l’analyse en considérant le type de variable.

•Si la variable est qualitative nominale, il faut choisir le mode parce que la médiane et la moyenne n’ont pas de sens.

•Si la variable est qualitative ordinale, il faut choisir entre le mode et la médiane. On choisit la médiane uniquement si elle est plus au milieu que le mode.

•Si la variable est quantitative (discrète ou continue), il faut choisir la moyenne lorsque la distribution est plutôt symétrique et choisir la médiane lorsque la distribution est plutôt asymétrique. En effet, si la distribution est plutôt asymétrique, il y a un grand écart entre la médiane et la moyenne, ce qui rend la médiane plus au milieu que la moyenne.

Si une distribution n’a pas de mode, elle n’a pas de tendance centrale. C’est le cas d’une distribution « uniforme » où toutes les modalités, valeurs ou classes ont sensiblement la même fréquence.

Combien de modes y a-t-il ?

1 mode Quel est le type de variable ?

2 modes ou plus 0 mode

Pause exercice

Modes

Nominal Mode

Ordinal La médiane est-elle plus au milieu que le mode ?

Quantitatif (discret ou continu)

La distribution est-elle plutôt symétrique ou plutôt asymétrique ?

Oui : Médiane

Non : Mode

Plutôt symétrique : Moyenne

Plutôt asymétrique : Médiane

Aucune tendance centrale

5. a) Quelle est la mesure de tendance centrale des données pour décrire la distribution de l’âge du suspect de la Pause exercice de la page précédente ?

b) Interprétez votre réponse.

170 Analyse quantitative en sciences humaines
Figure 6.8 / DÉTERMINATION DE la mesure de tendance centrale la plus appropriée

6.5.3 Les forces et les faiblesses

On utilise une mesure de tendance centrale pour ses forces, mais il ne faut pas oublier qu’elle a des faiblesses.

FORCES FAIBLESSES

Mode (Mo)

Le mode peut être déterminé pour tout type de variable. En particulier, le mode est la seule mesure de tendance centrale qui peut être déterminée pour une variable qualitative nominale.

Les valeurs éloignées ou extrêmes n’ont aucun impact sur le mode.

Il permet de déterminer si une distribution peut contenir des sous-groupes. C’est le cas si la distribution est bimodale ou multimodale.

Le mode peut illustrer une pluralité et non la majorité des données.

Il n’est pas utilisé dans les autres mesures descriptives.

Médiane (Md )

La médiane se détermine pour tous les types de variables sauf pour la variable nominale. Les valeurs éloignées ou extrêmes n’ont aucun impact sur la médiane. Elle est très bien adaptée pour décrire une distribution unimodale fortement asymétrique.

La médiane peut créer une interprétation évidente ou un biais d’ancrage si elle est interprétée lorsqu’elle n’est pas représentative de la tendance centrale des données. Elle est peu utile dans le calcul des autres mesures descriptives.

Moyenne (population : μ, échantillon : x )

La moyenne a plusieurs autres utilités que de représenter la tendance centrale des données, car beaucoup de résultats en statistique sont obtenus avec la moyenne (elle permet notamment de définir des mesures de dispersion comme l’écart type et le coefficient de variation, et des mesures de position comme la cote Z).

La moyenne est facile à calculer avec une calculatrice.

La moyenne est très sensible aux valeurs éloignées ou extrêmes et à l’asymétrie des données.

Elle peut ne pas être accessible à la majorité des unités statistiques, c’est-à-dire que la majorité de celles-ci peuvent prendre une valeur inférieure à la moyenne.

Elle se calcule uniquement pour les variables quantitatives.

Elle peut créer un biais d’ancrage si elle est interprétée lorsqu’elle n’est pas représentative de la tendance centrale des données.

171 Chapitre 6 LES Mesures de tendance centrale 3
Tableau 6.4 / Forces et faiblesses des mesures de tendance centrale

résumé

MOYENNE

Notation Mo Md Population : μ

Échantillon : x

Signification de la tendance centrale

Centre de concentration

Type de variable Tous les types de variables

Unicité de la mesure Le mode n’est pas nécessairement unique ; une distribution peut avoir un, deux ou plusieurs modes.

Interprétation statistique

La majorité [des unités statistiques] ont [le mode]. ou Une pluralité [des unités statistiques] ont [le mode].

Centre de position (aussi appelé position centrale)

Qualitatif ordinal et quantitatif (discret et continu)

Centre d’équilibre

Quantitatif (discret et continu)

La médiane est unique. La moyenne est unique.

Détermination de la mesure à l’aide d’un graphique

Choix de la mesure de tendance centrale pour résumer toutes les données en une seule.

La modalité, la valeur ou la classe ayant la plus grande aire.

Distribution bimodale ou multimodale de tout type de variable.

Distribution unimodale d’une variable qualitative.

Au moins 50 % [des unités statistiques] ont [la médiane] ou moins.

[La variable] moyenne [des unités statistiques] est [la moyenne (avec ses unités)].

La valeur où le 50 % d’aire à gauche est franchi. La valeur qui tient en équilibre le graphique.

Distribution unimodale plutôt asymétrique d’une variable quantitative. Distribution unimodale d’une variable qualitative ordinale dont la médiane est plus au milieu.

Distribution unimodale plutôt symétrique d’une variable quantitative.

Sensibilité aux valeurs éloignées

Questions

Section 6.1

1. Qu’est-ce qu’une mesure de tendance centrale ?

2. Quelle mesure de tendance centrale représente…

a) la position centrale ?

b) le centre d’équilibre ?

172 Analyse quantitative en sciences humaines
/En
MODE MÉDIANE
Aucune Aucune Beaucoup

c) le centre de concentration ?

d) ce qui est le plus populaire ?

e) ce qui permet de redistribuer la somme totale des données afin que tous aient la même valeur ?

f) ce qui coupe la série en deux parties égales ?

g) ce qui est à « la mode   ?

Section 6.2

3. Répondez aux questions suivantes.

a) Sur quel type de variable le mode se détermine-t-il ?

b) Quel type de tendance centrale d’une distribution le mode représente-t-il ?

c) Quelle est la différence entre la majorité et la pluralité ?

d) Comment trouve-t-on le mode avec des données groupées par modalités ?

e) Une distribution peut-elle avoir plusieurs modes ?

4. Voici le tableau de distribution des fonctionnaires québécois selon leur type d’emploi pour l’année 2020-2021.

Répartition des fonctionnaires québécois (en ETC) selon leur type d’emploi, Québec, DU 1er avril 2020 au 31 mars 2021

Notes : Dans ce tableau, 1 fonctionnaire a été comptabilisé comme 1 ETC (équivalent temps complet). De plus, en raison de l’arrondissement des pourcentages, le total n’est pas exactement de 100,0 %.

Source : Conseil du trésor du Québec. (2020-2021). Effectif de la fonction publique. [https://www.tresor.gouv.qc.ca/ fileadmin/PDF/effectif_fonction_publique/2021/Part2_2021.pdf] (Page consultée le 15 mars 2023).

a) Quelle est l’unité statistique ?

b) Quelle est la variable ?

c) Quel est son type ?

d) Combien de modalités la variable a-t-elle ?

e) Déterminez et interprétez le mode.

173 Chapitre 6 LES Mesures de tendance centrale 3
TYPE D’EMPLOI NOMBRE DE FONCTIONNAIRES POURCENTAGE DE FONCTIONNAIRES (%) Haute direction 743 1,2 Cadre 3 620 5,9 Professionnel 24 785 40,5 Enseignant 499 0,8 Technicien 14 577 23,8 Personnel de bureau 9 777 16,0 Agents de la paix 3 404 5,6 Ouvrier 2 695 4,4 Étudiants et stagiaires 1 171 1,9 Total 61 271 100,0

5. Pour chacun des graphiques suivants, répondez à ces questions.

a) Déterminez si la distribution est unimodale, bimodale, multimodale ou bien si elle n’a pas de mode.

b) Expliquez qualitativement la forme de la distribution : y a-t-il un centre de concentration ? Si oui, où se trouve-t-il ?

Graphique 1

Répartition des employés d’AQ1 selon leur nombre d’années d’expérience

Graphique 2

Répartition des employés d’AQ2 selon leur nombre d’années d’expérience

Graphique 3   Graphique 4

Répartition des employés d’AQ3 selon leur nombre d’années d’expérience

Répartition des employés d’AQ4 selon leur nombre d’années d’expérience

Sources : Données fictives.

6. Déterminez le mode dans chaque circonscription et expliquez l’impact de la distinction entre la majorité et la pluralité sur la vie du député de la circonscription. La distribution des votes selon les deux circonscriptions

174 Analyse quantitative en sciences humaines
CIRCONSCRIPTION 1 CIRCONSCRIPTION 2 Parti A 60 % 33 % Parti B 20 % 30 % Parti C 20 % 37 % Source : Données fictives. Pourcentage d’employés (%) Nombre d’années d’expérience 45 40 35 30 25 20 15 10 5 0 0 5 10 15 20 25 30 10 15 25 40 5 5 Nombre d’années d’expérience 0 5 10 15 20 25 30 30 15 15 5 5 30 Pourcentage d’employés (%) 45 40 35 30 25 20 15 10 5 0 Nombre d’années d’expérience 0 5 10 15 20 25 30 20 20 20 20 20 Pourcentage d’employés (%) 45 40 35 30 25 20 15 10 5 0 Nombre d’années d’expérience 0 5 10 15 20 25 30 40 20 15 12 10 3 Pourcentage d’employés (%) 45 40 35 30 25 20 15 10 5 0

Section 6.3

7. Répondez aux questions suivantes.

a) Quel type de tendance centrale d’une distribution la médiane représente-t-elle ?

b) Pourquoi la médiane ne peut-elle pas être déterminée pour une variable qualitative nominale ?

c) En combien de groupes de données la médiane sépare-t-elle les données ?

d) Quel pourcentage des données chaque groupe représente-t-il approximativement ?

e) Pourquoi le pourcentage n’est-il pas nécessairement exact ?

f) Quand utilise-t-on l’ogive pour déterminer la médiane ?

g) Si la variable est quantitative, la médiane a-t-elle les mêmes unités que la variable ?

8. Dans chacune des situations suivantes, interprétez votre valeur en utilisant la signification de la médiane.

a) Vous avez acheté un condo à 294 999 $ en Mauricie et le prix médian d’un condo est 262 500 $ au deuxième trimestre de 20223

b) Vous avez un salaire horaire de 21,45 $ et le salaire médian québécois est de 27,00 $/h en août 20224

c) Vous avez obtenu 79 % à l’examen et la médiane de l’examen est 74 %.

9. Voici la population des provinces et territoires canadiens en 2020. Déterminez et interprétez la médiane.

Série statistique de la taille de la population

Source : Statistique Canada. Estimations de la population au 1er juillet, par âge et sexe (No 17-10-0005-01). [https://www150.statcan.gc.ca/t1/tbl1/fr/tv.action?pid=1710000501] (Page consultée le 1er mars 2023).

3 Source : Centris. Découvrez votre communauté. [https://www.centris.ca/fr/outils/statistiques-immobilieres/ mauricie] (Page consultée le 1er septembre 2022).

4 Source : Statistique Canada. Salaires des employés selon la permanence de l’emploi et la couverture syndicale, données mensuelles non désaisonnalisées (No 14-10-0065-01). [https://www150.statcan.gc.ca/t1/tbl1/fr/ tv.action?pid=1410006501] (Page consultée le 1er septembre 2022).

175 Chapitre 6 LES Mesures de tendance centrale 3
PROVINCE OU TERRITOIRE POPULATION PROVINCE OU TERRITOIRE POPULATION Terre-Neuve-et-Labrador 521 359 Saskatchewan 1 178 467 Île-du-Prince-Édouard 161 305 Alberta 4 416 682 Nouvelle-Écosse 981 691 Colombie-Britannique 5 155 495 Nouveau-Brunswick 782 996 Yukon 42 163 Québec 8 576 595 Territoires du Nord-Ouest 45 346 Ontario 14 726 022 Nunavut 39 157 Manitoba 1 379 888

10. Le site Perspective de l’Université de Sherbrooke a publié des données sur l’indice global de démocratie pour 163 pays. Cet indice synthétique développé par The Economist représente la démocratie par un nombre à virgule de 0 (absence de démocratie) à 10 (démocratie parfaite). Répartition de 163 pays selon leur indice de démocratie, 2020

Note : En raison de l'arrondissement des pourcentages, le total n'est pas exactement de 100,0 %.

Source : Perspective, Université de Sherbrooke. Démocratie : Indice global, 2020. [https://perspective.usherbrooke.ca/ bilan/servlet/BilanEssai/9/EIU.DEMO.GLOBAL/2020/2/x//sans/sansLogUni/Vert/11px/?]

(Page consultée le 21 septembre 2022).

a) Complétez le tableau en ajoutant une colonne pour les pourcentages cumulés.

b) Déterminez et interprétez la classe modale. Quel serait le mode ?

c) Tracez l’ogive et utilisez-la pour estimer la médiane. Interprétez la médiane.

d) La médiane représente-t-elle mieux que le mode la tendance centrale ? Justifiez.

Section 6.4

11. Répondez aux questions suivantes.

a) Sur quel type de variable la moyenne se calcule-t-elle ?

b) Quel type de tendance centrale d’une distribution la moyenne représente-t-elle ?

c) Comment calcule-t-on la moyenne avec des données groupées par classes ?

d) Comment la moyenne se note-t-elle ?

e) La moyenne a-t-elle des unités ?

f) Quelles sont les deux informations les plus importantes pour calculer la moyenne d’une distribution ?

12. On s’intéresse aux nombres de cartes de crédit d’un échantillon de 30 étudiants. Répartition des 30 étudiants selon leur nombre de cartes de crédit

Source : Données fictives.

a) Quelle est l’unité statistique ?

b) Quelle est la variable et quel est son type ?

176 Analyse quantitative en sciences humaines
INDICE DE DÉMOCRATIE NOMBRE DE PAYS POURCENTAGE DE PAYS (%) [0,0 ; 2,0[ 11 6,7 [2,0 ; 4,0[ 45 27,6 [4,0 ; 6,0[ 33 20,2 [6,0 ; 8,0[ 51 31,3 [8,0 ; 10,0] 23 14,1 Total 163 100,0
NOMBRE DE CARTES DE CRÉDIT NOMBRE D’ÉTUDIANTS POURCENTAGE D’ÉTUDIANTS (%) 0 6 20,0 1 16 53,3 2 5 16,7 3 3 10,0 Total 30 100,0

c) Quel est le nombre total de cartes de crédit ?

d) Combien y a-t-il d’étudiants ?

e) Calculez et interprétez la moyenne.

13. Une épicerie souhaite mieux connaître sa clientèle. La gérante sélectionne un échantillon de 74 clients et s’intéresse au temps passé dans l’épicerie. Calculez et interprétez la moyenne. Répartition des clients selon le temps passé à l’épicerie

14. Pour contribuer à une collecte de denrées, 5 étudiants apportent respectivement 2, 4, 5, 9 et 5 boîtes de conserve.

a) Calculez et interprétez la moyenne.

b) Redistribuez les boîtes pour que chacun apporte le même nombre de boîtes.

c) Un 6e étudiant arrive avec un don de 500 boîtes. Calculez la moyenne après ce don. Cette moyenne est-elle représentative des dons du groupe ?

15. Répondez aux questions suivantes.

a) Si une unité statistique change de valeur, la moyenne change-t-elle aussi ?

b) Si on ajoute une donnée à une distribution, la moyenne va-t-elle changer ?

c) Lequel des énoncés suivants est vrai ?

1) Si le salaire moyen augmente de 10 %, tous les salaires augmentent de 10 %.

2) Si tous les salaires augmentent de 10 %, le salaire moyen augmente de 10 %.

16. Est-il possible d’augmenter les échelons salariaux et de diminuer le salaire moyen ? Voici un exemple où les échelons salariaux ont augmenté de 10 % alors que le salaire horaire moyen a diminué de 7,4 %, passant de 31,67 $ à 29,33 $. Expliquez pourquoi le salaire moyen a diminué.

Salaire horaire avant l’augmentation

Salaire horaire après l’augmentation

177 Chapitre 6 LES Mesures de tendance centrale 3
TEMPS PASSÉ À L’ÉPICERIE (EN MINUTES) NOMBRE DE CLIENTS POURCENTAGE DE CLIENTS (%) [0, 15[ 8 10,8 [15, 30[ 15 20,3 [30, 45[ 39 52,7 [45, 60[ 10 13,5 60 et plus 2 2,7 Total 74 100,0
fictives.
Source : Données
NOMBRE D’EMPLOYÉS SALAIRE HORAIRE ACTUEL NOMBRE D’EMPLOYÉS NOUVEAU SALAIRE HORAIRE 50 25,00 80 27,50 40 40,00 10 44,00
Source : Données fictives.

Section 6.5

17. Répondez aux questions suivantes.

a) Comment les mesures de tendance centrale se notent-elles ?

b) Le mode représente-t-il toujours la majorité des données ?

c) Quelle mesure de tendance centrale permet d’identifier le centre d’une distribution de données provenant d’une variable qualitative nominale ?

d) Comment peut-on utiliser les mesures de tendance centrale pour déterminer si un graphique est symétrique ou non ?

e) Une distribution peut-elle avoir plusieurs centres ? Si oui, qu’est-il suggéré de faire ?

f) Qu’est-ce qui influence très fortement la moyenne ?

18. Dans le cadre de votre cours d’éducation physique, votre enseignant fait courir chacun de ses quatre groupes sur une distance de 5 km. Voici différentes distributions du temps (en minutes) pris par quatre groupes. Pour chaque graphique :

a) trouvez la classe modale (ou les classes modales, s’il y a lieu) ;

b) si la distribution est unimodale, calculez le nombre de classes à gauche et à droite de la classe modale ;

c) déterminez la forme de la distribution (multimodale, bimodale, unimodale symétrique ou asymétrique à gauche ou à droite) ;

d) décrivez qualitativement la distribution ;

e) déterminez la tendance centrale de la distribution.

178 Analyse quantitative en sciences humaines
des coureurs du groupe 1 selon leur temps
des coureurs du groupe 3 selon leur temps
coureurs du
leur temps
des coureurs du groupe 4 selon leur temps
3
Sources : Données fictives. Pourcentage de coureurs (%) Temps (min) 50 40 30 20 10 0 0 18 20 22 24 26 28 Pourcentage de coureurs (%) Temps (min) 50 40 30 20 10 0 0 18 20 22 24 26 28 Pourcentage de coureurs (%) Temps (min) 50 40 30 20 10 0 0 18 20 22 24 26 28 Pourcentage de coureurs (%) Temps (min) 50 40 30 20 10 0 0 18 20 22 24 26 28
Graphique 1 Graphique 2 Répartition
Répartition
Répartition des
groupe 2 selon
Répartition
Graphique
Graphique 4
316 Analyse quantitative en sciences humaines annexes Annexe 1 Quelques notions mathématiques 317 Annexe 2 La table du modèle normal centré réduit 326 Annexe 3 La table des valeurs critiques du khi-deux 327 Annexe 4 Comment utiliser les fonctions statistiques d’une calculatrice 328 Annexe 5 Liste des symboles 332 Annexe 6 Le sondage 333

Annexe 1 / Quelques notions mathématiques

A / La règle de trois

La règle de trois (aussi appelée produit croisé) est le raisonnement mathématique qui permet de trouver une inconnue dans l’égalité entre deux rapports.

A B = C D

Si l’inconnue est C, la règle de trois s’opère ainsi :

A B = C D C = A × D ÷ B

Claude a gagné 140 $ pour 7,5 heures de travail. La règle de trois permet de déterminer son salaire horaire.

140 $

7,5 h = ? 1 h ? = 140 × 1 ÷ 7,5 = 18,67 $

Le salaire horaire de Claude est 18,67 $ .

Si l’inconnue est D, la règle de trois s’opère ainsi :

A B = C D D = B × C ÷ A

Votre grand-mère vous donne sa bonne vieille recette de salade de patates et vous indique qu’avec 10 patates, la recette donne 8 portions. Vous avez 15 patates. La règle de trois permet de déterminer le nombre de portions que vous pourrez préparer.

10 patates

8 portions = 15 patates ? portions ? = 8 × 15 ÷ 10 = 12 portions

Le nombre de portions est 12.

En résumé, si trois nombres sont connus dans une situation d’égalité entre deux rapports, le quatrième nombre est obtenu par la règle de trois. L’information importante à retenir dans l’utilisation de la règle de trois est qu’il doit y avoir une égalité entre deux rapports. L’absence d’égalité entre deux rapports donne lieu à une utilisation qui n’a pas de sens…

Si un orchestre de 120 musiciens prend 40 minutes pour jouer une symphonie, un orchestre de 60 musiciens ne prendra pas 20 minutes pour jouer la même symphonie. L’orchestre prendra encore 40 minutes pour la jouer, car ce qui importe n’est pas le nombre de musiciens faisant partie de l’orchestre, mais la durée de la partition de la symphonie.

120 musiciens 40 minutes ≠ 60 musiciens 20 minutes

B / Le pourcentage

Un pourcentage est un rapport dont le dénominateur est 100. Il se note avec le symbole %.

p % = p 100

Parmi les 30 élèves de la classe, il y en a 20 qui ont participé à l’activité de fin de session. Le pourcentage des élèves ayant participé à cette activité se calcule par une règle de trois.

20 30 = ? 100

? = 20 × 100 ÷ 30 = 66,7 %

Donc, 66,7 % des élèves de la classe ont participé à l’activité de fin de session.

317 Annexe 1 Quelques notions mathématiques
× ÷ Exem ple × ÷ Exem ple Exem ple

Le pourcentage a divers usages : représenter une proportion, fixer le montant des taxes, illustrer le poids des évaluations dans la note finale d’un cours, calculer une augmentation de salaire, etc. Dans les deux contextes suivants, le pourcentage est utilisé pour représenter une proportion, puis le montant des taxes.

1. Si les dépenses en éducation du gouvernement du Québec représentent 18 % du budget de 86 G$ (milliards de dollars)1, le montant des dépenses se calcule par une règle de trois.

18

100 = ? 86 ? = 18 × 86 ÷ 100 = 15,5 G$

Les dépenses en éducation sont de 15,5 milliards de dollars. Une autre technique pour calculer ce montant est d’utiliser la définition d’un pourcentage pour effectuer les opérations. Ainsi, 18 % du budget de 86 G$ signifie :

2. Au Québec, en 2023, les taxes sur les produits et services sont de 14,975 %. Pour connaître le prix final (le prix avec les taxes), on calcule d’abord le montant des taxes, qu’on ajoute ensuite au prix initial (le prix sans les taxes).

Pour un bien vendu 382,25 $, le calcul des taxes est le suivant :

382,25 × 14,975 % = 382,25 × 14,975 100 = 382,25 × 0,14975 = 57,24 $

On ajoute ensuite les taxes (57,24 $) au prix initial.

Prix initial + Taxes = Prix final

382,25 + 57,24 = 439,49 $

L’article coûte donc 439,49 $ (avec les taxes).

Une autre technique pour connaître le prix final est d’utiliser la règle de trois. Comme le prix final correspond au prix avec les taxes, il faut faire la règle de trois avec 100 % + 14,975 %, soit avec 114,975 pour 100.

114,975 100 = Prix final Prix initial

Dans ce cas-ci, on a le prix initial et on cherche le prix final. Ainsi,

114,975 100 = Prix final 382,25

Prix final = 382,25 × 114,975 ÷ 100 = 439,49 $

Cette technique est intéressante parce qu’elle permet aussi de déterminer le prix sans les taxes, lorsque le prix avec les taxes est connu.

114,975 100 = 439,49 Prix initial

Prix initial = 439,49 × 100 ÷ 114,975 = 382,25 $

Il n’y a pas d’interprétation universelle d’un pourcentage.

Il y a des contextes où 10 % représentent une grande quantité et d’autres où ils représentent une petite quantité. Ainsi, une augmentation salariale de 10 % représente une augmentation élevée, alors qu’un rabais de 10 % à l’achat d’une friandise à 1 $ représente un rabais peu élevé.

Il y a des contextes où les 100 % peuvent être dépassés et d’autres où ils ne peuvent pas l’être. En effet, il est possible qu’un pourcentage d’augmentation soit supérieur à 100 %, car l’augmentation peut être supérieure à la valeur initiale. C’est le cas si le nombre de véhicules vendus a triplé en un an ; il a augmenté de 200 %. Cependant, il est impossible d’avoir une proportion (exprimée en pourcentage) supérieure à 100 %, car la proportion représente la partie d’un tout. Si une pizza est divisée en 4 pointes égales, il est possible de donner 3 pointes (75 % de la pizza), mais il est impossible d’en donner 5 (125 % de la pizza) parce qu’il y en a seulement 4.

318 Analyse quantitative en sciences humaines
18 % × 86 = 18 100 × 86 = 18 ÷ 100 × 86 = 15,5 G$
1 Le symbole G signifie « milliard ».

C / La moyenne pondérée

La moyenne pondérée est une moyenne où les valeurs ont été pondérées, c’est-à-dire qu’un poids a été attribué à chaque valeur de la variable. La moyenne pondérée se calcule en additionnant le produit de chaque valeur par son poids, puis en divisant le résultat par la somme des poids.

Moyenne pondérée = Somme de chaque valeur multipliée par son poids Somme des poids

Exem ple

La moyenne indiquée sur un relevé de notes universitaire est une moyenne pondérée selon le nombre de crédits par cours. Comme le relevé de notes universitaire comporte des lettres, il faut d’abord convertir chaque lettre en nombre, puis calculer la moyenne pondérée. Le tableau suivant donne les notes finales d’une étudiante à un trimestre.

Pour déterminer la moyenne du trimestre, il faut calculer la moyenne pondérée.

L’étudiante a donc une moyenne de 3,225, qui est arrondie à 3,2 sur le relevé de notes.

Le poids de chaque valeur peut être exprimé en pourcentage. Dans ce cas, le calcul de la moyenne pondérée est le même, et la somme des poids donne 100.

La note finale à un cours au cégep peut provenir d’une moyenne pondérée dont le poids des évaluations est exprimé en pourcentage de la note finale. Voici le résumé des notes d’un étudiant.

319 Annexe 1 Quelques notions mathématiques
TITRE DU COURS NOTE FINALE VALEUR NUMÉRIQUE NOMBRE DE CRÉDITS Cours 1 A 4,0 2 Cours 2 A– 3,7 1 Cours 3 B 3,0 3 Cours 4 B+ 3,3 3 Cours 5 B– 2,7 3
Note moyenne = (4,0 × 2) + (3,7 × 1) + (3,0 × 3) + (3,3 × 3) + (2,7 × 3) 2 + 1 + 3 + 3 + 3 = 38,7 12 = 3,225
Exem ple
TYPE D’ÉVALUATION RÉSULTAT (SUR 100) POURCENTAGE DE LA NOTE FINALE (%) Examen 1 70 20,0 Examen 2 80 25,0 Examen 3 75 30,0 Laboratoire 90 15,0 Devoir 85 10,0

Pour déterminer la note finale, il faut calculer la moyenne pondérée.

Note finale = (70 × 20) + (80 × 25) + (75 × 30) + (90 × 15) + (85 × 10) 20 + 25 + 30 + 15 + 10 = 7 850 100 = 78,5

L’étudiant a donc obtenu une note de 78,5, qui est arrondie à 79 % sur le relevé de notes.

D / Les conventions dans l’arrondissement et les calculs

Les conventions sur l’arrondissement des pourcentages prévoient qu’ils sont toujours arrondis à une décimale.

Si la deuxième décimale du pourcentage est 0, 1, 2, 3 ou 4, alors la première décimale demeure intacte.

10,53 % 10,5 %

Si la deuxième décimale du pourcentage est 5, 6, 7, 8 ou 9, alors la première décimale est augmentée de 1.

10,58 % 10,6 %

Les calculs sur des nombres qui n’ont pas la même précision demandent d’arrondir au nombre ayant la plus petite précision. Par exemple, si une personne déclare avoir gagné exactement 38 521,85 $ l’an passé et qu’une autre donne une valeur approximative de 55 000 $, il faudra arrondir le premier nombre à 39 000 $ si on veut effectuer des opérations sur ces valeurs.

38 521,85 $ 55 000 $

(plus petite précision)

39 000 $ 55 000 $

E / Les mesures de comparaison de deux nombres

On peut comparer deux nombres (non égaux) de façon qualitative en utilisant la relation d’ordre ou de façon quantitative en calculant une variation, un pourcentage de variation ou un facteur multiplicatif.

La relation d’ordre (>, <, =) est une mesure de comparaison qualitative parce qu’elle permet de comparer deux nombres avec des mots comme plus grand, supérieur, plus petit, inférieur ou égal La variation, le pourcentage de variation et le facteur multiplicatif sont des mesures de comparaison quantitatives parce qu’elles permettent de comparer deux nombres avec des chiffres.

Avant d’entrer dans les détails, il faut comprendre que la comparaison a un sens : comparer B avec A ne produit pas la même mesure que comparer A avec B

Exem ple

Si Andrew a 40 $ et Blanche a 60 $, alors on peut comparer l’avoir de Blanche avec l’avoir d’Andrew (Blanche a plus d’argent qu’Andrew) ou bien comparer l’avoir d’Andrew avec l’avoir de Blanche (Andrew a moins d’argent que Blanche).

Dans certains contextes, on compare le prix actuel d’un article (A) avec son nouveau prix (B) ou la valeur initiale d’un placement (A) avec sa valeur finale (B).

320 Analyse quantitative en sciences humaines

Annexe 6 / Le sondage

Pourquoi faire un sondage ?

Le sondage est un moyen d’investigation très répandu en sciences humaines. Il permet de se renseigner sur de nombreux aspects de la vie de plusieurs individus. Les questions peuvent porter sur les caractéristiques des répondants, sur leurs comportements, leurs opinions, leur situation sociale, familiale ou professionnelle, leur niveau de connaissance ou de conscience d’un phénomène, etc.

Vous avez peut-être entendu la formulation questionnaire d’enquête pour parler d’un sondage. Y a-t-il une différence entre les deux ? Au sens strict, on peut les distinguer l’un de l’autre. Le questionnaire d’enquête aborde des sujets variés en posant un grand nombre de questions (10 ou plus) à un échantillon constitué d’un petit nombre de répondants (au maximum quelques centaines d’individus). Quant au sondage, il pose peu de questions (moins de 10), principalement liées à des opinions, à un échantillon constitué d’au moins 1 000 individus. Néanmoins, le sondage et le questionnaire d’enquête étant assez semblables du point de vue méthodologique, le texte a été simplifié en utilisant le terme sondage pour désigner les deux méthodes de recherche.

Le sondage relève principalement de l’approche quantitative. Il privilégie les questions fermées auxquelles une personne répond en sélectionnant un ou plusieurs choix dans une liste de réponses prédéterminées. Les résultats du sondage sont habituellement dénombrés et regroupés par modalités, valeurs ou classes, et présentés sous la forme d’un nombre, ce qui permet entre autres :

de présenter les résultats sous forme de tableau ou de graphique en inscrivant les fréquences absolues et relatives. Cette présentation met en évidence les informations que le chercheur ou la chercheuse juge pertinentes lors de l’interprétation ;

Répartition des 60 répondants selon l’exercice de leur droit de vote à l’élection fédérale, 2021

Source : Données fictives.

En 2021, 75% des répondants affirment avoir voté à l’élection fédérale.

333 Annexe 6 Le sondage
Exem ple
EXERCICE DU DROIT DE VOTE NOMBRE DE RÉPONDANTS POURCENTAGE DES RÉPONDANTS (%) A voté 45 75 N’a pas voté 12 20 A annulé son vote 3 5 Total 60 100

de comparer les résultats de deux réponses afin de déterminer s’il existe un lien statistique entre elles (comme un lien de corrélation) ;

Répartition des 60 répondants selon leur âge et l’exercice de leur droit de vote

EXERCICE DU DROIT DE VOTE 18-30 ans 31-60 ans 61 ans

Source : Données fictives.

En 2021, 15 répondants âgés de 18 à 30 ans affirment avoir voté comparativement à 13 pour les 31 à 60 ans et 17 pour les 61 ans et plus.

d’établir l’évolution dans le temps de résultats obtenus lors de sondages tenus à des époques différentes.

Intention d’exercer son droit de vote aux élections québécoises chez les 18-30 ans, sur 1 000 répondants, selon un sondage mené avant chaque élection

Source : Données fictives.

Dans la période de 2003 à 2022, 2008 est l’année où l’on remarque la plus faible intention d’exercer son droit de vote chez les 18-30 ans avec seulement 585 répondants.

Les types d’enquêtes

Les sondages peuvent se dérouler une seule fois ou à plusieurs reprises.

A / L’enquête transversale

Si le sondage se déroule une seule fois, il s’agit d’une enquête transversale ou sondage instantané

Ce type d’enquête effectue un portrait de la situation actuelle afin de découvrir les attitudes, les opinions, les comportements ou les connaissances d’une population à l’égard d’un sujet.

334 Analyse quantitative en sciences humaines
Exem ple Exem ple
ÂGE
TOTAL A voté 15 13 17 45 N’a pas voté 8 3 1 12 A annulé son vote 1 2 0 3 Total 24 18 18 60
et plus
2003 2007 2008 2012 2014 2018 2022 637 726 585 669 673 722 703

B / L’enquête longitudinale

Si le sondage est répété plus d’une fois, il s’agit d’une enquête longitudinale. Elle compare les résultats d’au moins deux sondages se déroulant à des époques différentes, afin de constater les changements qui ont pu se produire à travers le temps.

On reconnaît à l’enquête longitudinale trois modèles :

L’étude de tendance pose, après un certain temps, des questions comparables à des populations différentes. Le questionnaire est similaire, mais la même personne ne peut répondre deux fois au sondage. Cela permet de voir l’évolution de certaines opinions, attitudes et perceptions ou de certains comportements au sein de la population.

Effectuer un sondage sur la perception qu’a le public du mariage des personnes homosexuelles en 1970, et reprendre les mêmes questions en 2023 pour voir si les réponses seront différentes.

L’étude de cohorte vise à poser, à au moins deux reprises, les mêmes questions à une population fixe. Il est possible que la même personne réponde deux fois au questionnaire, mais ce n’est pas assuré.

Effectuer un sondage auprès d’étudiants du collégial sur la manière dont ils envisagent la conciliation d’un travail rémunéré et de leurs études. Si les questionnaires sont distribués en 2022 et en 2024, il est possible qu’une même personne soit sélectionnée pour les deux enquêtes, si elle n’a pas encore terminé ses études collégiales, mais la plupart des étudiants ne rempliront le questionnaire qu’une seule fois.

L’étude de panel, ou de division, vise à détecter les changements dans la vie d’un individu ou d’un groupe en le questionnant à plusieurs reprises. Ce sont les mêmes personnes qui recevront le questionnaire, par exemple tous les cinq ans. Le risque de perdre une partie des répondants, que ce soit en raison d’un désistement, d’un décès ou d’un déménagement, est assez élevé. Effectuer une enquête, tous les trois ans, auprès des parents de 500 enfants grands prématurés.

La collecte des données par sondage

Il existe plusieurs manières de collecter les données auprès des répondants. Le sondage peut être rempli par l’enquêteur ou l’enquêtrice à partir des réponses des participants. Cela peut se faire en présence ou par téléphone. Il peut aussi être rempli directement par les répondants (sondage autoadministré). Dans ce cas, l’enquêteur ou l’enquêtrice peut remettre le sondage aux répondants en main propre ou encore le leur faire parvenir par la poste ou par Internet. Le choix de la méthode de collecte repose sur le contexte et les contraintes (temps, argent, distance, etc.) de la recherche.

A / Le questionnaire distribué en personne

Dans ce cas, la présentation orale doit être claire, succincte et textuellement identique à celle qui apparaît sur le formulaire, car le message doit être exactement le même pour tous. Le chercheur ou la chercheuse doit être à l’écoute des répondants afin d’être en mesure de répondre à leurs questions et de s’assurer qu’ils ont bien compris ce qu’ils auront à faire. Cependant, il importe de ne pas dépasser le cadre de ce qu’il est possible de dire car, pour avoir des données comparables, il faut que tout le monde ait été soumis à la même interrogation. Que le sondage soit distribué par une seule personne ou en équipe, il faut toujours agir de façon identique afin de maintenir la constance de l’instrument de collecte.

335 Annexe 6 Le sondage
Exem ple Exem ple Exem ple

Analyse quantitative

en sciences humaines

Une approche adaptée aux sciences humaines

Conçu pour vous accompagner dans l’exploration du cours d’analyse quantitative, cet ouvrage s’appuie sur les étapes de la démarche scientifique dans le but de vous initier aux notions importantes de ce cours.

Chaque chapitre est structuré non seulement pour soutenir et consolider vos apprentissages, mais aussi pour affûter votre esprit critique et développer votre sens de l’interprétation. Les notions sont expliquées progressivement et appuyées par des exemples clairs issus des différentes disciplines des sciences humaines. De plus, les nombreux exercices permettent une mise en pratique simple et efficace.

Grâce à ce manuel, vous serez en mesure de produire, de recevoir et d’interpréter de l’information quantitative pour ainsi mieux comprendre les phénomènes humains et sociaux. Ces compétences représentent une base solide pour la suite de vos études.

Dans la même collection Sur maZoneCEC, accédez au manuel en format numérique (PC, Mac, Chromebook et iPad) ainsi qu’aux contenus suivants :

• du matériel complémentaire ;

• une base de données pour réaliser en classe des parties théoriques et des rubriques Pause exercice ;

• une base de données réelles ;

• des exercices intégratifs ;

• des tutoriels Excel adaptés au manuel ;

• des exercices interactifs autocorrectifs pour tous les chapitres.

Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.