Les Mesures de tendance centrale
DE MANIÈRE CONCRÈTE, À LA FIN DE CE CHAPITRE, VOUS POURREZ
: distinguer le mode, la médiane et la moyenne ; déterminer et interpréter le mode avec des données groupées ou non ; déterminer si une distribution est unimodale, bimodale ou multimodale ; déterminer et interpréter la médiane avec des données groupées ou non ; calculer et interpréter la moyenne avec des données groupées ou non ; décrire les caractéristiques d’une distribution unimodale à l’aide des mesures de tendance centrale ; choisir la mesure de tendance centrale adéquate pour décrire une distribution.
Élaborer la méthodologie et collecter les données
Analyser les données et interpréter les résultats
Diffuser les résultats de la recherche
6
étape étape étape étape
/quantipense/
Fausse nouvelle sur la moyenne
L’administration du collège QP diffuse l’information suivante : « Ici, tous les cours obtiennent des moyennes qui passent. Un ami vous dit : « Cool ! Je vais m’inscrire à ce collège… Tout le monde passe ses cours ! Votre ami a-t-il tort ou raison ?
• Il a raison si tous les cours ont des moyennes qui passent et que tous les élèves ont passé le cours. Cette situation est illustrée par les données du groupe A, où la moyenne passe le cours (elle est de 65 %) et que tous les élèves ont passé le cours.
• Il a tort si la moyenne d’un cours passe, mais que la majorité des élèves n’ont pas passé le cours. Cette situation est illustrée par les données du groupe B, où la moyenne passe le cours (elle est de 65 %), mais la majorité des élèves (60 %) n’ont pas passé le cours.
Groupe A
60, 60, 61, 62, 65, 65, 67, 70, 70, 70
Regardons de plus près…
Groupe B 39, 45, 50, 54, 55, 55, 70, 90, 95, 97
Contrairement à ce qu’on pense, la moyenne n’est pas une mesure associée à la majorité des unités statistiques. Il est donc possible que la moyenne d’une classe soit supérieure ou égale à 60 % et que la majorité n’ait pas passé le cours. Si on veut une mesure qui caractérise la majorité, il faut plutôt s’intéresser à la médiane. Pour poursuivre cette réflexion, allez à la page 160.
L’étape 3 de la démarche scientifique est d’analyser les données et d’interpréter les résultats de l’analyse. Vous devez donc :
Sous-étape 1 : Choisir le type d’analyse quantitative
Sous-étape 2 : Interpréter les résultats de l’analyse
L’analyse quantitative de données signifie d’effectuer des calculs sur les données afin d’en extraire des informations quantitatives importantes (l’unité statistique, la variable, le type de variable et le nombre d’unités statistiques) par rapport à la problématique. Encore une fois, on ne fait pas des calculs pour faire des calculs ; on fait des calculs pour produire de l’information pertinente sur la problématique, pour faire « parler » les données. L’analyse peut porter sur une variable (analyse univariée), sur un échantillon afin de tirer une conclusion sur la population (analyse inférentielle) ou sur deux variables (analyse bivariée). On reviendra sur l’analyse inférentielle et sur l’analyse bivariée aux chapitres 9 et 10.
L’analyse quantitative d’une variable (ou analyse univariée) s’effectue en calculant des mesures descriptives univariées. Le choix de la mesure dépend de votre question de recherche et de ce que vous voulez décrire.
Les mesures de tendance centrale comme le mode, la médiane et la moyenne permettent de sélectionner un représentant des données (chapitre 6).
Les mesures de dispersion comme l’étendue, l’écart type et le coefficient de variation permettent de déterminer si les données sont près les unes des autres ou si elles ne le sont pas (chapitre 7).
Les mesures de position comme le quantile, le rang et la cote Z permettent de situer les données les unes par rapport aux autres (chapitre 8).
146 Analyse quantitative en sciences humaines
Un aperçu des mesures de tendance centrale
Une mesure de tendance centrale permet de choisir une modalité d’une variable qualitative ou une valeur d’une variable quantitative pour qu’elle soit représentative de l’ensemble de toutes les données. Ainsi, l’objectif est de résumer toutes les données par une seule modalité ou une seule valeur qui devient en quelque sorte le centre de la distribution.
Il y a trois mesures de tendance centrale qui permettent de déterminer le centre d’une distribution de données.
1. Le mode représente la modalité ou la valeur qui a la plus grande fréquence. Il est le centre de concentration des données.
2. La médiane représente la modalité ou la valeur qui se trouve à la moitié des données ordonnées. Elle est la position centrale (ou le centre de position) des données.
3. La moyenne représente la valeur à attribuer à chaque unité statistique pour que la somme totale soit également répartie entre toutes les unités statistiques. Cette redistribution des valeurs permet notamment au graphique d’être en équilibre sur la moyenne et, par conséquent, la moyenne agit comme le centre d’équilibre des données.
Le mode
Le mode a les caractéristiques suivantes : il représente le centre de concentration, soit la modalité ou la valeur ayant la plus grande fréquence ; il est possible de le déterminer pour tous les types de variables ; il n’est pas nécessairement unique, c’est-à-dire qu’une distribution peut avoir plusieurs modes.
6.2.1 Le centre de concentration des données
Le mode permet de repérer le centre de concentration des données : une modalité ou une valeur à laquelle ou près de laquelle se concentrent beaucoup de données. Le graphique suivant donne les résultats d’un échantillonnage accidentel effectué à la cafétéria pendant le repas du midi.
Répartition en pourcentage des personnes interrogées selon le nombre de repas hebdomadaires pris à la cafétéria
147 3 Chapitre 6 LES Mesures de tendance centrale
6.1
6.2
Figure 6.1 / Illustration du centre de concentration
Source :
Pourcentage de personnes (%) Nombre de repas 70 60 50 40 30 20 10 0 0 1 2 3 4 5 Mode
Données fictives.
Dans la distribution de la figure 6.1, la majorité des personnes interrogées (60 %) ont déclaré manger 4 repas à la cafétéria par semaine. Cette valeur est donc le centre de concentration des données, parce qu’elle représente celle qui revient le plus souvent chez les personnes. Le mode sera donc « 4 repas » et la distribution sera appelée unimodale, parce qu’elle n’a qu’un mode.
6.2.2 La détermination et l’interprétation
Le mode représente la donnée la plus populaire, la donnée la plus « à la mode » et se note Mo. Il se détermine en repérant la donnée ayant la plus grande fréquence. La technique pour déterminer le mode est la même que les données proviennent d’une population ou d’un échantillon, mais il est suggéré d’utiliser des données groupées, parce qu’elles ont déjà été dénombrées.
Tableau 6.1 / Détermination du mode selon le type de données
TYPE DE DONNÉES
Non groupées Pour une question d’efficacité, il est suggéré de grouper les données pour déterminer le mode.
Groupées par modalités Le mode se détermine en repérant la modalité ayant la plus grande fréquence (absolue ou relative) dans le tableau de distribution ou dans son graphique.
Groupées par valeurs Le mode se détermine en repérant la valeur ayant la plus grande fréquence (absolue ou relative) dans le tableau de distribution ou dans son graphique.
Groupées par classes Le mode est inclus dans la classe modale qui se détermine en repérant la classe ayant la plus grande fréquence (absolue ou relative) dans le tableau de distribution ou dans l’histogramme. Le mode peut être choisi comme le milieu de la classe modale ou comme le point le plus élevé sur un polygone de fréquences.
Il est à noter que le groupement des données par classes permet de faire apparaître le mode sous la forme d’une classe modale, autrement il n’y aura probablement pas de mode. En effet, comme les données d’un groupement par classes sont en général toutes différentes, il est fort possible qu’aucune d’elles ne se distinguerait des autres par sa fréquence, ce qui n’est pas le cas des classes.
Le tableau de distribution suivant présente les données d’un groupe d’étudiants selon qu’ils ont occupé ou non un emploi durant l’été.
Répartition des étudiants selon qu’ils ont occupé ou non un emploi d’été
Source : Données fictives. La modalité ayant le plus haut pourcentage dans le tableau est « Oui . Le mode est donc cette modalité et on peut le noter Mo = Oui.
148 Analyse quantitative en sciences humaines
TECHNIQUE POUR DÉTERMINER
LE MODE
Exem ple
EMPLOI D’ÉTÉ NOMBRE D’ÉTUDIANTS POURCENTAGE D’ÉTUDIANTS (%) Oui 20 55,6 Non 16 44,4 Total 36 100,0
Dans l’exemple précédent, le mode n’est pas 55,6 %, mais la modalité « Oui ». En fait, on utilise l’effectif ou le pourcentage pour déterminer le mode, mais le mode n’est pas l’effectif, ni le pourcentage. Il est la modalité, la valeur ou la classe dont l’effectif ou le pourcentage est le plus élevé.
Pour des données groupées par modalités ou par valeurs, le mode s’interprète selon sa fréquence.
Si la fréquence relative (exprimée en pourcentage) du mode est plus grande que 50 %, alors le mode s’interprète ainsi : La majorité [des unités statistiques] ont [le mode].
Si la fréquence relative (exprimée en pourcentage) du mode est plus petite ou égale à 50 %, alors le mode s’interprète ainsi : Une pluralité [des unités statistiques] ont [le mode].
Pour des données groupées par classes, la classe modale (et son mode, s’il y a lieu) s’interprète selon sa fréquence.
Si la fréquence relative (exprimée en pourcentage) de la classe modale est plus grande que 50 %, alors :
•l’interprétation de la classe modale est : La majorité [des unités statistiques] sont [dans la classe modale] ;
•l’interprétation du mode est : La majorité [des unités statistiques] sont autour [du mode].
Si la fréquence relative (exprimée en pourcentage) de la classe modale est plus petite ou égale à 50 %, alors :
•l’interprétation de la classe modale est : Une pluralité [des unités statistiques] sont [dans la classe modale] ;
•l’interprétation du mode est : Une pluralité [des unités statistiques] sont autour [du mode].
Le mode de l’exemple sur l’occupation d’un emploi d’été s’interprète ainsi : La majorité des étudiants (55,6 %) du groupe ont occupé un emploi d’été.
Dans ce manuel, il est sous-entendu que la majorité est une majorité absolue et que la pluralité est une majorité simple. Rappelons que :
la majorité absolue représente plus de 50 % des unités statistiques, aussi décrite comme 50 % des unités statistiques + 1 ;
la majorité simple représente 50 % et moins des unités statistiques. Dans ce cas, on parle plutôt de pluralité.
Pourquoi distinguer la majorité de la pluralité dans l’interprétation du mode ?
Parce qu’on cherche une donnée qui est la plus représentative des données et cette distinction est importante.
Si le mode est majoritaire, alors la majorité des données est concentrée au mode et le mode résume bien la tendance centrale des données.
Si le mode n’est pas majoritaire, alors le mode est une pluralité et il est possible :
•d’avoir plusieurs modes, et donc plusieurs centres de concentration (voir la section 6.2.3) ;
•que le mode ne représente pas la tendance centrale des données (voir la section 6.5.2) ;
•de faire des groupements de modalités, de valeurs ou de classes afin de rendre le mode très minoritaire (illustré dans le prochain exemple).
149 Chapitre 6 LES Mesures de tendance centrale 3
Une municipalité veut aménager une piste cyclable dans un nouveau quartier résidentiel. Elle a convenu de trois tracés différents. Elle décide de sonder deux groupes de personnes.
Dans le groupe A, le mode est le tracé 3 et il représente la majorité des personnes (75,0 %). Le centre de la distribution est le tracé 3 et la concentration des données y est très forte. Le consensus sur le tracé 3 représente très bien l’opinion des personnes.
Répartition en pourcentage des personnes du Groupe A selon leur opinion
Source : Données fictives.
Dans le groupe B, le mode demeure le tracé 3, mais il ne représente qu’une pluralité (37,0 %) des personnes. Ainsi, la concentration des données est faible au mode de sorte que si les personnes du tracé 1 s’unissent à celles du tracé 2, elles l’emporteront sur celles du tracé 3. Ceci n’était pas possible pour les personnes du groupe A. Le tracé 3 représente quand même la tendance centrale, mais cette tendance est très faible.
Répartition en pourcentage des personnes du Groupe B selon leur opinion
Données fictives.
150 Analyse quantitative en sciences humaines
Exem ple
Pourcentage de personnes (%) Opinion 80 60 40 20 0 Tracé 1 Tracé 2 Tracé 3 Indécis 10,0 10,0 75,0 5,0 Opinion Tracé 1 Tracé 2 Tracé 3 Indécis 30,0 28,0 37,0 5,0 Pourcentage de personnes (%) 80 60 40 20 0
Source :
1. En 1666, Jean Talon a été le premier surintendant à faire le recensement de la population d’ascendance européenne en Nouvelle-France. Les variables ont été l’âge, le type d’emploi, le statut matrimonial, le nombre de personnes par famille et le lieu de résidence. Répartition des habitants d’ascendance européenne selon le lieu d’habitation, Nouvelle-France, 1666
Source : Statistique Canada. Recensement de 1665-1666 Nouvelle-France, Tableau I - Ménages, Population, Sexes, État de Mariage. [https://web.archive.org/web/20130517210756/http://statcan.gc.ca/kits-trousses/jt1-fra.htm]
(Page consultée le 8 mars 2023).
a) Relevez les informations quantitatives importantes.
b) Quel est le mode ? Interprétez-le.
6.2.3 Les distributions unimodales, bimodales et multimodales
Le mode est la seule mesure de tendance centrale qui n’est pas nécessairement unique dans une distribution de données. En effet, comme le mode représente un centre de concentration de données dans une distribution, il est possible qu’il y en ait un, deux ou plus de deux ou bien qu’il n’y en ait aucun (c’est le cas lorsque toutes les modalités, valeurs ou classes ont sensiblement la même fréquence). Ainsi, une distribution est : une distribution unimodale si elle a un seul mode ; une distribution bimodale si elle a deux modes ; une distribution multimodale si elle a plus de deux modes.
Il est à noter que dans une distribution bimodale ou multimodale, il est possible que les modes n’aient pas exactement la même fréquence, mais des fréquences similaires qui se démarquent nettement des autres fréquences, comme le montre l’exemple de la page suivante.
151 Chapitre 6 LES Mesures de tendance centrale 3
Pause exercice
LIEU NOMBRE D’HABITANTS
EUROPÉENNE
D’ASCENDANCE
D’ASCENDANCE EUROPÉENNE (%) Québec et ses environs 2 135 66,4 Trois-Rivières et ses environs 455 14,2 Montréal et ses environs 625 19,4 Total 3 215 100,0
POURCENTAGE D’HABITANTS
Voici la distribution des employés d’une usine selon leur salaire annuel de 2022.
Répartition en pourcentage des employés d’une usine selon le salaire
Source : Données fictives.
Les classes salariales [0, 20[, [20, 40[ et [80, 100[ ont des fréquences similaires (22 %, 22 % et 23 %) qui se distinguent nettement des autres. Même si deux de ces classes sont collées, elles constituent quand même deux classes modales distinctes. La distribution a donc 3 modes ; elle est multimodale.
Une distribution ayant plusieurs modes illustre généralement la présence de sous-groupes concentrés autour des modes. Il est alors suggéré de faire une étude plus exhaustive pour préciser les caractéristiques de ces sous-groupes.
Différents facteurs influencent la présence de plusieurs modes et en les repérant, on peut réussir à diviser la distribution en sous-groupes. Dans l’exemple de la distribution multimodale des salaires, le fait d’occuper un emploi à temps partiel ou à temps complet a un impact sur le salaire annuel. Il faut donc séparer les employés selon qu’ils sont à temps partiel ou à temps plein. Ce faisant, on obtient deux distributions unimodales.
Répartition en pourcentage des employés à temps partiel d’une usine selon le salaire
Source : Données fictives.
152 Analyse quantitative en sciences humaines
Exem ple
Exem ple
Pourcentage d’employés (%) Salaire (en milliers de dollars) 25 20 15 10 5 0 0 20 40 60 80 100 120 140 12,0 8,0 23,0 10,0 3,0 22,0 22,0 Pourcentage d’employés (%) Salaire (en milliers de dollars) 50 40 30 20 10 0 0 20 40 60 80 100 120 140 15,0 0,0 0,0 0,0 0,0 45,0 40,0
Répartition en pourcentage des employés à temps complet d’une usine selon le salaire
0 20 40 60 80 100 120 140 15,0 45,0 5,0 0,0 3,0 20,0 12,0 Pourcentage d’employés (%) 50 40 30 20 10 0
Source : Données fictives.
6.3
Salaire
La médiane
La médiane a les caractéristiques suivantes : elle représente le centre de position, soit la modalité ou la valeur située à la moitié des données ordonnées ; elle se détermine à partir de données qui doivent être ordonnées, comme les données d’une variable qualitative ordinale ou d’une variable quantitative (discrète ou continue) ; elle ne peut donc pas être déterminée dans une série de données provenant d’une variable qualitative nominale, car il n’est pas possible de les ordonner ; elle est utile lorsque la distribution est unimodale et fortement étalée.
6.3.1 Le centre de position des données
La médiane permet de déterminer la position centrale (aussi appelée centre de position) des données, soit la modalité ou la valeur qui est située à la moitié des données ordonnées . On peut dire que la médiane est ce qui coupe la série statistique en deux parties égales. Si l’on veut trouver la médiane de la variable du temps pris pour se rendre au cégep pour un groupe de neuf personnes, on peut la représenter de la manière suivante.
Temps pour se rendre au cégep (en minutes) Médiane
153 Chapitre 6 LES Mesures de tendance centrale 3
Source : Données fictives. 0 10 20 30 40 50 60 4 données 4 données
Figure 6.2 / Illustration du centre de position
(en milliers de dollars)
La médiane est la donnée située à la position 5, car il y a 4 données inférieures et 4 données supérieures. On voit que la médiane coupe la série en deux groupes de même taille, mais ces groupes ne représentent pas exactement 50 % des données. Comme on interprète généralement la médiane avec « inférieure ou égale », on a tendance à ajouter la médiane au calcul du pourcentage. Ainsi, 5 données sur 9 sont inférieures ou égales à la médiane, ce qui représente 55,6 % des données.
6.3.2 La détermination et l’interprétation
La médiane représente ce qui coupe les données en deux parties égales et se note Md (ou Me, chez certains auteurs). Elle se détermine en ordonnant les données, puis en choisissant la modalité ou la valeur selon qu’il y a une position centrale (nombre impair de données) ou deux positions centrales (nombre pair de données)1.
La technique pour déterminer la médiane est la même qu’il s’agisse de données provenant d’une population ou d’un échantillon. On a choisi d’adopter une approche qui diffère légèrement selon que les données sont non groupées ou groupées.
Si les données sont non groupées, on utilise le nombre de données qui correspond à la taille de la population (N) ou à la taille de l’échantillon (n). Comme les formules sont les mêmes, on utilisera N Si les données sont groupées, on peut utiliser le nombre de données, mais on a choisi d’utiliser le pourcentage pour éviter de distinguer les séries impaires des séries paires. Dans ce cas, il faut regarder si le pourcentage cumulé du tableau des fréquences relatives cumulées atteint 50 % ou le dépasse. Cependant, il n’est pas nécessaire de faire le tableau des fréquences relatives cumulées pour trouver ce pourcentage cumulé, car on peut le trouver en additionnant les pourcentages dans le tableau de distribution ou sur son graphique.
Tableau 6.2 / Détermination de la médiane selon le type de données
Modalités non groupées
La médiane se détermine en ordonnant les données par ordre croissant, puis en sélectionnant la modalité selon le nombre N de données.
Si N est impair, la médiane est la modalité située à la position (N + 1) 2
Si N est pair, la médiane est la modalité située à la position N 2
Valeurs non groupées
La médiane se détermine en ordonnant les données en ordre croissant, puis en sélectionnant la valeur selon la parité des N données.
Si N est impair, la médiane est la valeur située à la position (N + 1) 2 .
Si N est pair, la médiane est la demi-somme des valeurs situées aux positions N 2 et N 2 + 1
Groupées par modalités
La médiane est la première modalité pour laquelle le cumul des pourcentages atteint exactement 50 % ou le dépasse.
1 Le cas (plutôt rare) où les données sont paires et les deux positions centrales sont différentes est problématique, car il faut en choisir une pour que la médiane joue son rôle de couper les données en deux parties égales. Dans ce manuel, il a été convenu de choisir la modalité la plus basse pour les valeurs qualitatives ordinales et la valeur qui est la demi-somme entre les deux valeurs centrales pour les variables quantitatives (discrètes ou continues).
154 Analyse quantitative en sciences humaines
TYPE DE DONNÉES TECHNIQUE POUR DÉTERMINER LA MÉDIANE
TYPE DE DONNÉES TECHNIQUE POUR DÉTERMINER LA MÉDIANE
Groupées par valeurs
Le choix de la médiane dépend du cumul des pourcentages, s’il atteint exactement 50 % ou s’il le dépasse.
Si le cumul des pourcentages donne exactement 50 %, la médiane est la demi-somme entre la valeur où le 50 % est atteint et la valeur suivante.
Si le cumul des pourcentages dépasse 50 %, la médiane est la première valeur où le 50 % est dépassé.
Groupées par classes
La médiane se détermine par la méthode numérique ou par la méthode graphique.
Méthode numérique : La classe médiane est la première classe où le cumul des pourcentages atteint ou dépasse 50 %. La médiane se situe dans la classe médiane et se calcule ainsi :
Md ≈ Binférieure + 50 − PCclasse précédente Pclasse × A
Binférieure : Borne inférieure de la classe du quantile
PCclasse précédente : Pourcentage cumulé de la classe précédente
Pclasse : Pourcentage de la classe médiane
A : Amplitude de la classe du quantile
Méthode graphique : Sur l’ogive, la médiane est la valeur sur l’axe des valeurs (axe horizontal) qui correspond à 50,0 sur l’axe des pourcentages cumulés (axe vertical).
Le contexte suivant servira à déterminer la médiane avec des valeurs non groupées.
Voici la série statistique de la variable nombre de médecins par 1 000 habitants pour les 7 pays du G7. Série statistique du nombre de médecins par 1 000 habitants
Source : The World Bank. Physicians (per 1,000 people). [https://data.worldbank.org/indicator/SH.MED.PHYS.ZS] (Page consultée le 7 mars 2023).
Les données sont des valeurs non groupées dont le nombre est impair (N = 7). Il faut donc les ordonner, puis sélectionner la valeur située à la position 4 : 7 + 1 2 = 8 2 = 4
Voici la série ordonnée :
Donc, Md = 3,0 médecins par 1 000 habitants
Dans ce contexte, la médiane coupe la série statistique en deux parties égales, car il y a 3 pays qui ont un nombre de médecins par 1 000 habitants inférieur à la médiane et 3 pays qui ont un nombre de médecins par 1 000 habitants supérieur à la médiane. L’interprétation de cette médiane est présentée à la page 158.
155 Chapitre 6 LES Mesures de tendance centrale 3
PAYS NOMBRE DE MÉDECINS PAR 1 000 HABITANTS Allemagne 4,4 Canada 2,4 États-Unis 2,6 France 3,3 PAYS NOMBRE DE MÉDECINS PAR 1 000 HABITANTS Italie 3,9 Japon 2,5 Royaume-Uni 3,0
2,4 2,5 2,6 3,0 3,3 3,9 4,4
Le contexte suivant servira à déterminer la médiane avec des données groupées par modalités. Ce tableau présente la distribution de la variable taille de l’entreprise parmi les travailleurs du Québec en août 2022.
Répartition des travailleurs selon la taille de l’entreprise, Québec, août 2022
TAILLE
Le cumul des pourcentages est 27,3 + 32,9 = 60,2.
Note : En raison de l’arrondissement des pourcentages, le total n’est pas exactement de 100,0 %.
Source : Statistique Canada. Emploi selon la taille d’établissement, données mensuelles non désaisonnalisées (× 1 000) (No 14-10-0067-01). [https://www150.statcan.gc.ca/t1/tbl1/fr/tv.action?pid=1410006701] (Page consultée le 17 septembre 2022).
Les données sont groupées par modalités. Il faut donc additionner les pourcentages et choisir la modalité pour laquelle le cumul des pourcentages atteint exactement 50,0 % ou le dépasse. La médiane est la deuxième modalité, parce qu’elle représente 27,3 + 32,9 = 60,2 %. Donc, Md = Entreprise de moyenne taille (20 à 99 employés)
Dans ce contexte, comme il y a beaucoup d’unités statistiques qui ont la modalité médiane (32,9 % des travailleurs pour être exact), la médiane ne coupe pas les unités statistiques en deux groupes de taille égale. En effet, il y a 60,2 % des travailleurs qui prennent la médiane ou une modalité inférieure et 72,8 % des travailleurs qui prennent la médiane ou une modalité supérieure (l’interprétation de la médiane dans ce contexte est présentée à la page 158). C’est pourquoi il faudra interpréter la médiane en parlant non pas de 50 % des données, mais d’« au moins 50 % des données ».
156 Analyse quantitative en sciences humaines
DE
DE TRAVAILLEURS (EN MILLIERS) POURCENTAGE DE TRAVAILLEURS (%) Entreprise de petite taille (moins de 20 employés) 1 066,9 27,3 Entreprise de moyenne taille (20 à 99 employés) 1 286,1 32,9 Entreprise de grande taille (100 à 500 employés) 798,2 20,4 Entreprise de très grande taille (plus de 500 employés) 762,4 19,5 Total 3 913,6 100,0
L’ENTREPRISE NOMBRE
Le contexte suivant servira à déterminer la médiane avec des valeurs groupées par classes selon la méthode numérique et la méthode graphique.
Ce tableau des fréquences relatives cumulées donne l’âge des habitants du Canada en 2020. Répartition cumulée des habitants selon l’âge, Canada, 2020
Le cumul des pourcentages dépasse 50 %.
Source : Statistique Canada. Estimations de la population au 1er juillet, par âge et sexe (No 17-10-0005-01). [https://www150.statcan.gc.ca/t1/tbl1/fr/tv.action?pid=1710000501] (Page consultée le 17 mars 2023).
A / La Méthode numérique
La classe médiane est [40, 50[ parce qu’elle est la première classe où le cumul des pourcentages atteint ou dépasse 50,0 %.
Md ≈ Binférieure + 50 – PCclasse précédente Pclasse × A
≈ 40 + 50 – 48,8 12,8 × 10
≈ 40,9 ans
L’interprétation de la médiane dans ce contexte est présentée à la page 158.
Binférieure = 40 ans
PCclasse précédente = 48,8 %
Pclasse = 12,8 %
A = 10 ans
La méthode numérique produit une approximation plus précise que la méthode graphique, car elle permet d’ajouter des décimales.
157 Chapitre 6 LES Mesures de tendance centrale 3
ÂGE (ANNÉES) NOMBRE D’HABITANTS POURCENTAGE D’HABITANTS (%) POURCENTAGE CUMULÉ D’HABITANTS (%) [0, 10[ 3 965 077 10,4 10,4 [10, 20[ 4 174 081 11,0 21,4 [20, 30[ 5 124 309 13,5 34,9 [30, 40[ 5 290 075 13,9 48,8 [40, 50[ 4 853 389 12,8 61,6 [50, 60[ 5 195 620 13,7 75,3 [60, 70[ 4 727 430 12,4 87,7 [70, 80[ 3 007 467 7,9 95,6 [80, 90[ 1 332 684 3,5 99,1 90 et plus 337 034 0,9 100,0 Total 38 007 166 100,0
B / La méthode graphique
Il faut commencer par tracer l’ogive, puis suivre les trois étapes.
Étape 1 : Sur l’axe des y, tracer une droite horizontale à partir du 50 % et jusqu’à l’ogive.
Étape 2 : Au croisement de cette droite et de l’ogive, tracer une droite verticale jusqu’à l’axe des x.
Étape 3 : La médiane est la valeur approximative où cette droite coupe l’axe des x
Figure 6.3 / Utilisation de l'ogive pour déterminer graphiquement une médiane
Répartition cumulée des habitants selon l’âge, Canada, 2020
La médiane est donc environ 41 ans : Md ≈ 41 ans.
La médiane s’interprète très bien lorsque la variable est quantitative et qu’elle prend beaucoup de valeurs différentes (groupement par classes ). En effet, la médiane coupe la série statistique en deux groupes sensiblement de même taille. En général, on interprète la médiane vers le bas : Environ 50 % [des unités statistiques] ont [la médiane] ou moins. La médiane du contexte sur la répartition des habitants du Canada selon l’âge s’interprète ainsi : Environ 50 % des habitants du Canada sont âgés de 40,9 ans ou moins. Toutefois, il y a des situations où les valeurs élevées sont plus importantes que les valeurs faibles et on préférera interpréter la médiane vers le haut : Environ 50 % [des unités statistiques] ont [la médiane] ou plus. C’est le cas de l’explication de la rubrique Quanti-Pense (voir la page 146).
Si la variable est qualitative ordinale ou quantitative prenant peu de valeurs différentes (groupement par modalités ou par valeurs), alors la médiane s’interprète ainsi : Au moins 50 % [des unités statistiques] ont [la médiane] ou moins. Il est suggéré de remplacer « [la médiane] ou moins » en nommant les modalités ou les valeurs lorsqu’elles sont peu nombreuses.
La médiane du contexte sur le nombre de médecins par 1 000 habitants pour les 7 pays du G7 s’interprète ainsi : Au moins 50 % des pays du G7 ont 3,0 médecins par 1 000 habitants ou moins.
La médiane du contexte sur la répartition des travailleurs québécois selon la taille de l’entreprise s’interprète ainsi : Au moins 50 % des travailleurs du Québec occupent un emploi dans une entreprise de petite taille ou de moyenne taille.
158 Analyse quantitative en sciences humaines
Pourcentage cumulé d’habitants (%) Âge (années) 100 90 80 70 60 50 40 30 20 10 0 0 10 20 30 40 50 60 70 80 90 100
Étape 2
Étape 3
Étape 1
Il faut cependant faire très attention dans l’interprétation de la médiane pour les groupements par modalités ou par valeurs, surtout si la médiane ne représente pas la tendance centrale. En effet, si on applique la phrase « Au moins 50 % [des unités statistiques] ont [la médiane] ou moins » sans réfléchir, elle peut produire une évidence ou bien créer un biais d’ancrage (voir le chapitre 3, à la page 63).
Si la médiane est la modalité ou la valeur la plus haute, alors l’intervalle « la médiane ou moins » couvre tous les cas et le « au moins 50 % » devient 100 %. L’interprétation produit donc une évidence. Ce cas survient uniquement lorsque le mode est majoritaire et situé à la modalité ou à la valeur la plus haute. Il est suggéré de ne pas interpréter la médiane et de choisir le mode comme mesure de tendance centrale (voir la figure 6.4).
Répartition en pourcentage des citoyens selon leur niveau de confiance
Source : Données fictives.
Si beaucoup de données sont égales à la médiane, alors le pourcentage exact peut être très loin du 50 % et l’interprétation de la médiane avec « au moins 50 % » crée un contexte susceptible d’activer le biais d’ancrage. En effet, le 50 % agit comme une ancre et on peut être porté à croire que le pourcentage réel est près de l’ancre. En général, ce cas survient quand la médiane est égale au mode. Il est donc suggéré de ne pas interpréter la médiane et de choisir le mode comme mesure de tendance centrale (voir la figure 6.5).
Répartition en pourcentage des citoyens
159 Chapitre 6 LES Mesures de tendance centrale 3
Figure 6.4 / Distribution unimodale étalée vers la gauche (avec mode majoritaire)
Figure 6.5 / Distribution unimodale non étalée (avec mode majoritaire)
selon leur niveau de confiance
Pourcentage de citoyens (%) Niveau de confiance 60 50 40 30 20 10 0 Nul Faible Moyen Fort Absolu 5,0 5,0 10,0 25,0 55,0 Pourcentage de citoyens (%) Niveau de confiance 80 70 60 50 40 30 20 10 0 Nul Faible Moyen Fort Absolu 10,0 5,0 5,0 5,0 75,0
Source : Données fictives.
2. Le tableau suivant présente la distribution des fréquences relatives cumulées de la variable âge parmi les habitants du Canada en 2000. C’est donc 20 ans avant le tableau de la page 157. Répartition cumulée des habitants selon l’âge, Canada, 2000
/quantipense/
Note : Les données des habitants âgés de 90 ans et plus ne sont pas disponibles.
Source : Statistique Canada. Estimations de la population au 1er juillet, par âge et sexe (No 17-10-0005-01).
[https://www150.statcan.gc.ca/t1/tbl1/fr/tv.action?pid=1710000501] (Page consultée le 2 mars 2023).
a) Estimez la médiane avec la méthode numérique.
b) Estimez la médiane avec la méthode graphique (avec l’ogive).
c) Comparez votre résultat avec l’âge médian de 2020.
La rubrique Quanti-Pense illustre bien la situation où la médiane est une mesure plus appropriée que devrait prendre en considération le futur étudiant. Vous avez pu constater que la moyenne ne donnait pas d’information sur la majorité des étudiants. Autrement dit, si la moyenne d’un cours est supérieure ou égale à 60 %, on ne peut pas conclure que la majorité des étudiants ont passé le cours. Par contre, si la médiane d’un cours est supérieure ou égale à 60 %, on peut conclure que la majorité des étudiants ont passé le cours puisqu’au moins 50 % des étudiants ont eu un résultat égal ou supérieur à la médiane. Illustrons-le avec les données suivantes, où la médiane est de 70 %.
Groupe C
160 Analyse quantitative en sciences humaines
Pause exercice
ÂGE
NOMBRE D’HABITANTS POURCENTAGE D’HABITANTS (%) POURCENTAGE CUMULÉ D’HABITANTS (%) [0, 10[ 3 827 648 12,5 [10, 20[ 4 151 752 13,6 [20, 30[ 4 142 589 13,6 [30, 40[ 4 942 224 16,2 [40, 50[ 4 916 363 16,1 [50, 60[ 3 600 687 11,8 [60, 70[ 2 395 189 7,8 [70, 80[ 1 809 938 5,9 [80, 90[ 770 795 2,5 Total 30 557 185 100,0
(ANNÉES)
0 10 20 30 40 50 60 70 80 90 100 Majorité Md
Note (%)
Pour le groupe C, c’est l’interprétation de la médiane avec sa partie supérieure qui est intéressante parce qu’elle permet de justifier que la majorité des étudiants ont eu une note supérieure ou égale à la médiane.
Maintenant, si la médiane du cours est strictement inférieure à 60 %, peut-on conclure que la majorité des étudiants ont échoué à leur cours ? Oui, parce qu’au moins 50 % des étudiants ont eu un résultat égal ou inférieur à la médiane. C’est le cas illustré ci-dessous où la médiane est de 54%.
Groupe D
Donc, si la médiane du cours est supérieure ou égale à 60 %, alors tout le monde a-t-il passé le cours ? Pas nécessairement… avez-vous passé le cours ? Pas nécessairement… la majorité a-t-elle passé le cours ? Assurément !
6.3.3 L’étalement des données
La médiane est très intéressante pour décrire la tendance centrale d’une distribution unimodale fortement étalée, soit une distribution dont beaucoup d’unités statistiques prennent quelques valeurs ou modalités près les unes des autres et peu d’unités statistiques prennent d’autres valeurs ou modalités éloignées des premières. On présentera une définition plus précise à la section 6.5.1 pour les variables quantitatives. En attendant, intéressons-nous aux variables qualitatives ordinales (les variables qualitatives nominales n’ont pas de médiane).
Pour déterminer la tendance centrale d’une variable qualitative ordinale, il faut choisir entre le mode et la médiane, car cette variable n’a pas de moyenne. On choisit la médiane uniquement si la distribution est unimodale et que la médiane est située plus au milieu des données que le mode. Ceci apparaît généralement lorsque les données sont étalées et que la médiane est différente du mode (voir la figure 6.6, où le mode est « absolu » et la médiane est « fort »). Notons que si la médiane est différente du mode, le mode représente nécessairement une pluralité, car un mode majoritaire est toujours égal à la médiane.
161 Chapitre 6 LES Mesures de tendance centrale 3
Note (%) 0 10 20 30 40 50 60 70 80 90 100 Majorité Md
Répartition en pourcentage des citoyens selon leur niveau de confiance Source : Données fictives. Pourcentage de citoyens (%) Niveau de confiance 50 40 30 20 10 0 Nul Faible Moyen Fort Absolu 5,0 10,0 15,0 30,0 40,0
Figure 6.6 / Distribution unimodale étalée dont le mode est différent de la médiane
La moyenne
La moyenne a les caractéristiques suivantes : elle représente la valeur à attribuer à chaque unité statistique pour que la somme totale soit également répartie entre toutes les unités statistiques. Cette redistribution des valeurs permet au graphique d’être en équilibre sur la moyenne et, par conséquent, la moyenne agit comme le centre d’équilibre des données ; elle se calcule uniquement pour les variables quantitatives (discrètes ou continues), parce qu’il faut que la somme des valeurs ait un sens ; elle est la seule mesure de tendance centrale sensible aux valeurs éloignées et extrêmes.
6.4.1 Le centre d’équilibre des données
La moyenne permet de déterminer le centre d’équilibre des données, soit la valeur qui permet de tenir les unités statistiques en équilibre sur un graphique. La recherche d’équilibre est représentée dans l’illustration suivante qui présente les notes d’un échantillon de 5 étudiants : Alex : 51, Bianca : 62, Claudia : 76, Dimitri : 82, Émile : 89.
/ Illustration du centre d’équilibre
Si on met le doigt ici, le graphique sera alors en équilibre (les billes ne tomberont pas).
Le graphique est en équilibre sur la moyenne parce que les données supérieures à la moyenne sont contrebalancées par les données inférieures à la moyenne. Pour trouver la valeur exacte, il faut trouver le nombre de points à enlever aux notes les plus élevées pour les donner aux notes les moins élevées afin que tous aient la même note. Une option serait la suivante.
Ainsi, les 5 étudiants auraient chacun 72 points.
Au lieu de jouer à trouver l’équilibre sur un graphique avec son doigt ou à trouver les valeurs à enlever aux plus élevées pour les donner aux moins élevées, il est plus simple de calculer la moyenne en additionnant toutes les notes et en divisant le total par le nombre d’étudiants.
Moyenne = 51 + 62 + 76 + 82 + 89
= 360 5 = 72
162 Analyse quantitative en sciences humaines
6.4 Note 50 55 60 65 70 75 80 85 90
Figure 6.7
Alex Bianca Claudia Dimitri Émile
Émile 89 − 17 = 72 Alex 51 + 17 = 68 10
Dimitri 82 − 10 = 72 Bianca 62 + 10 = 72 4 points Claudia 76 − 4 = 72 Alex 68 + 4 = 72
17 points
points
5
6.4.2 Le calcul et l’interprétation
La moyenne se calcule en additionnant toutes les valeurs, puis en divisant la somme par le nombre d’unités statistiques. Le calcul est le même qu’il s’agisse de données provenant d’une population ou d’un échantillon, mais sa notation est différente.
Si les données proviennent d’une population, alors la moyenne se note μ (mu)2
Si les données proviennent d’un échantillon, alors la moyenne se note x (x barre).
La moyenne peut être calculée avec : une calculatrice (voir l’Annexe 4, à la page 328) ; un chiffrier électronique (voir la fonction MOYENNE dans Excel – cette fonction peut seulement être utilisée pour les données non groupées) ; une formule (voir le tableau).
Tableau 6.3 / Calcul de la moyenne selon le type de données
TYPE DE DONNÉES
Non groupées Moyenne = Somme de toutes les valeurs Nombre d’unités statistiques
Groupées par valeurs Moyenne = Somme des produits des valeurs par leur effectif Nombre d’unités statistiques
Groupées par classes Moyenne ≈ Somme des produits du milieu des classes par leur effectif Nombre d’unités statistiques
Ce calcul produit une approximation parce que les données ont été remplacées par le milieu des classes. Pour obtenir la valeur exacte, il faut utiliser les données non groupées de la série statistique.
S’il y a une classe ouverte dans le groupement, il est préférable de calculer la moyenne avec les données non groupées. Dans le cas où les données non groupées sont indisponibles, le calcul demande de fermer la classe ouverte. Il sera alors nécessaire d’ajouter une note précisant qu’une classe a été fermée. La précaution est de mise dans cette situation, car ce calcul produit une approximation qui peut être très éloignée de la valeur réelle.
Voici le tableau de distribution de la répartition du nombre de cellulaires achetés au cours de la dernière année par un échantillon de 31 étudiants. Répartition de 31 étudiants selon leur nombre de cellulaires
Source : Données fictives.
163 Chapitre 6 LES Mesures de tendance centrale 3
CALCUL
DE LA MOYENNE
2 Ce symbole est le m minuscule de l’alphabet grec.
/attention/
NOMBRE DE CELLULAIRES NOMBRE D’ÉTUDIANTS POURCENTAGE D’ÉTUDIANTS (%) 0 12 38,7 1 14 45,2 2 4 12,9 3 1 3,2 Total 31 100,0
Exem ple
La moyenne se note x parce que les données proviennent d’un échantillon. Pour la calculer, il faut additionner le produit des valeurs (première colonne) par leur effectif (deuxième colonne), puis diviser la somme obtenue par le nombre d’unités statistiques (total de la deuxième colonne).
Dans le cas d’une variable qui ne prend que des valeurs entières, il faut arrondir la moyenne à une décimale pour obtenir une mesure plus précise. Cette précision est importante lorsque les populations sont de grandes tailles ou lorsqu’on veut comparer des groupes.
Exem ple
Si les personnes interrogées ont acheté en moyenne 0,8 cellulaire en un an et qu’on arrondit à 1 cellulaire, alors sur une population de 10 millions, l’arrondi crée un achat non réalisé de 2 millions de cellulaires !
L’interprétation de la moyenne est faite en donnant sa valeur (avec ses unités) dans son contexte : [La variable] moyenne [des unités statistiques] est [la moyenne (avec ses unités)]. La moyenne de l’exemple sur le nombre de cellulaires achetés par 31 étudiants s’interprète ainsi : Le nombre moyen de cellulaires achetés au cours de la dernière année par les étudiants est de 0,8 cellulaire.
Il est aussi possible d’interpréter la moyenne en parlant du groupe : [Les unités statistiques] ont en moyenne [la moyenne (avec ses unités)]. Cependant, cette interprétation peut être problématique si la moyenne n’est pas représentative de la tendance centrale des données parce qu’elle crée un contexte susceptible d’activer le biais d’ancrage. Si on lit que dans une entreprise, « les travailleurs gagnent en moyenne 45 $ de l’heure », on pourrait croire que tous les travailleurs ont un salaire horaire près de 45 $ de l’heure. Comme ce n’est pas nécessairement le cas, il est préférable d’interpréter la moyenne ainsi : Le salaire moyen des travailleurs est 45 $ de l’heure. Cette interprétation est plus neutre parce qu’elle ne dit pas que les travailleurs gagnent un certain montant, mais que le salaire moyen est d’une certaine valeur.
Pause exercice
3. Une agence de recrutement a sélectionné un échantillon de Québécois partis dans l’Ouest canadien pour planter des arbres pendant l’été. Elle s’est intéressée à leur revenu quotidien. Complétez le tableau, puis calculez et interprétez la moyenne. Répartition de planteurs d’arbres québécois selon leur revenu quotidien
164 Analyse quantitative en sciences humaines
x = (0 • 12) + (1 • 14) + (2 • 4) + (3 • 1) 31 = 25 31 = 0,8
REVENU (EN DOLLARS) NOMBRE DE PLANTEURS D’ARBRES POURCENTAGE DE PLANTEURS D’ARBRES (%) [0, 100[ 2 [100, 200[ 12 [200, 300[ 20 [300, 400[ 15 [400, 500[ 2 Total Source : Données fictives.
6.4.3 La sensibilité aux valeurs éloignées
La moyenne est la seule mesure de tendance centrale où toutes les valeurs font partie du calcul. Ainsi, les valeurs éloignées des autres ont un impact sur la moyenne et cet impact peut être important. En effet, la moyenne est toujours attirée vers les valeurs plus éloignées parce que, d’un point de vue graphique, elles génèrent beaucoup de poids par rapport au centre d’équilibre du graphique. Ce n’est pas le cas du mode, parce que les valeurs éloignées ne sont pas populaires, ni de la médiane qui se situe toujours au milieu des données.
Pour offrir un cadeau à Kenza, 5 de ses amis donnent chacun 20 $, Félix donne 10 $ et Mathilde hésite entre 30 $, 50 $ ou 70 $. Voici les pictogrammes des trois séries.
Comme vous pouvez l’observer, la contribution de Mathilde a un impact sur la moyenne, mais aucun sur le mode et la médiane. De plus, si elle augmente la valeur de sa contribution, elle augmente aussi la moyenne. En fait, plus Mathilde augmente la valeur de sa contribution, plus la moyenne s’éloigne du mode et de la médiane. Éventuellement, la moyenne ne pourra plus être représentative des données parce que peu de données seront près de la moyenne. Dans le cas où la contribution de Mathilde serait de 1 000 $, la moyenne passerait à 158,57 $. Il serait alors trompeur d’affirmer que les amis ont donné en moyenne 158,57 $ alors que la presque totalité des amis (6 sur 7) ont donné 20 $ ou moins.
Une valeur très éloignée des autres est nommée valeur extrême (la définition sera précisée aux chapitres 7 et 8). Elle a un impact considérable sur la moyenne, comme l’illustre l’exemple classique suivant.
Exem ple
Une personne ayant une fortune de 10 millions de dollars entre dans une pièce où se trouvent 9 personnes sans un sou. Instantanément, tous deviennent en moyenne millionnaires sans que la presque totalité le soit.
165 Chapitre 6 LES Mesures de tendance centrale 3
CHOIX DE MATHILDE MODE MÉDIANE MOYENNE ILLUSTRATION 30 $ 20 $ 20 $ 20 $ Contribution (en dollars) 50 $ 20 $ 20 $ 22,86 $
70 $ 20 $ 20 $ 25,71 $
Contribution (en dollars)
Contribution (en dollars)
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70
Exem ple
Une valeur extrême se distingue d'une valeur aberrante comme suit : une valeur extrême est une valeur très éloignée des autres valeurs de la série statistique, alors qu'une valeur aberrante est une valeur extrême qui n'a pas de sens. Dans une entreprise dont la presque totalité des employés gagnent un salaire inférieur à 100 000 $, un employé qui déclare un salaire de 2 000 000 000 $ produit une valeur aberrante et une employée qui déclare un salaire de 200 000 $ produit une valeur extrême.
La sensibilité de la moyenne aux valeurs éloignées (et extrêmes) est un désavantage pour décrire la tendance centrale des données, mais c’est un avantage pour décrire toutes les données. En effet, il y a des contextes où il faut absolument conserver les valeurs extrêmes.
Un salaire très élevé doit être inclus dans la masse salariale et dans le salaire moyen, parce que ce salaire doit être payé.
Une maison dont la valeur est très élevée doit être incluse dans la valeur moyenne des maisons lorsque la ville fait son budget puisque les taxes de cette maison seront payées.
Pour ces contextes, la moyenne ne représente pas la tendance centrale, mais elle permet de résumer toutes les valeurs. En effet, en multipliant la moyenne par le nombre d’unités statistiques, on obtient toujours la somme totale des valeurs (le salaire moyen multiplié par le nombre d’employés donne la masse salariale).
6.5
L’ANALYSE DES données avec une mesure de tendance centrale
Les mesures de tendance centrale permettent d’analyser les données : en déterminant des types de distributions unimodales ; en trouvant le centre (ou les centres) d’une distribution, soit une modalité ou une valeur qui est prise par beaucoup de données.
6.5.1 Les types de distributions unimodales
Les distributions unimodales n’ont qu’un mode et pour les variables quantitatives, la position relative du mode, de la médiane et de la moyenne permet de distinguer des types de distributions unimodales, soit symétriques, asymétriques à gauche ou asymétriques à droite.
A / LA Distribution unimodale symétrique
La distribution unimodale symétrique est caractérisée par le fait que le mode, la moyenne et la médiane sont égaux et situés au milieu de la distribution. En fait, la distribution est symétrique parce que la moyenne est égale à la médiane et qu’il y a autant de données de part et d’autre du mode.
Répartition en pourcentage de 30 étudiants selon leur note
Source : Données fictives.
166 Analyse quantitative en sciences humaines
/attention/
Pourcentage d’étudiants (%) Note (%) 30 20 10 0 0 30 40 50 60 70 80 90 100
μ = Md = Mo
Cette distribution peut avoir une forme très aplatie, la forme d’une cloche ou une forme très étroite. La distribution unimodale symétrique ayant la forme d’une cloche s’appelle distribution normale et elle jouera un rôle important lorsqu’il sera question de choisir la moyenne comme mesure de tendance centrale ou dans la justification théorique des sondages (estimation de paramètre du chapitre 9). Le degré d’aplatissement de la distribution peut être calculé par une mesure descriptive (voir la rubrique Pour aller plus loin, à la page 168).
Distribution très aplatie
Distribution normale
Distribution très étroite
B / LA Distribution unimodale asymétrique à gauche
La distribution unimodale asymétrique à gauche est caractérisée par un étalement des données à gauche du mode. Il y a ainsi plus de données à gauche du mode qu’à sa droite. De plus, l’étalement à gauche a un impact sur la moyenne, qui la diminue et qui la rend inférieure à la médiane. Répartition en pourcentage des étudiants selon le temps pris pour faire un quiz de 30 minutes
Source : Données fictives.
Une distribution asymétrique à gauche est aussi appelée asymétrique négative. En effet, la moyenne étant inférieure à la médiane (μ < Md), la différence entre la moyenne et la médiane est négative (μ – Md < 0). La moyenne sous-estime donc la médiane ; la majorité des unités statistiques dépassent la moyenne.
167 Chapitre 6 LES Mesures de tendance centrale 3
μ = Md = Mo
μ = Md = Mo
μ = Md = Mo
Pourcentage d’étudiants (%) Temps (min) 50 40 30 20 10 0 0 20 22 24 26 28 30 Mo = 29 Md = 28 μ = 27,2
pour aller plus loin/
C / LA Distribution unimodale asymétrique à droite
La distribution unimodale asymétrique à droite est caractérisée par un étalement des données à droite du mode. Il y a ainsi plus de données à droite du mode qu’à sa gauche. De plus, l’étalement à droite a un impact sur la moyenne, qui l’augmente et qui la rend supérieure à la médiane. Répartition en pourcentage des étudiants selon leur revenu annuel
Source : Données fictives.
Une distribution asymétrique à droite est aussi appelée asymétrique positive. En effet, la moyenne étant supérieure à la médiane (μ > Md), la différence entre la moyenne et la médiane est positive (μ – Md > 0). La moyenne surestime donc la médiane ; la majorité des unités statistiques n’atteignent pas la moyenne.
Il existe des mesures pour calculer le degré d’aplatissement d’une distribution unimodale symétrique et le degré d’asymétrie d’une distribution unimodale asymétrique. Ces mesures ont été programmées dans Excel.
• La fonction KURTOSIS renvoie une valeur négative lorsque la distribution est relativement plate, une valeur nulle lorsque la distribution est normale et une valeur positive lorsque la distribution a un pic étroit.
• La fonction COEFFICIENT.ASYMETRIE renvoie une valeur négative lorsque l’asymétrie est négative (asymétrie à gauche) et une valeur positive lorsque l’asymétrie est positive (asymétrie à droite).
168 Analyse quantitative en sciences humaines
Pourcentage d’étudiants (%) Revenu annuel (en dollars) 50 40 30 20 10 0 0 5 000 10 000 15 000 20 000 25 000 Mo = 2 500 Md = 6 000 μ =
7 350
4. Le tableau de distribution suivant représente la répartition des homicides commis au Canada selon l’âge du suspect.
Répartition des homicides selon l’âge du suspect, Canada, 2021
Note : Les données ont été ajustées et régulées. De plus, en raison de l’arrondissement des pourcentages, le total n’est pas exactement de 100,0 %.
Source : Statistique Canada. Nombre de victimes d’homicide et personnes accusées d’homicide, selon l’identité autochtone, le groupe d’âge et le sexe (No 35-10-0060-01).
[https://www150.statcan.gc.ca/t1/tbl1/fr/cv.action?pid=3510006001] (Page consultée le 17 mars 2023).
a) Trouvez les informations quantitatives importantes.
b) Déterminez le mode, la médiane et la moyenne.
c) La distribution est-elle unimodale, bimodale ou multimodale ? Si elle est unimodale, est-elle symétrique ou non ?
6.5.2 Le choix de la mesure la plus appropriée
Laquelle des trois mesures de tendance centrale est la plus appropriée pour décrire la tendance centrale des données ? Rappelez-vous que la mesure doit être une modalité ou une valeur qui représente bien toutes les données et qui devient en quelque sorte le centre de la distribution. Vous devez donc vous assurer que beaucoup de données sont près de la mesure choisie. Pour déterminer la mesure de tendance centrale à sélectionner, il faut toujours commencer par considérer le mode (voir la figure 6.8, à la page 170).
Si la distribution a deux modes ou plus, chaque mode devient un centre de concentration et la distribution a plusieurs centres. Il est suggéré de faire une étude plus approfondie pour expliquer la présence de plusieurs centres.
169 Chapitre 6 LES Mesures de tendance centrale 3
Pause exercice
ÂGE DU SUSPECT NOMBRE D’HOMICIDES POURCENTAGE D’HOMICIDES (%) [0, 10[ 0 0,0 [10, 20[ 73 11,6 [20, 30[ 240 38,0 [30, 40[ 183 29,0 [40, 50[ 78 12,3 [50, 60[ 38 6,0 60 et plus 20 3,2 Total 632 100,0
Si la distribution a un seul mode, il faut poursuivre l’analyse en considérant le type de variable.
•Si la variable est qualitative nominale, il faut choisir le mode parce que la médiane et la moyenne n’ont pas de sens.
•Si la variable est qualitative ordinale, il faut choisir entre le mode et la médiane. On choisit la médiane uniquement si elle est plus au milieu que le mode.
•Si la variable est quantitative (discrète ou continue), il faut choisir la moyenne lorsque la distribution est plutôt symétrique et choisir la médiane lorsque la distribution est plutôt asymétrique. En effet, si la distribution est plutôt asymétrique, il y a un grand écart entre la médiane et la moyenne, ce qui rend la médiane plus au milieu que la moyenne.
Si une distribution n’a pas de mode, elle n’a pas de tendance centrale. C’est le cas d’une distribution « uniforme » où toutes les modalités, valeurs ou classes ont sensiblement la même fréquence.
Combien de modes y a-t-il ?
1 mode Quel est le type de variable ?
2 modes ou plus 0 mode
Pause exercice
Modes
Nominal Mode
Ordinal La médiane est-elle plus au milieu que le mode ?
Quantitatif (discret ou continu)
La distribution est-elle plutôt symétrique ou plutôt asymétrique ?
Oui : Médiane
Non : Mode
Plutôt symétrique : Moyenne
Plutôt asymétrique : Médiane
Aucune tendance centrale
5. a) Quelle est la mesure de tendance centrale des données pour décrire la distribution de l’âge du suspect de la Pause exercice de la page précédente ?
b) Interprétez votre réponse.
170 Analyse quantitative en sciences humaines
Figure 6.8 / DÉTERMINATION DE la mesure de tendance centrale la plus appropriée
6.5.3 Les forces et les faiblesses
On utilise une mesure de tendance centrale pour ses forces, mais il ne faut pas oublier qu’elle a des faiblesses.
FORCES FAIBLESSES
Mode (Mo)
Le mode peut être déterminé pour tout type de variable. En particulier, le mode est la seule mesure de tendance centrale qui peut être déterminée pour une variable qualitative nominale.
Les valeurs éloignées ou extrêmes n’ont aucun impact sur le mode.
Il permet de déterminer si une distribution peut contenir des sous-groupes. C’est le cas si la distribution est bimodale ou multimodale.
Le mode peut illustrer une pluralité et non la majorité des données.
Il n’est pas utilisé dans les autres mesures descriptives.
Médiane (Md )
La médiane se détermine pour tous les types de variables sauf pour la variable nominale. Les valeurs éloignées ou extrêmes n’ont aucun impact sur la médiane. Elle est très bien adaptée pour décrire une distribution unimodale fortement asymétrique.
La médiane peut créer une interprétation évidente ou un biais d’ancrage si elle est interprétée lorsqu’elle n’est pas représentative de la tendance centrale des données. Elle est peu utile dans le calcul des autres mesures descriptives.
Moyenne (population : μ, échantillon : x )
La moyenne a plusieurs autres utilités que de représenter la tendance centrale des données, car beaucoup de résultats en statistique sont obtenus avec la moyenne (elle permet notamment de définir des mesures de dispersion comme l’écart type et le coefficient de variation, et des mesures de position comme la cote Z).
La moyenne est facile à calculer avec une calculatrice.
La moyenne est très sensible aux valeurs éloignées ou extrêmes et à l’asymétrie des données.
Elle peut ne pas être accessible à la majorité des unités statistiques, c’est-à-dire que la majorité de celles-ci peuvent prendre une valeur inférieure à la moyenne.
Elle se calcule uniquement pour les variables quantitatives.
Elle peut créer un biais d’ancrage si elle est interprétée lorsqu’elle n’est pas représentative de la tendance centrale des données.
171 Chapitre 6 LES Mesures de tendance centrale 3
Tableau 6.4 / Forces et faiblesses des mesures de tendance centrale
résumé
MOYENNE
Notation Mo Md Population : μ
Échantillon : x
Signification de la tendance centrale
Centre de concentration
Type de variable Tous les types de variables
Unicité de la mesure Le mode n’est pas nécessairement unique ; une distribution peut avoir un, deux ou plusieurs modes.
Interprétation statistique
La majorité [des unités statistiques] ont [le mode]. ou Une pluralité [des unités statistiques] ont [le mode].
Centre de position (aussi appelé position centrale)
Qualitatif ordinal et quantitatif (discret et continu)
Centre d’équilibre
Quantitatif (discret et continu)
La médiane est unique. La moyenne est unique.
Détermination de la mesure à l’aide d’un graphique
Choix de la mesure de tendance centrale pour résumer toutes les données en une seule.
La modalité, la valeur ou la classe ayant la plus grande aire.
Distribution bimodale ou multimodale de tout type de variable.
Distribution unimodale d’une variable qualitative.
Au moins 50 % [des unités statistiques] ont [la médiane] ou moins.
[La variable] moyenne [des unités statistiques] est [la moyenne (avec ses unités)].
La valeur où le 50 % d’aire à gauche est franchi. La valeur qui tient en équilibre le graphique.
Distribution unimodale plutôt asymétrique d’une variable quantitative. Distribution unimodale d’une variable qualitative ordinale dont la médiane est plus au milieu.
Distribution unimodale plutôt symétrique d’une variable quantitative.
Sensibilité aux valeurs éloignées
Questions
Section 6.1
1. Qu’est-ce qu’une mesure de tendance centrale ?
2. Quelle mesure de tendance centrale représente…
a) la position centrale ?
b) le centre d’équilibre ?
172 Analyse quantitative en sciences humaines
/En
MODE MÉDIANE
Aucune Aucune Beaucoup
c) le centre de concentration ?
d) ce qui est le plus populaire ?
e) ce qui permet de redistribuer la somme totale des données afin que tous aient la même valeur ?
f) ce qui coupe la série en deux parties égales ?
g) ce qui est à « la mode ?
Section 6.2
3. Répondez aux questions suivantes.
a) Sur quel type de variable le mode se détermine-t-il ?
b) Quel type de tendance centrale d’une distribution le mode représente-t-il ?
c) Quelle est la différence entre la majorité et la pluralité ?
d) Comment trouve-t-on le mode avec des données groupées par modalités ?
e) Une distribution peut-elle avoir plusieurs modes ?
4. Voici le tableau de distribution des fonctionnaires québécois selon leur type d’emploi pour l’année 2020-2021.
Répartition des fonctionnaires québécois (en ETC) selon leur type d’emploi, Québec, DU 1er avril 2020 au 31 mars 2021
Notes : Dans ce tableau, 1 fonctionnaire a été comptabilisé comme 1 ETC (équivalent temps complet). De plus, en raison de l’arrondissement des pourcentages, le total n’est pas exactement de 100,0 %.
Source : Conseil du trésor du Québec. (2020-2021). Effectif de la fonction publique. [https://www.tresor.gouv.qc.ca/ fileadmin/PDF/effectif_fonction_publique/2021/Part2_2021.pdf] (Page consultée le 15 mars 2023).
a) Quelle est l’unité statistique ?
b) Quelle est la variable ?
c) Quel est son type ?
d) Combien de modalités la variable a-t-elle ?
e) Déterminez et interprétez le mode.
173 Chapitre 6 LES Mesures de tendance centrale 3
TYPE D’EMPLOI NOMBRE DE FONCTIONNAIRES POURCENTAGE DE FONCTIONNAIRES (%) Haute direction 743 1,2 Cadre 3 620 5,9 Professionnel 24 785 40,5 Enseignant 499 0,8 Technicien 14 577 23,8 Personnel de bureau 9 777 16,0 Agents de la paix 3 404 5,6 Ouvrier 2 695 4,4 Étudiants et stagiaires 1 171 1,9 Total 61 271 100,0
5. Pour chacun des graphiques suivants, répondez à ces questions.
a) Déterminez si la distribution est unimodale, bimodale, multimodale ou bien si elle n’a pas de mode.
b) Expliquez qualitativement la forme de la distribution : y a-t-il un centre de concentration ? Si oui, où se trouve-t-il ?
Graphique 1
Répartition des employés d’AQ1 selon leur nombre d’années d’expérience
Graphique 2
Répartition des employés d’AQ2 selon leur nombre d’années d’expérience
Graphique 3 Graphique 4
Répartition des employés d’AQ3 selon leur nombre d’années d’expérience
Répartition des employés d’AQ4 selon leur nombre d’années d’expérience
Sources : Données fictives.
6. Déterminez le mode dans chaque circonscription et expliquez l’impact de la distinction entre la majorité et la pluralité sur la vie du député de la circonscription. La distribution des votes selon les deux circonscriptions
174 Analyse quantitative en sciences humaines
CIRCONSCRIPTION 1 CIRCONSCRIPTION 2 Parti A 60 % 33 % Parti B 20 % 30 % Parti C 20 % 37 % Source : Données fictives. Pourcentage d’employés (%) Nombre d’années d’expérience 45 40 35 30 25 20 15 10 5 0 0 5 10 15 20 25 30 10 15 25 40 5 5 Nombre d’années d’expérience 0 5 10 15 20 25 30 30 15 15 5 5 30 Pourcentage d’employés (%) 45 40 35 30 25 20 15 10 5 0 Nombre d’années d’expérience 0 5 10 15 20 25 30 20 20 20 20 20 Pourcentage d’employés (%) 45 40 35 30 25 20 15 10 5 0 Nombre d’années d’expérience 0 5 10 15 20 25 30 40 20 15 12 10 3 Pourcentage d’employés (%) 45 40 35 30 25 20 15 10 5 0
Section 6.3
7. Répondez aux questions suivantes.
a) Quel type de tendance centrale d’une distribution la médiane représente-t-elle ?
b) Pourquoi la médiane ne peut-elle pas être déterminée pour une variable qualitative nominale ?
c) En combien de groupes de données la médiane sépare-t-elle les données ?
d) Quel pourcentage des données chaque groupe représente-t-il approximativement ?
e) Pourquoi le pourcentage n’est-il pas nécessairement exact ?
f) Quand utilise-t-on l’ogive pour déterminer la médiane ?
g) Si la variable est quantitative, la médiane a-t-elle les mêmes unités que la variable ?
8. Dans chacune des situations suivantes, interprétez votre valeur en utilisant la signification de la médiane.
a) Vous avez acheté un condo à 294 999 $ en Mauricie et le prix médian d’un condo est 262 500 $ au deuxième trimestre de 20223
b) Vous avez un salaire horaire de 21,45 $ et le salaire médian québécois est de 27,00 $/h en août 20224
c) Vous avez obtenu 79 % à l’examen et la médiane de l’examen est 74 %.
9. Voici la population des provinces et territoires canadiens en 2020. Déterminez et interprétez la médiane.
Série statistique de la taille de la population
Source : Statistique Canada. Estimations de la population au 1er juillet, par âge et sexe (No 17-10-0005-01). [https://www150.statcan.gc.ca/t1/tbl1/fr/tv.action?pid=1710000501] (Page consultée le 1er mars 2023).
3 Source : Centris. Découvrez votre communauté. [https://www.centris.ca/fr/outils/statistiques-immobilieres/ mauricie] (Page consultée le 1er septembre 2022).
4 Source : Statistique Canada. Salaires des employés selon la permanence de l’emploi et la couverture syndicale, données mensuelles non désaisonnalisées (No 14-10-0065-01). [https://www150.statcan.gc.ca/t1/tbl1/fr/ tv.action?pid=1410006501] (Page consultée le 1er septembre 2022).
175 Chapitre 6 LES Mesures de tendance centrale 3
PROVINCE OU TERRITOIRE POPULATION PROVINCE OU TERRITOIRE POPULATION Terre-Neuve-et-Labrador 521 359 Saskatchewan 1 178 467 Île-du-Prince-Édouard 161 305 Alberta 4 416 682 Nouvelle-Écosse 981 691 Colombie-Britannique 5 155 495 Nouveau-Brunswick 782 996 Yukon 42 163 Québec 8 576 595 Territoires du Nord-Ouest 45 346 Ontario 14 726 022 Nunavut 39 157 Manitoba 1 379 888
10. Le site Perspective de l’Université de Sherbrooke a publié des données sur l’indice global de démocratie pour 163 pays. Cet indice synthétique développé par The Economist représente la démocratie par un nombre à virgule de 0 (absence de démocratie) à 10 (démocratie parfaite). Répartition de 163 pays selon leur indice de démocratie, 2020
Note : En raison de l'arrondissement des pourcentages, le total n'est pas exactement de 100,0 %.
Source : Perspective, Université de Sherbrooke. Démocratie : Indice global, 2020. [https://perspective.usherbrooke.ca/ bilan/servlet/BilanEssai/9/EIU.DEMO.GLOBAL/2020/2/x//sans/sansLogUni/Vert/11px/?]
(Page consultée le 21 septembre 2022).
a) Complétez le tableau en ajoutant une colonne pour les pourcentages cumulés.
b) Déterminez et interprétez la classe modale. Quel serait le mode ?
c) Tracez l’ogive et utilisez-la pour estimer la médiane. Interprétez la médiane.
d) La médiane représente-t-elle mieux que le mode la tendance centrale ? Justifiez.
Section 6.4
11. Répondez aux questions suivantes.
a) Sur quel type de variable la moyenne se calcule-t-elle ?
b) Quel type de tendance centrale d’une distribution la moyenne représente-t-elle ?
c) Comment calcule-t-on la moyenne avec des données groupées par classes ?
d) Comment la moyenne se note-t-elle ?
e) La moyenne a-t-elle des unités ?
f) Quelles sont les deux informations les plus importantes pour calculer la moyenne d’une distribution ?
12. On s’intéresse aux nombres de cartes de crédit d’un échantillon de 30 étudiants. Répartition des 30 étudiants selon leur nombre de cartes de crédit
Source : Données fictives.
a) Quelle est l’unité statistique ?
b) Quelle est la variable et quel est son type ?
176 Analyse quantitative en sciences humaines
INDICE DE DÉMOCRATIE NOMBRE DE PAYS POURCENTAGE DE PAYS (%) [0,0 ; 2,0[ 11 6,7 [2,0 ; 4,0[ 45 27,6 [4,0 ; 6,0[ 33 20,2 [6,0 ; 8,0[ 51 31,3 [8,0 ; 10,0] 23 14,1 Total 163 100,0
NOMBRE DE CARTES DE CRÉDIT NOMBRE D’ÉTUDIANTS POURCENTAGE D’ÉTUDIANTS (%) 0 6 20,0 1 16 53,3 2 5 16,7 3 3 10,0 Total 30 100,0
c) Quel est le nombre total de cartes de crédit ?
d) Combien y a-t-il d’étudiants ?
e) Calculez et interprétez la moyenne.
13. Une épicerie souhaite mieux connaître sa clientèle. La gérante sélectionne un échantillon de 74 clients et s’intéresse au temps passé dans l’épicerie. Calculez et interprétez la moyenne. Répartition des clients selon le temps passé à l’épicerie
14. Pour contribuer à une collecte de denrées, 5 étudiants apportent respectivement 2, 4, 5, 9 et 5 boîtes de conserve.
a) Calculez et interprétez la moyenne.
b) Redistribuez les boîtes pour que chacun apporte le même nombre de boîtes.
c) Un 6e étudiant arrive avec un don de 500 boîtes. Calculez la moyenne après ce don. Cette moyenne est-elle représentative des dons du groupe ?
15. Répondez aux questions suivantes.
a) Si une unité statistique change de valeur, la moyenne change-t-elle aussi ?
b) Si on ajoute une donnée à une distribution, la moyenne va-t-elle changer ?
c) Lequel des énoncés suivants est vrai ?
1) Si le salaire moyen augmente de 10 %, tous les salaires augmentent de 10 %.
2) Si tous les salaires augmentent de 10 %, le salaire moyen augmente de 10 %.
16. Est-il possible d’augmenter les échelons salariaux et de diminuer le salaire moyen ? Voici un exemple où les échelons salariaux ont augmenté de 10 % alors que le salaire horaire moyen a diminué de 7,4 %, passant de 31,67 $ à 29,33 $. Expliquez pourquoi le salaire moyen a diminué.
Salaire horaire avant l’augmentation
Salaire horaire après l’augmentation
177 Chapitre 6 LES Mesures de tendance centrale 3
TEMPS PASSÉ À L’ÉPICERIE (EN MINUTES) NOMBRE DE CLIENTS POURCENTAGE DE CLIENTS (%) [0, 15[ 8 10,8 [15, 30[ 15 20,3 [30, 45[ 39 52,7 [45, 60[ 10 13,5 60 et plus 2 2,7 Total 74 100,0
fictives.
Source : Données
NOMBRE D’EMPLOYÉS SALAIRE HORAIRE ACTUEL NOMBRE D’EMPLOYÉS NOUVEAU SALAIRE HORAIRE 50 25,00 80 27,50 40 40,00 10 44,00
Source : Données fictives.
Section 6.5
17. Répondez aux questions suivantes.
a) Comment les mesures de tendance centrale se notent-elles ?
b) Le mode représente-t-il toujours la majorité des données ?
c) Quelle mesure de tendance centrale permet d’identifier le centre d’une distribution de données provenant d’une variable qualitative nominale ?
d) Comment peut-on utiliser les mesures de tendance centrale pour déterminer si un graphique est symétrique ou non ?
e) Une distribution peut-elle avoir plusieurs centres ? Si oui, qu’est-il suggéré de faire ?
f) Qu’est-ce qui influence très fortement la moyenne ?
18. Dans le cadre de votre cours d’éducation physique, votre enseignant fait courir chacun de ses quatre groupes sur une distance de 5 km. Voici différentes distributions du temps (en minutes) pris par quatre groupes. Pour chaque graphique :
a) trouvez la classe modale (ou les classes modales, s’il y a lieu) ;
b) si la distribution est unimodale, calculez le nombre de classes à gauche et à droite de la classe modale ;
c) déterminez la forme de la distribution (multimodale, bimodale, unimodale symétrique ou asymétrique à gauche ou à droite) ;
d) décrivez qualitativement la distribution ;
e) déterminez la tendance centrale de la distribution.
178 Analyse quantitative en sciences humaines
des coureurs du groupe 1 selon leur temps
des coureurs du groupe 3 selon leur temps
coureurs du
leur temps
des coureurs du groupe 4 selon leur temps
3
Sources : Données fictives. Pourcentage de coureurs (%) Temps (min) 50 40 30 20 10 0 0 18 20 22 24 26 28 Pourcentage de coureurs (%) Temps (min) 50 40 30 20 10 0 0 18 20 22 24 26 28 Pourcentage de coureurs (%) Temps (min) 50 40 30 20 10 0 0 18 20 22 24 26 28 Pourcentage de coureurs (%) Temps (min) 50 40 30 20 10 0 0 18 20 22 24 26 28
Graphique 1 Graphique 2 Répartition
Répartition
Répartition des
groupe 2 selon
Répartition
Graphique
Graphique 4
316 Analyse quantitative en sciences humaines annexes Annexe 1 Quelques notions mathématiques 317 Annexe 2 La table du modèle normal centré réduit 326 Annexe 3 La table des valeurs critiques du khi-deux 327 Annexe 4 Comment utiliser les fonctions statistiques d’une calculatrice 328 Annexe 5 Liste des symboles 332 Annexe 6 Le sondage 333
Annexe 1 / Quelques notions mathématiques
A / La règle de trois
La règle de trois (aussi appelée produit croisé) est le raisonnement mathématique qui permet de trouver une inconnue dans l’égalité entre deux rapports.
A B = C D
Si l’inconnue est C, la règle de trois s’opère ainsi :
A B = C D C = A × D ÷ B
Claude a gagné 140 $ pour 7,5 heures de travail. La règle de trois permet de déterminer son salaire horaire.
140 $
7,5 h = ? 1 h ? = 140 × 1 ÷ 7,5 = 18,67 $
Le salaire horaire de Claude est 18,67 $ .
Si l’inconnue est D, la règle de trois s’opère ainsi :
A B = C D D = B × C ÷ A
Votre grand-mère vous donne sa bonne vieille recette de salade de patates et vous indique qu’avec 10 patates, la recette donne 8 portions. Vous avez 15 patates. La règle de trois permet de déterminer le nombre de portions que vous pourrez préparer.
10 patates
8 portions = 15 patates ? portions ? = 8 × 15 ÷ 10 = 12 portions
Le nombre de portions est 12.
En résumé, si trois nombres sont connus dans une situation d’égalité entre deux rapports, le quatrième nombre est obtenu par la règle de trois. L’information importante à retenir dans l’utilisation de la règle de trois est qu’il doit y avoir une égalité entre deux rapports. L’absence d’égalité entre deux rapports donne lieu à une utilisation qui n’a pas de sens…
Si un orchestre de 120 musiciens prend 40 minutes pour jouer une symphonie, un orchestre de 60 musiciens ne prendra pas 20 minutes pour jouer la même symphonie. L’orchestre prendra encore 40 minutes pour la jouer, car ce qui importe n’est pas le nombre de musiciens faisant partie de l’orchestre, mais la durée de la partition de la symphonie.
120 musiciens 40 minutes ≠ 60 musiciens 20 minutes
B / Le pourcentage
Un pourcentage est un rapport dont le dénominateur est 100. Il se note avec le symbole %.
p % = p 100
Parmi les 30 élèves de la classe, il y en a 20 qui ont participé à l’activité de fin de session. Le pourcentage des élèves ayant participé à cette activité se calcule par une règle de trois.
20 30 = ? 100
? = 20 × 100 ÷ 30 = 66,7 %
Donc, 66,7 % des élèves de la classe ont participé à l’activité de fin de session.
317 Annexe 1 Quelques notions mathématiques
× ÷ Exem ple × ÷ Exem ple Exem ple
Le pourcentage a divers usages : représenter une proportion, fixer le montant des taxes, illustrer le poids des évaluations dans la note finale d’un cours, calculer une augmentation de salaire, etc. Dans les deux contextes suivants, le pourcentage est utilisé pour représenter une proportion, puis le montant des taxes.
1. Si les dépenses en éducation du gouvernement du Québec représentent 18 % du budget de 86 G$ (milliards de dollars)1, le montant des dépenses se calcule par une règle de trois.
18
100 = ? 86 ? = 18 × 86 ÷ 100 = 15,5 G$
Les dépenses en éducation sont de 15,5 milliards de dollars. Une autre technique pour calculer ce montant est d’utiliser la définition d’un pourcentage pour effectuer les opérations. Ainsi, 18 % du budget de 86 G$ signifie :
2. Au Québec, en 2023, les taxes sur les produits et services sont de 14,975 %. Pour connaître le prix final (le prix avec les taxes), on calcule d’abord le montant des taxes, qu’on ajoute ensuite au prix initial (le prix sans les taxes).
Pour un bien vendu 382,25 $, le calcul des taxes est le suivant :
382,25 × 14,975 % = 382,25 × 14,975 100 = 382,25 × 0,14975 = 57,24 $
On ajoute ensuite les taxes (57,24 $) au prix initial.
Prix initial + Taxes = Prix final
382,25 + 57,24 = 439,49 $
L’article coûte donc 439,49 $ (avec les taxes).
Une autre technique pour connaître le prix final est d’utiliser la règle de trois. Comme le prix final correspond au prix avec les taxes, il faut faire la règle de trois avec 100 % + 14,975 %, soit avec 114,975 pour 100.
114,975 100 = Prix final Prix initial
Dans ce cas-ci, on a le prix initial et on cherche le prix final. Ainsi,
114,975 100 = Prix final 382,25
Prix final = 382,25 × 114,975 ÷ 100 = 439,49 $
Cette technique est intéressante parce qu’elle permet aussi de déterminer le prix sans les taxes, lorsque le prix avec les taxes est connu.
114,975 100 = 439,49 Prix initial
Prix initial = 439,49 × 100 ÷ 114,975 = 382,25 $
Il n’y a pas d’interprétation universelle d’un pourcentage.
Il y a des contextes où 10 % représentent une grande quantité et d’autres où ils représentent une petite quantité. Ainsi, une augmentation salariale de 10 % représente une augmentation élevée, alors qu’un rabais de 10 % à l’achat d’une friandise à 1 $ représente un rabais peu élevé.
Il y a des contextes où les 100 % peuvent être dépassés et d’autres où ils ne peuvent pas l’être. En effet, il est possible qu’un pourcentage d’augmentation soit supérieur à 100 %, car l’augmentation peut être supérieure à la valeur initiale. C’est le cas si le nombre de véhicules vendus a triplé en un an ; il a augmenté de 200 %. Cependant, il est impossible d’avoir une proportion (exprimée en pourcentage) supérieure à 100 %, car la proportion représente la partie d’un tout. Si une pizza est divisée en 4 pointes égales, il est possible de donner 3 pointes (75 % de la pizza), mais il est impossible d’en donner 5 (125 % de la pizza) parce qu’il y en a seulement 4.
318 Analyse quantitative en sciences humaines
18 % × 86 = 18 100 × 86 = 18 ÷ 100 × 86 = 15,5 G$
1 Le symbole G signifie « milliard ».
C / La moyenne pondérée
La moyenne pondérée est une moyenne où les valeurs ont été pondérées, c’est-à-dire qu’un poids a été attribué à chaque valeur de la variable. La moyenne pondérée se calcule en additionnant le produit de chaque valeur par son poids, puis en divisant le résultat par la somme des poids.
Moyenne pondérée = Somme de chaque valeur multipliée par son poids Somme des poids
Exem ple
La moyenne indiquée sur un relevé de notes universitaire est une moyenne pondérée selon le nombre de crédits par cours. Comme le relevé de notes universitaire comporte des lettres, il faut d’abord convertir chaque lettre en nombre, puis calculer la moyenne pondérée. Le tableau suivant donne les notes finales d’une étudiante à un trimestre.
Pour déterminer la moyenne du trimestre, il faut calculer la moyenne pondérée.
L’étudiante a donc une moyenne de 3,225, qui est arrondie à 3,2 sur le relevé de notes.
Le poids de chaque valeur peut être exprimé en pourcentage. Dans ce cas, le calcul de la moyenne pondérée est le même, et la somme des poids donne 100.
La note finale à un cours au cégep peut provenir d’une moyenne pondérée dont le poids des évaluations est exprimé en pourcentage de la note finale. Voici le résumé des notes d’un étudiant.
319 Annexe 1 Quelques notions mathématiques
TITRE DU COURS NOTE FINALE VALEUR NUMÉRIQUE NOMBRE DE CRÉDITS Cours 1 A 4,0 2 Cours 2 A– 3,7 1 Cours 3 B 3,0 3 Cours 4 B+ 3,3 3 Cours 5 B– 2,7 3
Note moyenne = (4,0 × 2) + (3,7 × 1) + (3,0 × 3) + (3,3 × 3) + (2,7 × 3) 2 + 1 + 3 + 3 + 3 = 38,7 12 = 3,225
Exem ple
TYPE D’ÉVALUATION RÉSULTAT (SUR 100) POURCENTAGE DE LA NOTE FINALE (%) Examen 1 70 20,0 Examen 2 80 25,0 Examen 3 75 30,0 Laboratoire 90 15,0 Devoir 85 10,0
Pour déterminer la note finale, il faut calculer la moyenne pondérée.
Note finale = (70 × 20) + (80 × 25) + (75 × 30) + (90 × 15) + (85 × 10) 20 + 25 + 30 + 15 + 10 = 7 850 100 = 78,5
L’étudiant a donc obtenu une note de 78,5, qui est arrondie à 79 % sur le relevé de notes.
D / Les conventions dans l’arrondissement et les calculs
Les conventions sur l’arrondissement des pourcentages prévoient qu’ils sont toujours arrondis à une décimale.
Si la deuxième décimale du pourcentage est 0, 1, 2, 3 ou 4, alors la première décimale demeure intacte.
10,53 % 10,5 %
Si la deuxième décimale du pourcentage est 5, 6, 7, 8 ou 9, alors la première décimale est augmentée de 1.
10,58 % 10,6 %
Les calculs sur des nombres qui n’ont pas la même précision demandent d’arrondir au nombre ayant la plus petite précision. Par exemple, si une personne déclare avoir gagné exactement 38 521,85 $ l’an passé et qu’une autre donne une valeur approximative de 55 000 $, il faudra arrondir le premier nombre à 39 000 $ si on veut effectuer des opérations sur ces valeurs.
38 521,85 $ 55 000 $
(plus petite précision)
39 000 $ 55 000 $
E / Les mesures de comparaison de deux nombres
On peut comparer deux nombres (non égaux) de façon qualitative en utilisant la relation d’ordre ou de façon quantitative en calculant une variation, un pourcentage de variation ou un facteur multiplicatif.
La relation d’ordre (>, <, =) est une mesure de comparaison qualitative parce qu’elle permet de comparer deux nombres avec des mots comme plus grand, supérieur, plus petit, inférieur ou égal La variation, le pourcentage de variation et le facteur multiplicatif sont des mesures de comparaison quantitatives parce qu’elles permettent de comparer deux nombres avec des chiffres.
Avant d’entrer dans les détails, il faut comprendre que la comparaison a un sens : comparer B avec A ne produit pas la même mesure que comparer A avec B
Exem ple
Si Andrew a 40 $ et Blanche a 60 $, alors on peut comparer l’avoir de Blanche avec l’avoir d’Andrew (Blanche a plus d’argent qu’Andrew) ou bien comparer l’avoir d’Andrew avec l’avoir de Blanche (Andrew a moins d’argent que Blanche).
Dans certains contextes, on compare le prix actuel d’un article (A) avec son nouveau prix (B) ou la valeur initiale d’un placement (A) avec sa valeur finale (B).
320 Analyse quantitative en sciences humaines
Annexe 6 / Le sondage
Pourquoi faire un sondage ?
Le sondage est un moyen d’investigation très répandu en sciences humaines. Il permet de se renseigner sur de nombreux aspects de la vie de plusieurs individus. Les questions peuvent porter sur les caractéristiques des répondants, sur leurs comportements, leurs opinions, leur situation sociale, familiale ou professionnelle, leur niveau de connaissance ou de conscience d’un phénomène, etc.
Vous avez peut-être entendu la formulation questionnaire d’enquête pour parler d’un sondage. Y a-t-il une différence entre les deux ? Au sens strict, on peut les distinguer l’un de l’autre. Le questionnaire d’enquête aborde des sujets variés en posant un grand nombre de questions (10 ou plus) à un échantillon constitué d’un petit nombre de répondants (au maximum quelques centaines d’individus). Quant au sondage, il pose peu de questions (moins de 10), principalement liées à des opinions, à un échantillon constitué d’au moins 1 000 individus. Néanmoins, le sondage et le questionnaire d’enquête étant assez semblables du point de vue méthodologique, le texte a été simplifié en utilisant le terme sondage pour désigner les deux méthodes de recherche.
Le sondage relève principalement de l’approche quantitative. Il privilégie les questions fermées auxquelles une personne répond en sélectionnant un ou plusieurs choix dans une liste de réponses prédéterminées. Les résultats du sondage sont habituellement dénombrés et regroupés par modalités, valeurs ou classes, et présentés sous la forme d’un nombre, ce qui permet entre autres :
de présenter les résultats sous forme de tableau ou de graphique en inscrivant les fréquences absolues et relatives. Cette présentation met en évidence les informations que le chercheur ou la chercheuse juge pertinentes lors de l’interprétation ;
Répartition des 60 répondants selon l’exercice de leur droit de vote à l’élection fédérale, 2021
Source : Données fictives.
En 2021, 75% des répondants affirment avoir voté à l’élection fédérale.
333 Annexe 6 Le sondage
Exem ple
EXERCICE DU DROIT DE VOTE NOMBRE DE RÉPONDANTS POURCENTAGE DES RÉPONDANTS (%) A voté 45 75 N’a pas voté 12 20 A annulé son vote 3 5 Total 60 100
de comparer les résultats de deux réponses afin de déterminer s’il existe un lien statistique entre elles (comme un lien de corrélation) ;
Répartition des 60 répondants selon leur âge et l’exercice de leur droit de vote
EXERCICE DU DROIT DE VOTE 18-30 ans 31-60 ans 61 ans
Source : Données fictives.
En 2021, 15 répondants âgés de 18 à 30 ans affirment avoir voté comparativement à 13 pour les 31 à 60 ans et 17 pour les 61 ans et plus.
d’établir l’évolution dans le temps de résultats obtenus lors de sondages tenus à des époques différentes.
Intention d’exercer son droit de vote aux élections québécoises chez les 18-30 ans, sur 1 000 répondants, selon un sondage mené avant chaque élection
Source : Données fictives.
Dans la période de 2003 à 2022, 2008 est l’année où l’on remarque la plus faible intention d’exercer son droit de vote chez les 18-30 ans avec seulement 585 répondants.
Les types d’enquêtes
Les sondages peuvent se dérouler une seule fois ou à plusieurs reprises.
A / L’enquête transversale
Si le sondage se déroule une seule fois, il s’agit d’une enquête transversale ou sondage instantané
Ce type d’enquête effectue un portrait de la situation actuelle afin de découvrir les attitudes, les opinions, les comportements ou les connaissances d’une population à l’égard d’un sujet.
334 Analyse quantitative en sciences humaines
Exem ple Exem ple
ÂGE
TOTAL A voté 15 13 17 45 N’a pas voté 8 3 1 12 A annulé son vote 1 2 0 3 Total 24 18 18 60
et plus
2003 2007 2008 2012 2014 2018 2022 637 726 585 669 673 722 703
B / L’enquête longitudinale
Si le sondage est répété plus d’une fois, il s’agit d’une enquête longitudinale. Elle compare les résultats d’au moins deux sondages se déroulant à des époques différentes, afin de constater les changements qui ont pu se produire à travers le temps.
On reconnaît à l’enquête longitudinale trois modèles :
L’étude de tendance pose, après un certain temps, des questions comparables à des populations différentes. Le questionnaire est similaire, mais la même personne ne peut répondre deux fois au sondage. Cela permet de voir l’évolution de certaines opinions, attitudes et perceptions ou de certains comportements au sein de la population.
Effectuer un sondage sur la perception qu’a le public du mariage des personnes homosexuelles en 1970, et reprendre les mêmes questions en 2023 pour voir si les réponses seront différentes.
L’étude de cohorte vise à poser, à au moins deux reprises, les mêmes questions à une population fixe. Il est possible que la même personne réponde deux fois au questionnaire, mais ce n’est pas assuré.
Effectuer un sondage auprès d’étudiants du collégial sur la manière dont ils envisagent la conciliation d’un travail rémunéré et de leurs études. Si les questionnaires sont distribués en 2022 et en 2024, il est possible qu’une même personne soit sélectionnée pour les deux enquêtes, si elle n’a pas encore terminé ses études collégiales, mais la plupart des étudiants ne rempliront le questionnaire qu’une seule fois.
L’étude de panel, ou de division, vise à détecter les changements dans la vie d’un individu ou d’un groupe en le questionnant à plusieurs reprises. Ce sont les mêmes personnes qui recevront le questionnaire, par exemple tous les cinq ans. Le risque de perdre une partie des répondants, que ce soit en raison d’un désistement, d’un décès ou d’un déménagement, est assez élevé. Effectuer une enquête, tous les trois ans, auprès des parents de 500 enfants grands prématurés.
La collecte des données par sondage
Il existe plusieurs manières de collecter les données auprès des répondants. Le sondage peut être rempli par l’enquêteur ou l’enquêtrice à partir des réponses des participants. Cela peut se faire en présence ou par téléphone. Il peut aussi être rempli directement par les répondants (sondage autoadministré). Dans ce cas, l’enquêteur ou l’enquêtrice peut remettre le sondage aux répondants en main propre ou encore le leur faire parvenir par la poste ou par Internet. Le choix de la méthode de collecte repose sur le contexte et les contraintes (temps, argent, distance, etc.) de la recherche.
A / Le questionnaire distribué en personne
Dans ce cas, la présentation orale doit être claire, succincte et textuellement identique à celle qui apparaît sur le formulaire, car le message doit être exactement le même pour tous. Le chercheur ou la chercheuse doit être à l’écoute des répondants afin d’être en mesure de répondre à leurs questions et de s’assurer qu’ils ont bien compris ce qu’ils auront à faire. Cependant, il importe de ne pas dépasser le cadre de ce qu’il est possible de dire car, pour avoir des données comparables, il faut que tout le monde ait été soumis à la même interrogation. Que le sondage soit distribué par une seule personne ou en équipe, il faut toujours agir de façon identique afin de maintenir la constance de l’instrument de collecte.
335 Annexe 6 Le sondage
Exem ple Exem ple Exem ple