SOCIÉTÉ
FRANÇAISE
DE
STATISTIQUE
La statistique autrement
LES SONDAGES PAS À PAS Pascal Ardilly Pierre Lavallée Préface de Jean-Jacques Droesbeke
CHEZ LE MÊME ÉDITEUR • Les nombres au quotidien
J.-J. DROESBEKE, C. VERMANDELE
• Méthodes robustes en statistique
J.-J. DROESBEKE, G. SAPORTA, CH. THOMAS-AGNAN
• Approches statistiques du risque
J.-J. DROESBEKE, M. MAUMY-BERTRAND, G. SAPORTA, CH. THOMAS-AGNAN
• Modèles à variables latentes et modèles de mélange J.-J. DROESBEKE, G. SAPORTA, CH. THOMAS-AGNAN
• Approches non paramétriques en régression J.-J. DROESBEKE, G. SAPORTA
• Analyse statistique des données longitudinales J.-J. DROESBEKE, G. SAPORTA
• Analyse statistique des données spatiales J.-J. DROESBEKE, M. LEJEUNE, G. SAPORTA
• Modèles statistiques pour données qualitatives J.-J. DROESBEKE, M. LEJEUNE, G. SAPORTA
• Méthodes bayésiennes en statistique J.-J. DROESBEKE, J. FINE, G. SAPORTA
• Plans d’expériences
J.-J. DROESBEKE, J. FINE, G. SAPORTA
• Modélisation prédictive et apprentissage statistique avec R - 2e édition S. TUFFÉRY
• Probabilités, analyse des données et statistique- 3e édition G. SAPORTA
• Étude de cas en statistique décisionnelle S. TUFFÉRY
• Data mining et statistique décisionnelle. l’intelligence des données 4e édition S. TUFFÉRY
• Les techniques de sondage - 2e édition P. ARDILLY
Tous droits de traduction, de reproduction et d’adaptation réservés pour tous pays. Toute représentation, reproduction intégrale ou partielle faite par quelque procédé que ce soit, sans le consentement de l’auteur ou de ses ayants cause, est illicite et constitue une contrefaçon sanctionnée par les articles 425 et suivants du Code pénal. Par ailleurs, la loi du 11 mars 1957 interdit formellement les copies ou les reproductions destinées à une utilisation collective.
© Éditions Technip, Paris, 2017. Imprimé en France ISBN 978-2-7108-1179-4
« Un sondage révèle que 94% des vaches préfèrent regarder passer un train plutôt qu'un camion, car selon 2/3 d'entre elles, le train passe pendant plus longtemps que le camion; 6% ne se prononcent pas. » Philippe Geluck
Préface Écrire une préface est un honneur redoutable, mais bien enthousiasmant dans le cas de cet ouvrage. Il est, en effet, bâti sur un projet original, ce qui en fait tout son intérêt. Dévoilons-en immédiatement la trame. Les auteurs accompagnent tout au long de leur livre un responsable d’une enquête par sondage, Marcel Le Chiffre, et nous font connaître ses réflexions, ses propositions, mais aussi ses doutes. Je m’adresse à vous, lectrice ou lecteur : voulez-vous être invités à participer, pas à pas, à l’élaboration de cette enquête et à sa mise en œuvre, sans brûler les étapes, de façon progressive ? Il est probable que vous vous êtes déjà posé la question de savoir comment il est possible de se baser sur les renseignements fournis par mille ou deux mille personnes pour en tirer des conclusions fiables au niveau de la population à laquelle elles appartiennent ? Vous avez certainement envie de savoir si l’on peut accorder du crédit à une étude réalisée à partir d’un échantillon d’individus aussi réduit ? Vous désirez comprendre comment apprécier la qualité d’une enquête par sondage et interpréter les mesures de précision ou d’imprécision qu’elle véhicule ? Eh bien, croyezmoi, ce livre est en mesure de vous apporter des réponses appropriées à ces différentes questions sans que cela nécessite une formation préalable sophistiquée. Vous serez présents quand ce personnage au nom prédestiné sera mis au courant de ce qu’on attend de lui. Vous réaliserez la façon dont il s’interroge sur la population à laquelle on lui demande de s’intéresser. Avec Marcel Le Chiffre, vous vous pencherez sur la manière de prélever un échantillon dans cette population dont la liste est fournie par l’aimable Delphine du Calcul. Vous verrez ensuite comment les questions à poser aux individus sont formulées et comment elles seront administrées aux individus qui seront sélectionnés pour faire partie de l’échantillon. Vous participerez avec Frederico Cati et son équipe d’enquêteurs à la collecte des données et affronterez avec les méthodologues de l’enquête le problème délicat posé par les enquêtés qui ne peuvent ou ne veulent pas répondre. Vous pourrez aussi réaliser qu’il est possible d’améliorer la qualité des résultats obtenus en
IV
Préface
utilisant l’information dont l’équipe dispose à propos de la population et vous vous pencherez sur le délicat problème d’apprécier la précision de ces résultats. Après quelques discussions particulières sur des prolongements possibles, vous serez « fin prêts », comme l’équipe de Marcel Le Chiffre, à mener à bien ce qui sera devenu aussi « votre » enquête. Rassurez-vous, lectrice ou lecteur. Cet ouvrage n’est pas un traité académique décrivant une théorie, comme il en existe par ailleurs. Il n’est pas destiné à des spécialistes des enquêtes par sondage désireux de connaître les derniers développements en la matière, même si je suis persuadé qu’il peut aussi leur être très utile. Et croyez-moi : la particularité de cet ouvrage et son originalité tiennent à la structure que je viens d’évoquer, mais aussi, en grande partie, aux qualités de ses auteurs. Pascal Ardilly et Pierre Lavallée sont deux « sondeurs » réputés. Entendez par là qu’ils ont passé une grande partie de leur vie professionnelle à élaborer des enquêtes par sondage, à les accompagner, à les interpréter, le premier dans le cadre de l’INSEE, en France, le second à Statistique Canada. Leur formation scientifique leur a bien sûr permis de maîtriser les outils indispensables pour faire de cet ouvrage un manuel de référence. Mais on y trouve aussi le produit de leur expertise en la matière. Leur complémentarité résulte autant d’une convergence de points de vue acquise durant de longues années, que de discussions entre eux et avec leurs entourages professionnels respectifs. Pour les avoir côtoyés depuis longtemps ― que ce soit au cours de réunions de recherche, lors de séminaires animés par Jean-Claude Deville et son équipe, dans des cycles de formation comme Training of European Statisticians ou encore dans des congrès comme ceux organisés par le groupe « Enquête » de la Société française de Statistique ou les Journées de méthodologie de l’INSEE ― je peux témoigner de la richesse de leurs échanges et de leurs réflexions. Tout comme je peux témoigner de l’excellence de leur pédagogie que l’on retrouve dans leurs ouvrages. Ce livre ne pouvait être écrit que par eux. Lectrice, lecteur, n’hésitez pas à vivre cette expérience d’accompagner Marcel Le Chiffre. Elle vous permettra de progresser pas à pas vers la compréhension des secrets de cette méthode statistique qui est si souvent galvaudée et maltraitée, mais qui mérite qu’on y recoure en connaissance de cause. « Comprendre : toujours comprendre. Moi je ne veux pas comprendre », clame Antigone dans le texte d’Anouilh. Mais, vous, je suis
Préface
V
persuadé que vous avez envie de comprendre ! Peut-être pas tout, mais certainement l’essentiel ! Et n’oubliez pas ce qu’écrivait Anatole France dans La rôtisserie de la reine Pédauque : « Mieux vaut comprendre peu que comprendre mal ». Ce livre est là pour vous permettre d’atteindre cet objectif. Je lui souhaite tout le succès qu’il mérite. Jean-Jacques Droesbeke Professeur émérite à l’Université libre de Bruxelles Mai 2017
Â
Avant-propos La théorie des sondages doit être considérée comme une boîte à outils qui permet de produire rapidement et à moindre coût de nombreuses informations caractérisant une population de grande taille. Elle relève d’une approche moderne et évolutive qui s’avère beaucoup plus technique que bien des utilisateurs de statistiques d’enquête ne l’imaginent. Elle ouvre sur un monde assez mystérieux où l’aléatoire règne en maître. Ce caractère aléatoire, non seulement ne doit pas être perçu comme un phénomène nuisible, mais au contraire doit être recherché et traité avec soin : c’est en effet lui qui donne aux techniques de sondage leurs bonnes propriétés statistiques et qui, par conséquent, les justifient. En contrepartie, l’utilisateur doit accepter un certain risque d’erreur. À l’expérience, nous nous étonnons qu’une technique statistique aussi fréquemment utilisée pour éclairer de nombreux domaines touchant à l’activité de notre société soit aussi mal connue et développe autant de sentiments erronés, voire chimériques. C’est pourquoi, constatant de surcroît la relative discrétion de la bibliographie « grand public » consacrée à la discipline, il nous a semblé utile d’exposer dans cet ouvrage introductif les grands principes des méthodes d’enquête par sondage. Les méthodes par sondage ont été présentées au travers d’un scénario consacré à « l’enquête sur les déplacements dans la ville de Mégapolis ». Sous la responsabilité d’un statisticien d’enquête renommé, Marcel Le Chiffre, aidé de deux spécialistes, Delphine du Calcul (bases de sondage) et Frederico Cati (collecte), cette enquête s’avère propice aux questionnements et solutions que l’on retrouve dans la plupart des enquêtes réelles. Ville fictive, enquête fictive, personnages fictifs, certes, mais qui aident à bien voir la problématique reliée à la conception d’une enquête. Bien entendu, il n’y a rien de spécifique à l’enquête sur les déplacements à Mégapolis dans notre développement, et tout peut être adapté facilement à n’importe quelle enquête portant sur n’importe quel sujet. L’ouvrage présente ce cas d’application concret en respectant l’ordre chronologique naturel des opérations. Après avoir posé les objectifs, les
VIII
Avant-propos
définitions et précisé les contraintes, on poursuit en développant les principales méthodes de constitution d’un échantillon et les estimations naturelles qui en résultent (chapitres 1 à 4). Puis on aborde la conception du questionnaire (chapitre 5) et la phase de collecte des données sur le terrain (chapitre 6). Le traitement de la non-réponse mérite qu’un chapitre spécifique lui soit consacré (chapitre 7). Ensuite, on expose les techniques de redressement (chapitre 8). Dans toute enquête, on doit s’interroger sur l’appréciation de la qualité des estimations produites : c’est l’objet du chapitre 9. Enfin, au chapitre 10, on présente des développements spécifiques ou un peu plus techniques, par exemple ce qui relève des panels, des bases de sondage multiples ou des estimations sur des populations rares ou de petites tailles. À la fin du livre, le lecteur trouvera un lexique qui définit les principaux termes techniques mentionnés. Un index permet de retrouver, dans chaque sous-partie où elle apparaît, la première citation de chaque terme référencé. Lorsqu’un terme indexé est cité pour la première fois dans le corps du texte, on utilise l’écriture italique. L’ensemble devrait être accessible au lecteur n’ayant aucune connaissance a priori en sondage, ni même en statistique. Un niveau minimum — bien que modeste — en mathématique est néanmoins requis parce que nous avons utilisé le langage formalisé, dont la précision et la concision ne peuvent en la circonstance pas être égalées par le langage commun. Nous tenons à remercier chaleureusement Jean-Jacques Droesbeke, professeur à l’Université Libre de Bruxelles, qui a motivé l’écriture de ce livre. Nous remercions également Catherine Vermandele et Guillaume Chauvet pour leurs remarques pertinentes qui nous ont permis d’améliorer notre rédaction. Enfin, nous savons gré à Corinne Lavallée et Carole Ardilly d’avoir déployé leurs talents de dessinatrice et de graphiste pour produire une couverture traduisant la profonde et amicale complicité des deux auteurs.
Chapitre 1
Les premiers pas du statisticien d’enquête (statistiques d’intérêt et sondages empiriques)
1.1 Un problème de mesure des déplacements à Mégapolis Mégapolis est une très grande ville et ses habitants sont dynamiques. Que ce soit pour leurs activités professionnelles ou pour leurs loisirs, ces derniers n’épargnent pas leurs efforts en matière de déplacement et ont pris l’habitude de tirer profit des moyens de transport en commun (bus, tramway) mis à leur disposition par la municipalité. Ils utilisent également leurs propres véhicules, automobiles et deux-roues, sans compter les adeptes de la marche à pied. L’équipe municipale se préoccupe beaucoup des conditions dans lesquelles tous ces déplacements s’effectuent, puisqu’à l’évidence ils prennent une part appréciable dans la qualité de vie dans la cité, qu’il s’agisse de confort au quotidien, de sécurité ou de coûts. C’est pourquoi il a été décidé de produire chaque année un ensemble d’informations diversifiées permettant de mieux connaître les déplacements à Mégapolis. Dans cette perspective, un statisticien, Marcel Le Chiffre, a été engagé et un budget spécifique a été voté. Mais tout est à construire...
2
Chapitre 1
1.2 Bien cerner ce qu’on veut mesurer Monsieur Le Chiffre doit prendre l’affaire en main. Lors de sa première discussion avec le maire et son adjoint aux transports, il s’emploie à cerner son sujet : en matière de déplacements, qu’est-ce qui peut bien intéresser l’équipe municipale, et par-delà les habitants de la grande cité ? En réponse à cette question, il a été convenu de porter prioritairement les efforts sur quelques informations jugées essentielles : 1)
le nombre et la proportion d’individus qui utilisent le bus au moins une fois par semaine,
2)
la dépense moyenne en carburant et les distances totales parcourues en automobile par semaine,
3)
la moyenne et la variabilité — cette notion est à définir — des distances parcourues à pied par les individus chaque semaine.
Ces grandeurs sont manifestement des statistiques simples qui relèvent de définitions sans ambiguïté (ou presque) : l’aspect temporel paraît clair, on sait ce qu’est un bus, on sait aussi repérer une dépense en carburant. Quant à la marche à pied, c’est un mode de déplacement parfaitement identifié et qui ne se confond avec rien d’autre. Néanmoins, en y regardant de plus près, on pourrait se demander si l’activité à prendre en compte doit s’effectuer, ou pas, au sein de la cité. Après tout, un enquêté, quel qu’il soit, ne vit pas en permanence à Mégapolis, il lui arrive d’en sortir, et cela avec plus ou moins de régularité. La précision suivante est apportée suite à un échange complémentaire avec les autorités locales : les déplacements en bus pris en compte sont ceux qui concernent la ville et elle seule (question 1), la marche à pied n’est comptabilisée qu’au sein de la ville (question 3), en revanche la dépense en carburant peut être acquittée dans n’importe quel point de vente, dans ou hors de la ville et la distance parcourue en automobile comprend les trajets effectués dans et hors de la ville (question 2). Ces précisions préalables sont indispensables, faute de quoi on mélangera des concepts hétérogènes et les statistiques produites perdront leur sens. À ce stade, la définition des « variables » paraît satisfaisante et suffisante pour concevoir un questionnaire efficace. Manifestement, on s’intéresse à des indicateurs relatifs à une population d’individus de taille finie. Ce qui fait référence à la population paraît à
Chapitre 3 Marcel Le Chiffre s’attèle à la sélection de l’échantillon (sondage aléatoire simple, sans puis avec stratification)
On l’a dit, Monsieur Le Chiffre désire que l’échantillon destiné à l’enquête sur les déplacements à Mégapolis soit le plus aléatoire possible. Grâce à la disponibilité du Registre de la population, il peut maintenant délaisser définitivement les sondages empiriques (qui peuvent introduire de sérieux biais s’ils ne sont pas très rigoureusement effectués) pour se tourner vers les sondages probabilistes.
3.1 Plusieurs façons de tirer un échantillon aléatoire probabiliste Le sondage probabiliste repose sur le principe de la randomisation, c’està-dire la sélection au hasard (dite aussi aléatoire) des individus constituant l’échantillon. À partir de la base de sondage, on tire un échantillon « parfaitement » aléatoire, dénudé des biais pour ainsi dire inévitables du sondage empirique. Cette quasi « perfection » est atteinte par l’emploi d’algorithmes d’échantillonnage, c’est-à-dire de méthodes rigoureuses de sélection d’individus à partir d’une base de sondage, qui ne laissent aucune place à l’intervention humaine. Il y a au départ une règle de sélection parfaitement définie, on applique la règle, rien que la règle et toute la règle !
50
Chapitre 3
C’est ce que l’on appelle le plan de sondage. Le sondage probabiliste est donc généralement plus complexe, prend plus de temps et se révèle habituellement plus coûteux que le sondage empirique. Notons qu’un sondage empirique peut être aléatoire : c’est le cas des sondages accidentels (voir partie 1.11) et des sondages par quotas (voir partie 1.14), mais leur processus de sélection n’a ni l’objectivité ni la rigueur de celui qu’offre un sondage probabiliste. Introduisons un concept nouveau qui va apparaître extrêmement utile : celui de probabilité d’inclusion4. Il s’agit de définir la probabilité qu’une unité quelconque de la base de sondage fasse partie de l’échantillon finalement sélectionné. Il s’avère que son calcul est toujours possible quand on utilise les techniques d’échantillonnage probabiliste traditionnelles. À l’inverse, on ne sait pas obtenir la probabilité d’inclusion dans un sondage empirique, puisqu’elle est déterminée en partie par l’action de l’enquêteur. Lorsque les unités de la population sont sélectionnées au hasard et que l’on a calculé la probabilité d'inclusion de chaque unité dans l'échantillon, on peut, grâce au sondage probabiliste et dans certaines conditions, produire des estimations sans biais, apprécier l'erreur d’échantillonnage et faire ainsi des inférences concernant la population cible. Notre statisticien y voit donc des avantages considérables qui justifient une hausse des coûts de l’enquête. Heureusement, il peut compter sur les ressources de Mégastat, et en particulier sur l’expertise de Madame du Calcul. Marcel Le Chiffre connaît plusieurs méthodes permettant de sélectionner un échantillon probabiliste. La méthode d’échantillonnage qu’il choisira dépendra d'un certain nombre de facteurs, comme la base de sondage qu’il utilisera — ici, son choix s’est déjà porté sur le Registre de la population de Mégapolis —, les caractéristiques de la population à enquêter, le coût d’enquête des unités sélectionnées dans la population et la précision attendue des estimations qui seront produites. Lorsqu’il choisit une méthode d’échantillonnage, Marcel garde toujours en tête de réduire le plus possible l'erreur d’échantillonnage des estimateurs des paramètres définis à partir des variables d’intérêt les plus importantes, tout en En pratique, on utilise indistinctement les termes « probabilité d’inclusion » et « probabilité de sélection » pour traduire la probabilité qu’un individu soit échantillonné. Néanmoins, dans cet ouvrage, nous réserverons le terme « probabilité de sélection » pour designer la probabilité de tirer un échantillon complet, cela afin d’éviter tout risque de confusion entre les deux concepts. 4
Monsieur Le Chiffre s’attèle à la sélection de l’échantillon
51
réduisant le plus possible également le délai et le coût de réalisation de l'enquête. On rappelle que l’erreur d’échantillonnage est un phénomène inévitable dans les enquêtes par sondage qui se caractérise par une différence entre l’estimation que l’on a obtenue avec un échantillon s (probabiliste ou non) et le paramètre que l’on cherche à estimer. C’est le prix à payer pour pouvoir se contenter d’une enquête auprès d’un échantillon d’individus, et éviter ainsi un recensement de tous les individus de Mégapolis. Pour son enquête, Marcel compte choisir parmi les méthodes d’échantillonnage probabilistes les plus courantes : le sondage aléatoire simple ; le sondage aléatoire stratifié ; le sondage systématique ; le sondage en grappes ; le sondage à plusieurs degrés ; le sondage en deux phases ; le sondage avec probabilités proportionnelles à une taille ; et le sondage équilibré. Il décide de les considérer une à une et d’en analyser les avantages et désavantages respectifs.
3.2 Partons du plus simple : le sondage aléatoire simple Avec le sondage aléatoire simple (SAS), tous les échantillons possibles de taille n ont par définition la même probabilité d’être sélectionnés. Cette propriété est caractéristique d’un SAS. C’est pourquoi toutes les unités de la population (de taille N ) ont la même chance de faire partie de l'échantillon. En fait, de façon imagée, le SAS revient à tirer au hasard un certain nombre n de boules d’un sac contenant N boules identiques. Dans le cas du SAS, la probabilité d’inclusion, notée k , de tout individu k dans l’échantillon s est donnée par n / N . Ce rapport s’appelle le taux de sondage, ou encore la fraction de sondage. Le SAS est la méthode de sondage probabiliste la plus facile à appliquer et parmi les plus couramment utilisées. L'avantage de cette technique tient au fait qu'elle n'exige pas de données additionnelles dans la base de sondage (comme des régions géographiques par exemple). On peut donc se contenter de la liste complète des unités de la population observée et de l'information nécessaire pour les identifier et les contacter. Également, puisque le SAS est une méthode simple et que la théorie qui la sous-tend est bien établie, il existe
52
Chapitre 3
des formules types pour déterminer la taille de l'échantillon, les estimateurs, la précision de ces estimateurs, etc., et ces formules sont faciles à utiliser. D'un autre côté, cette méthode ne fait aucunement appel aux données auxiliaires contenues dans la base de sondage (par exemple le sexe, l’âge, la profession, l’état matrimonial, la possession d’une voiture ou non) qui pourraient rendre la sélection de l’échantillon plus efficace. Par exemple, posséder ou non une voiture est certainement déterminant pour les déplacements d’une personne et il serait probablement avantageux de faire en sorte que la proportion d’individus possédant une voiture soit la même dans l’échantillon et dans la population complète. En outre, même s'il est facile d'appliquer le SAS à de petites populations, le faire peut être très coûteux s'il faut effectuer des entretiens en face-à-face au domicile des enquêtés, puisqu'il est possible (et même probable) que l'échantillon soit géographiquement dispersé sur tout le territoire de Mégapolis.
3.3 Le tirage avec ou sans remise ? Un SAS peut s'effectuer avec ou sans remise. Un échantillonnage avec remise signifie qu'il est possible qu’un individu soit sélectionné deux fois ou plus. Ceci se fait en générant des numéros aléatoires qui peuvent se répéter. Marcel Le Chiffre n’aime pas beaucoup le SAS avec remise parce qu’il donne généralement des résultats moins précis que le SAS sans remise. En effet, dans un cas de malchance extrême, si l’échantillon est de taille 2 000, il pourrait se retrouver avec 2 000 fois le même individu ! Même dans le cas d’une situation plus réaliste, il est facile de concevoir que plus l’échantillon est dispersé dans la base de sondage, plus les estimations qu’il produit devraient ressembler à celles que l’on aurait en enquêtant tous les individus de la base; autrement dit, plus les estimations devraient être précises. Cette dispersion est évidemment moins grande si on permet aux individus de se retrouver plusieurs fois dans l’échantillon. Pour cette raison, notre statisticien se concentrera seulement sur les tirages par échantillonnage sans remise (SAS ou autre).
Chapitre 5 Bien mesurer ce qu’on veut mesurer : là est la question ! (conception de questionnaires)
Parallèlement à la sélection de l’échantillon, Marcel Le Chiffre travaille à la conception du questionnaire qui sera utilisé pour la mesure des déplacements à Mégapolis. Ce questionnaire sera composé d'une série de questions permettant de recueillir des informations auprès de chaque individu sélectionné dans l’échantillon de l’enquête. Puisqu'il constitue le lien entre ces individus (appelés répondants), les dirigeants de Mégapolis et les analystes des résultats, il joue un rôle de premier plan dans le processus de collecte des données. Les réponses aux questionnaires seront recueillies soit par un enquêteur de Mégastat (par entretiens en face-à-face ou téléphonique, par exemple), soit par l'intermédiaire de dispositifs grâce auxquels le répondant donnera seul les informations (en remplissant lui-même un questionnaire sur papier ou via Internet), ce qui dépendra du mode de collecte choisi pour l’enquête. On verra en détail au chapitre 6 les différents modes de collecte envisagés.
5.1 Les principes de base d’un bon questionnaire Marcel le sait bien, les questionnaires jouent un rôle de premier plan dans le processus de collecte des données, en plus d'influencer l'image de
114
Chapitre 5
l'organisme statistique qui les utilise. En effet, le questionnaire matérialise le premier contact entre l’organisme statistique et la population. Si le questionnaire est mal fait (questions ambigües, mauvaises formulations, incohérences, etc.), cela suscitera tout de suite des réactions qui remettront en cause les résultats de l’enquête, et ce avant même que les résultats ne soient diffusés. Par exemple, en voulant mesurer les distances parcourues à pied par les individus au sein de la ville chaque semaine, il sera important de préciser « au sein de la ville » dans la question afin d’exclure les randonnées à la campagne. Omettre cette précision fournirait des armes aux opposants à la construction de trottoirs — qui enlèvent des places de stationnement — qui diront que les déplacements à pied ont été surévalués par l’enquête. Le questionnaire influe considérablement sur le comportement du répondant, le rendement de l'enquêteur, le coût de la collecte et les relations avec le répondant. Il a donc un impact majeur sur la qualité des données. Si, par exemple, une question est mal posée, la frustration du répondant peut faire en sorte qu’il bâcle ses réponses aux questions suivantes. Ce dernier pourrait même refuser systématiquement toute participation à d'autres enquêtes de Mégastat. Il va sans dire que notre statisticien ne prend pas la conception du questionnaire à la légère. S'il est bien conçu, le questionnaire devrait recueillir des données répondant aux objectifs de l'enquête. Sans faire de mauvais jeux de mots, toute la question est là : quelles questions doit-on poser pour que l’enquête fournisse l’information requise aux dirigeants de Mégapolis sur les principaux thèmes touchant aux déplacements ? Marcel Le Chiffre sait qu’il doit aussi tenir compte des exigences administratives et des exigences relatives au traitement des données, ainsi que de la nature et des caractéristiques de la population des répondants. Une chose est sûre, le questionnaire devra imposer un faible fardeau de réponse et s'avérer convivial tant pour le répondant que pour l'enquêteur. En effet, si le questionnaire est trop long, le répondant aura tendance à se décourager et, soit répondra n’importe quoi, soit carrément abandonnera en cours de questionnaire. Si l’enquête se déroule par entretiens en face-à-face, on peut imaginer le malaise de l’enquêteur qui n’arriverait pas à expliquer une question au répondant parce que cette dernière est trop compliquée.
Bien mesurer ce qu’on veut mesurer : là est la question !
115
La conception et la formulation des questions doivent donc inciter le répondant à donner des réponses les plus exactes possible. Pour ce faire, il faudra que Marcel concentre les questions sur le sujet de l'enquête, soit le plus bref possible, développe des questions qui s'enchaînent bien et facilite le rappel des répondants. S'il est bien conçu, le questionnaire ainsi formulé facilitera, en outre, le codage et la saisie des données. Une zone d’observations laissée libre en fin de questionnaire permettra à l’enquêté qui le souhaite d’apporter telle ou telle précision qui lui paraîtrait utile, à sa convenance. Dans ce cas, il faudra néanmoins consacrer au moment de l’exploitation quelques moyens à la lecture de ces compléments et à leur prise en compte. Le questionnaire doit aussi contenir une information permettant d’identifier avec sécurité les unités enquêtées. Traditionnellement, on trouve en tout début de questionnaire, généralement préimprimé, l’identifiant complet (un code alpha numérique) tel qu’il figure dans la base de sondage. L’enquêteur sur le terrain rajoute toutefois un identifiant en clair plus parlant : a priori le nom et l’adresse de la personne contactée ou d’une personne de référence du ménage. Lorsque le questionnaire se présente sous forme papier, des erreurs de saisie peuvent survenir par la suite. Il est alors souhaitable d’accoler à l’identifiant une clé de saisie (un code à un chiffre, par exemple) qui permet de détecter le plus souvent les erreurs de saisie de l’identifiant. La valeur de la clé dépendant très étroitement de l’identifiant, l’opérateur saisit l’identifiant et la clé, puis l’ordinateur recalcule la clé : si l’identifiant saisi est faux, alors la clé recalculée sera (sauf mauvais hasard) différente de la clé saisie.
5.2 Un point essentiel : informer les répondants Pour assurer la réussite de ses enquêtes, Mégastat a pour politique d'informer les répondants sur les points suivants : les objectifs de l'enquête (incluant la description des utilisateurs des statistiques qu'elle vise à produire et l'usage qu'ils comptent en faire), l'autorité qui la régit (par exemple, s’il s’agit d’une enquête en collaboration avec une autre ville ou un autre organisme), puis tout ce qui touche à la participation des répondants (enquête obligatoire ou volontaire), la protection de la confidentialité (citation des
Lexique
Algorithme de tirage : règle composée d'une succession d'opérations précises prédéfinies permettant de réaliser pratiquement un tirage d'échantillon. Le plus souvent, l'algorithme prend la forme d'un programme d'ordinateur opérant sur une base de données informatisée. Allocation : dans un sondage stratifié, l'allocation désigne les tailles d'échantillon par strate. Dans un sondage à plusieurs degrés, l'allocation désigne les tailles d'échantillon par unité pour toutes les unités tirées impliquées aux différents degrés de sondage mis en œuvre. Allocation de Neyman : dans un sondage stratifié avec sondage aléatoire simple dans chaque strate, allocation particulière permettant d'obtenir une précision maximale de l'estimateur sans biais d'une moyenne globale pour une taille d’échantillon totale donnée. Allocation proportionnelle : dans un sondage stratifié, allocation particulière correspondant à un taux de sondage identique dans chacune des strates. Autopondéré : un plan de sondage avec échantillonnage de taille fixe est dit autopondéré lorsque tous les individus échantillonnés ont le même poids de sondage. Base de sondage : liste d’unités (individus, aires géographiques…) dont on dispose et dans laquelle on échantillonne lorsqu’on veut faire un sondage probabiliste dans la population qui nous intéresse. On demande à cette liste d'avoir certaines propriétés. Biais : terme s'appliquant à un estimateur et pour une méthode de tirage donnée. Par définition, il s'agit de la différence entre la moyenne pondérée de toutes les estimations associées à tous les échantillons possibles et la valeur exacte du paramètre que l’on cherche à estimer. La pondération est la probabilité de sélection des échantillons.
278
Lexique
Bootstrap : en sondage, méthode appartenant à la classe des méthodes de rééchantillonnage et qui permet d'estimer la précision d'un estimateur complexe avec un plan de sondage complexe. Calage sur marges : méthode de modification des poids de sondage mise en œuvre lorsqu'on dispose de plusieurs variables auxiliaires sur lesquelles on souhaite effectuer un redressement simultané . Coefficient de variation : terme s'appliquant à un estimateur et pour une méthode de tirage donnée. Par définition, il s'agit du rapport de l'écart-type de cet estimateur à la valeur exacte du paramètre à estimer. Il représente une erreur relative. Correction de population finie : dans les formules de variance, terme spécifique qui traduit l'augmentation de précision que l'on obtient lorsqu'on passe d'un sondage avec remise à un sondage sans remise effectué toutes choses égales par ailleurs. Défaut de couverture : fait qu'il existe des unités (individus, aires géographiques…) qui font partie de la population cible, mais qui ne sont pas dans la base de sondage. Degré : étape élémentaire dans un sondage à plusieurs degrés. Le sondage à plusieurs degrés est une méthode de sondage caractérisée par la mise en œuvre de partitionnements et de tirages successifs effectués dans une population donnée : un tirage de certaines parties est effectué à l'issue de chaque opération de partitionnement et chaque partie tirée fait alors office de population au sein de laquelle on itère le processus. Domaine : sous-population d'intérêt particulier pour une enquête. Écart-type : racine carrée de la variance. Échantillon : partie de la population sur laquelle on collecte l'information lorsqu'on réalise une enquête. Échantillon aréolaire : échantillon à plusieurs degrés, dont l'avant-dernier degré est constitué par des aires géographiques faisant office de grappes. Échantillonnage équilibré : échantillonnage mettant en œuvre un algorithme qui respecte les probabilités d'inclusion fixées a priori tout en