Jean-François CANGUILHEM Marie-Pierre CUEFF
Médiaplanning Fondements conceptuels et méthodologiques
2018
Éditions TECHNIP
5 avenue de la République, 75011 PARIS
CHEZ LE MÊME ÉDITEUR • Data science par analyse des donnÊes symboliques F. AFONSO, E. DIDAY, C. TOQUE
• Data mining et statistique dÊcisionnelle S. TUFFÉRY
• ModÊlisation prÊdictive et apprentissage statistique avec R S. TUFFÉRY
• Étude de cas en statistique dÊcisionnelle S. TUFFÉRY
• ProbabilitÊs, analyse des donnÊes et statistique G. SAPORTA
• Les techniques de sondage P. ARDILLY
• Économie gÊnÊrale O. HUEBER
J.P. NAKACHE, J. CONFAIS
• Statistique explicative appliquÊe J.P. NAKACHE, J. CONFAIS
• Modèles statistiques pour donnÊes qualitatives J.-J. DROESBEKE, M. LEJEUNE, G. SAPORTA, Eds.
• Plans d’expÊriences. Applications à l’entreprise J.-J. DROESBEKE, J. FINE, G. SAPORTA, Eds.
• MÊthodes bayÊsiennes en statistique J.-J. DROESBEKE, J. FINE, G. SAPORTA, Eds.
• Approches non paramÊtriques en rÊgression J.-J. DROESBEKE, G. SAPORTA, Eds.
• Analyse statistique des donnÊes spatiales J.-J. DROESBEKE, M. LEJEUNE, G. SAPORTA, Eds.
Tous droits de traduction, de reproduction et d’adaptation rÊservÊs pour tous pays. Toute reprÊsentation, reproduction intÊgrale ou partielle faite par quelque procÊdÊ que ce soit, sans le consentement de l’auteur ou de ses ayants cause, est illicite et constitue une contrefaçon sanctionnÊe par les articles 425 et suivants du Code pÊnal. Par ailleurs, la loi du 11 mars 1957 interdit formellement les copies ou les reproductions destinÊes à une utilisation collective.
Š Éditions Technip, Paris, 2018. ISBN 978-2-7108-1183-1
Préface Le monde entier en général et la Silicon Valley en particulier ne tarissent pas d'éloge aujourd'hui sur nos ingénieurs, nos développeurs de génie, sur l'école mathématique française et ses médaillés Fields. Quelques décennies avant, il y avait déjà une génération de chercheurs avec Jean-François Canguilhem et bien d'autres qui développèrent le médiaplanning en France. Ce serait excessif de dire que ce livre se lit comme un roman, mais une incroyable saga se cache pourtant derrière. C'est la partie invisible de l'iceberg qui a donné naissance à l’une des plus grandes réussites de l'économie française : l'industrie de la Communication et des Médias. Il faut ici, avec ce travail de synthèse et de pédagogie incroyable de Jean-François Canguilhem et Marie-Pierre Cueff, rendre hommage à ces "math men", ces "pères fondateurs" du médiaplanning qui ont largement contribué aux succès internationaux des Havas, Publicis ou encore Carat. Ces trois leaders mondiaux ont construit leur réputation, leur expertise et leur développement dans les médias en grande partie grâce à la force et la renommée de cette "Recherche à la française". Ce socle de rigueur et d'intégrité de notre métier a su créer un contrat de confiance entre les annonceurs, les médias et les agences pour donner naissance à un marché de plus de 10 milliards €. Derrière les formules mathématiques de ce livre se cachent donc des centaines de milliards d’euros d'investissements en spots radio ou télé et en pages de publicité pour la communication des marques. C'est donc une partie non négligeable de notre PIB qui s'est développé depuis les années 1980 grâce à la sophistication permanente de cette "science" de la répartition des investissements publicitaires décrite brillamment ici. Une des clés de la réussite de cette science, qui n’aurait pu se développer sans l’existence de données médias fiables, est que la France a su se doter progressivement, à travers des instituts tels que Médiamétrie, l’ACPM, le CESP, du meilleur système de mesure d’audience et de contrôle mondial. Ces instituts ont su également rassembler des experts et créer les meilleurs thermomètres et les financements nécessaires au bon fonctionnement de ce secteur économique crucial. Comme dans beaucoup d'autres univers, le digital est venu bouleverser les grands équilibres de l'économie des médias. Il s'est surtout développé de manière anarchique sans cette même rigueur et transparence méthodologique, sans arbitre ni consensus, telle une tornade emportant avec elle tous les principes essentiels du médiaplanning. Au passage, la tornade digitale a détruite en grande partie la fameuse "Confiance" de l'écosystème patiemment construite pendant 40 ans. Puisse cet ouvrage, magistral, redonner un peu de raison, de bon sens et de fondamentaux à nos métiers.
Sébastien Danet Chairman de IPGMEDIABRANDS France Administrateur du CESP
Avant-propos Le médiaplanning a pour but de prévoir le retour sur investissement d’une campagne publicitaire d’un annonceur. Il permet d’évaluer, à l’avance et en chiffres, le résultat d’un plan média sur une cible déterminée. Ce résultat prévisionnel s’exprime en nombres d’individus de cette cible touchés par la campagne, et par la distribution des contacts délivrés sur ces individus. Parmi toutes les hypothèses de plans média évaluées, il devient alors possible de sélectionner la meilleure : celle qui maximise le ratio performances/coûts. En tant qu’outil prévisionnel, le médiaplanning s’oppose aux bilans de campagne, qui sont des constats a posteriori, couvrant un éventail d’analyse de retour sur investissement plus large. Un premier type de bilan de campagne consiste en effet à évaluer les mêmes indicateurs de nombre d’individus touchés et de distribution de contacts que ceux fournis par le médiaplanning, mais après la campagne cette fois. D’ailleurs, l’habitude a été prise de considérer ce type de bilans comme le juge qui permet d’évaluer la qualité du médiaplanning. D’autres types de bilans de campagne peuvent être qualitatifs, et chercher à mesurer par des post-tests l’effet de la campagne publicitaire sur des perceptions et des comportements de la cible : notoriété de la marque, intention d’essai ou d’achat du produit... Ils peuvent aussi concerner directement l’effet sur les ventes : conversion de la cible à l’achat du produit. Le médiaplanning est donc un outil d’aide à la décision. Il a vocation à donner, par des chiffres, des armes commerciales aux acteurs du marché de l’achat d’espace publicitaire, que sont les régies (les vendeurs) et les agences média (les acheteurs, agissant pour le compte des annonceurs). Les centres serveurs, qui exploitent les logiciels de médiaplanning, n’appartiennent ni à l’un ni à l’autre de ces deux camps. Ils fourbissent des armes pour le compte des deux parties. En pratique, ce sont les régies qui ont le plus besoin du médiaplanning pour exister. Elles sont d’ailleurs, depuis toujours, à la base du financement des enquêtes d’audience. Il fût un temps où les régies finançaient aussi la recherche média. Mais le début des années 1990 marque un premier retournement du marché publicitaire (dû aux effets conjugués de la loi Sapin1 et de la décroissance économique), suivi d’un deuxième, encore plus fort, en 2009. Depuis, malheureusement, il n’existe plus beaucoup de recherche média, faute de moyens. C’est en Europe qu’est né le médiaplanning tel qu’on le connait aujourd’hui. Aux ÉtatsUnis, l’immensité du territoire a induit - du moins avant internet - un fractionnement géographique des supports : télé, radio et presse sont locales. Cela a considérablement simplifié, sinon supprimé, les problèmes de duplication d’audience entre supports rencontrés dans la construction de plans nationaux. En Europe, les zones de diffusion des supports étant le plus souvent nationales, on construit des plans en pelures d’oignon, chaque support apportant une couche de contacts supplémentaire. 1
La loi Sapin a imposé au marché de l’achat d’espace une transparence sur les avoirs et remises attribués par les régies aux agences média, en obligeant ces dernières à communiquer leurs factures d’achat aux annonceurs.
VI
Avant-propos
Aux États-Unis, au Canada ou en Australie on construit des plans en puzzles, les zones de diffusion des supports étant juxtaposées et non superposées. Le marché français du médiaplanning est unique en son genre. Il a la réputation d’être le plus sophistiqué du monde. Cela s’explique par la présence en France, durant les 50 dernières années, d’une impressionnante pléiade de chercheurs spécialisés dans le domaine média. On peut citer selon un ordre approximatif d’ancienneté : Agostini, Marc, Adam, Morgensztern, Canguilhem, Boucharenc, Bergonnier, Durand, Parodi, Lebart, Mauris, Lejeune, Tassi, Santini, Stehlé, Mounier, Mariet, Chaskalovitch, Taconnet, Charton. Autre particularité, la France est le seul pays d’Europe où il existe des logiciels de médiaplanning autonomes. Partout ailleurs, le médiaplanning est constitué de moteurs d’évaluation intégrés dans les logiciels de gestion d’achat d’espace (comme en GrandeBretagne, Espagne, Italie) ou proposés par des médias (comme les éditeurs de presse en Allemagne, Belgique, Pays-Bas). Au moment où ce livre est sur le point d’être édité, le monde des médias est toujours en pleine révolution digitale, et certains se demandent si le médiaplanning ne va pas disparaitre. C’est improbable. En tout état de cause, ce qui ne risque pas de disparaître est le besoin impérieux des annonceurs de disposer d’une évaluation prévisionnelle des performances de leurs campagnes de communication, quelles que soient leur nature, pour justifier l’investissement qu’elles représentent. L’arrivée d’internet dans le monde du médiaplanning constitue certes une révolution. Le maître mot est dorénavant : le digital d’abord. Les agences média ont restructuré leur achat d’espace et regroupé leurs services de médiaplanning auparavant décentralisés par média. L’émergence et le succès foudroyant d’internet, sa capacité à s’adresser à tous tout en gardant trace de son interaction avec chacun, sa commercialisation à la performance et sa gestion de campagne en temps réel, remettent en question des années d’usages des spécialistes de la publicité. Ses KPI (Key Performances Indicators) incisifs de taux de clic et de taux de conversion viennent défier les notions d’audience et de GRP. Il n’empêche que face à une offre média de plus en plus pléthorique, les agences et les acheteurs d’espace ont toujours besoin de justifier auprès des annonceurs le bienfondé des investissements publicitaires qu’ils recommandent. À titre d’exemple, l’offre hebdomadaire de la télévision comporte, pour les seules 14 plus grosses chaînes de la TNT, pas loin de 2 000 écrans. Lesquels choisir pour atteindre le mieux possible la cible de l’annonceur, tout en minimisant le budget alloué ? Le médiaplanning n’est donc pas moribond, bien au contraire. Mais il doit évoluer. Son champ d’application, jusqu’ici restreint aux mass médias traditionnels, doit s’ouvrir aux formes de communication que les nouvelles technologies autorisent. Plus important encore, les acteurs de ce marché ont aujourd’hui besoin d’un médiaplanning différent, axé sur le digital et la convergence média, qui impliquent une notion d’audience transversale. Chaque support, s’il veut survivre, doit être en mesure de proposer des chiffres d’audience tenant compte de l’extension de sa marque depuis son canal historique vers le canal internet. C’est particulièrement vrai en presse, mais aussi en radio ou en télévision, où les supports doivent vendre leur espace sous la notion chapeau de marque média.
Avant-propos
VII
Les acteurs des médias historiques et le marché en général se trouvent donc aujourd’hui face à deux besoins : définir des indicateurs transversaux et produire de l’audience cross média fiable. Historiquement, tout s’oppose à l’émergence d’une notion d’audience transversale. Les concepts de contact, d’audience et le médiaplanning se sont développés média par média. C’était compréhensible et peut être légitime il y a 30 ans, quand la priorité était à l’exploration et la mise en valeur des spécificités de chacun. Mais la conséquence de ce développement « en silo » est qu’il est aujourd’hui difficile de comparer les performances des différents médias de façon équitable. Un GRP presse, par exemple, à peu à voir avec un GRP télévision, tant dans son calcul que dans sa signification opérationnelle. Comment faire quand on ajoute un troisième média comme internet, dont le GRP de référence n’a toujours pas été clairement défini par l’interprofession ? Car si internet s’impose, il peine encore à fixer des normes consensuelles. Il est donc devenu particulièrement important d’établir une grille de lecture inter-média lisible et compréhensible par tous. C’est l’un des principaux objectifs de ce livre. Produire une audience cross média est une autre gageure. Au minimum, il faudrait pouvoir élaborer, pour chaque média historique, une mesure bimédia avec internet fiable et rigoureuse (presse-internet, télé-internet, radio-internet). Le Graal consisterait à concevoir un dispositif plurimédia complet, incluant internet, presse, télévision et radio, voire la publicité extérieure. Pour produire ces nouvelles audiences, les fournisseurs de données repoussent les limites des méthodes d’appariement et de redressement. L’autre maître-mot est dorénavant : la fusion. Ainsi, l’audience internet proposée au marché en 2018 cumule trois études de référence : ordinateur, mobile et tablette, redressées par des données site-centric puis fusionnées entre elles. De son côté la presse propose une audience globale presse papier+digital des marques médias, en fusionnant pas moins de quatre enquêtes de référence. La production de ces audiences nécessite un niveau de maîtrise statistique élevé, qui n’a sans doute jamais été aussi exigeant. Car enfin, comment fait-on pour probabiliser et étalonner l’audience ? La recherche d’individus voisins et la fusion peuvent-ils suffire à produire les audiences cross média ? Une présentation des outils mathématiques permettant de produire les données de médiaplanning parait à ce stade bien utile. C’est un autre objectif essentiel de ce livre. Cet ouvrage est donc organisé en deux parties. Il s’attache d’abord à créer un socle conceptuel, sans lequel il serait vain de vouloir présenter et expliquer les nombreuses méthodes mathématiques requises pour produire les performances prévisionnelles d’une campagne publicitaire. La première partie est donc formée de 3 chapitres consacrés respectivement aux 3 notions fondamentales sur lesquelles repose le médiaplanning : Contact, GRP et Audience. Passer au crible ces concepts média par média permet aussi de mettre en exergue leurs différences aussi bien que leurs points communs, et établir ainsi la grille de lecture transversale attendue. La seconde partie a pour objectif de présenter et rendre compréhensible les méthodes sur lesquelles s’appuie le médiaplanning.
VIII
Avant-propos
Ces méthodes sont regroupées en 5 grandes classes, appelées fonctions-outil, donnant lieu à 5 chapitres méthodologiques : Probabilisation, Voisinage ou Recherche d’individus voisins, Étalonnage, Fusion et Modélisation. Leur analyse minutieuse permet de comprendre et d’apprécier la genèse des données de médiaplanning, aussi bien par média que cross média. Un ensemble de schémas de synthèse d’utilisation des fonctions-outil par média est présenté à l’annexe n°21. Le but de ce livre n’est pas de faire de la prospective. Mais expliquer et comprendre les dispositifs et les méthodes utilisés actuellement amène fatalement à s’interroger sur leur pertinence et leur optimisation. Certaines questions de fond seront posées, concernant aussi bien les chapitres conceptuels que les chapitres méthodologiques. Par exemple, la complexité qui caractérise la mesure d’audience et le traitement du média radio est-elle justifiée ? Existe-t-il une méthode fiable permettant de déterminer la duplication entre supports appartenant à des médias différents ? La fusion est-elle la seule ou la meilleure méthode pour effectuer un transfert de probabilités entre deux sources d’audience ? Les auteurs se veulent force de proposition sur certains sujets clés. Par exemple face à l’impossibilité d’établir d’emblée une notion de distance de voisinage entre items qualitatifs, ils proposent une solution basée sur la proximité des affinités respectives (chiffrable par des probabilités) d’un ensemble d’items qualitatifs avec une palette d’items sociodémographiques de référence. Pour pallier à l’usage immodéré de la fusion et à ses résultats aberrants, ils suggèrent de lui substituer une méthode de transfert de propriétés par fonction de répartition, découlant du processus de modélisation instauré par Jean-Luc-Stehlé en probabilisation. Puisse ce livre permettre à ses lecteurs de mieux comprendre le médiaplanning et participer en connaissance de cause à son évolution.
Les auteurs remercient chaleureusement Jean-Luc StehlĂŠ pour sa relecture attentive, ses remarques fructueuses, et son prĂŠcieux soutien.
Table des matières Préface de Sébastien Danet
III
Avant-propos
V
Remerciements
IX
Première partie Notions fondamentales
1. Sources d’audience
1
1.1. Définitions
1
Source de GRP et source de couverture
1
Source hub
2
Source satellite
3
Source de référence 1.2. Notions de base relatives au recueil des sources d’audience
3 4
Dispositif audimétrique
5
Carnet d’écoute ou de lecture
6
Panel d’internaute
6
Enquête face à face, auto-administrée ou en ligne
7
Enquête téléphonique
7
Data et Big Data 1.3. Principales sources d’audience par média
8 9
1.3.1. Presse
9
ONE
9
ONE Market
9
ONR Premium ONE Global 1.3.2. Internet
9 10 10
MNR
10
Internet Mobile
10
Internet Tablette
11
Internet Global
11
1.3.3. Radio
11
Enquête 126 000
11
Panel radio
12
1.3.4. Télévision
12
Médiamat
12
Médiamat’Thématik
12
1.3.5. Publicité extérieure
13
Patrimoine
13
Déplacements
13
1.3.6. Cinéma
13
XII
Table des matières
1.4. Acteurs de la mesure d’audience
13
Médiamétrie
13
ACPM
14
Affimétrie
14
CESP
14
Instituts de recherche
14
Centres serveurs 1.5. Notions de base relatives au traitement des données média
15 16
Cible Ensemble
16
Échantillon
16
Univers de redressement
17
Univers de référence des cibles
18
Facteur d’échantillonnage
19
Facteur d’homothétie d’un échantillon
19
Segment de population
20
2. Contact
23
2.1. Notion de contact
24
2.1.1. Individu
24
Poids d'un individu statistique 2.1.2. Support A. Support d’achat
24 25 25
Durée de vie d’un support d’achat
25
Insertion
27
Durée d’insertion d’un support d’achat
27
B. Support du message
28
Durée de vie d’un support du message
28
Durée de vie d’un message
28
C. Support de mesure Support de mesure daté ou nommé 2.1.3. Déclinaison de la notion de support par média
29 29 30
Presse
30
Internet
30
Radio
30
Télévision
31
Publicité extérieure
31
Cinéma
31
Tableau récapitulatif des supports par média
32
2.1.4. Définition d’un contact
32
Contact support
33
Contact message
33
2.1.5. Niveaux de contact
33
Contact avec le support d’achat
33
Contact avec le support du message
34
Contact avec le message
34
2.1.6. Support fractionné Taux de fréquentation d’un support fractionné
34 35
Table des matières
2.1.7. Contact partiel Dénombrement de contacts partiels
XIII
35 36
2.1.8. Probabilité de contact 2.2. Mesure d’un contact
36 37
Acte de fréquentation 2.3. Quantum de fréquentation
37 39
2.3.1. Définition
39
2.3.2. Notions de base
39
Méthodes d’évaluation
39
Audience étalon
40
Plurifréquentation
40
Concept d’item
40
Variables de définition d’un quantum de fréquentation
42
2.3.3. Quantum de fréquentation presse
42
2.3.4. Quantum de fréquentation internet
42
Patron de fréquentation natif en termes de pages vues
43
Patron de fréquentation natif en termes de visites
44
2.3.5. Quantum de fréquentation radio
45
Poids 1/4H
45
Dispositif de mesure bisource
46
A. Panel radio
46
Jours chronologiques
46
Quantum de fréquentation
46
Patron de fréquentation natif
47
Quanta de fréquentation moyennés
47
B. Enquête 126 000
48
Quantum de fréquentation
49
2.3.6. Quantum de fréquentation télévision
49
A. Notions de base spécifiques à la télévision
49
Support de mesure en télévision
49
Ticket individuel
50
Unité de mesure : seconde
50
Contact instantané
50
Audience instantanée
51
Support de mesure : 1/4H
51
Support de mesure : écran
51
Taux d’écoute d’un support de mesure
52
Catégorisation des chaînes de télévision
52
B. Historique de l’évolution de la mesure d’audience de la télévision
53
Panel constant Médiadata
55
Panel continu Médiacabsat
56
Source BPU
56
C. Quantum de fréquentation
58
Quantum de fréquentation d’un écran
58
Quantum de fréquentation d’un 1/4H
60
D. Problématique des bilans de campagne
61
2.3.7. Quantum de fréquentation publicité extérieure
62
XIV
Table des matières
Quantum de fréquentation d’un réseau porteur de faces
63
2.3.8. Quantum de fréquentation cinéma
64
2.3.9. Tableau récapitulatif des quanta de fréquentation par média
65
3. GRP
67
3.1. Distribution de contacts d’un plan sur une cible
68
Moyenne 3.2. Définition du GRP
69 69
3.3. Déclinaison de la notion de GRP par média
72
3.3.1. Presse
72
Audience LDP d’un titre
74
Rôle privilégié de l’audience partielle d’hier d’un titre
75
Audience maximale d’un titre
76
Conclusion
77
3.3.2. Internet A. GRP-pages vues relatif à un jour moyen
77 79
Jours chronologiques
79
GRP de référence ciblé délivré par un site un jour moyen
79
B. GRP-pages vues relatif à un jour nommé
79
Semaine type
79
GRP de référence ciblé délivré par un site un jour nommé
80
GRP de référence ciblé délivré par un site une semaine type
80
C. GRP-visites relatif à un jour moyen 3.3.3. Radio
81 81
Notion de 1/4H moyen
82
Calcul du GRP d’un support délivrant des contacts 1/4H partiels
82
Choix de l’enquête 126 000 pour le calcul du GRP de référence
82
Nombre de contacts ciblés délivrés par un support d’achat
83
GRP-1/4H d’un support d’achat
84
3.3.4. Télévision A. GRP instantané
84 84
Audience instantanée
85
Pénétration instantanée
85
GRP instantané
85
B. GRP-1/4H et GRP-écran
85
GRP-1/4H
86
GRP-écran
86
C. Conventions de GRP fixées par Médiamétrie
86
Nombre de contacts ciblés délivrés par un support d’achat
87
Audience ciblée d’un support d’achat
87
Conventions GRP
87
Médiamat National quotidien relatif aux grosses TNT
87
Médiamat National bimestriel relatif à l’ensemble des chaînes TNT
88
Médiamat’Thématik semestriel relatif aux chaînes thématiques
88
3.3.5. Publicité extérieure
89
Agglomération active
89
Principe de calcul du GRP
89
Table des matières
XV
Univers d’individus
89
Multiplication des contacts
91
Périmètre d’une campagne
89
GRP ciblé d’un réseau chapeau sur un périmètre
91
Nombre de contacts délivrés par un réseau porteur de faces
92
3.3.6. Cinéma
92
4. Audience
95
4.1. Notion générale d’audience
97
Duplication d'audience 4.2. Types d’audience des supports de mesure
97 97
4.2.1. Audience brute Définition formelle d’une audience brute 4.2.2. Audience moyenne Définition formelle d’une audience moyenne 4.2.3. Audience probabilisée
97 98 99 101 102
Définition formelle d’une audience probabilisée
103
Prudence dans l’utilisation des audiences probabilisées
104
Asymptote d’un support d’achat probabilisé
105
4.2.3. Proximité et différence entre audience moyenne et probabilisée 4.3. Audience de référence
105 106
4.3.1. Audience de référence de la presse
107
4.3.2. Audience de référence d’internet
108
Audience brute cumulée d’un site par jour daté
110
Audience brute cumulée d’un site après J jour
110
Audience d’un site après un jour moyen
111
Part de voix
112
Capping
112
4.3.3. Audience de référence de la radio
112
Taux de fréquentation individuel d’un support fractionné
112
Audience brute instantanée d’un support de mesure fractionné
112
Audience moyenne d’un support de mesure fractionné
113
Audience brute instantanée d’une unité de mesure en radio
113
Audience moyenne du support de mesure 1/4H en radio
113
4.3.4. Audience de référence de la télévision
114
Audience brute instantanée d’une unité de mesure en télévision
114
Taux d’écoute d’un support de mesure 1/4H ou écran
115
Audience moyenne du support de mesure 1/4H ou écran en télévision
115
4.3.5. Audience de référence de la publicité extérieure
116
Audience de référence d’un réseau porteur de faces
117
Audience de référence d’un réseau chapeau
117
4.3.6. Audience de référence du cinéma
117
4.3.7. Comparaison des médias selon leur audience de référence
118
4.3.8. Audience de référence générique d’un support de mesure 4.4. Généralisation de la notion d’audience brute cumulée
120 122
Audience brute cumulée d’un support de mesure fractionné
123
Audience brute cumulée d’un 1/4H semi-daté en radio
123
XVI
Table des matières
Audience brute cumulée d’un 1/4H ou écran daté en télévision Audience brute cumulée d’une face d’un réseau d’affichage 4.5. Audience générique de fréquentation dernière période FDP
123 124 124
4.5.1. Jour daté caractéristique d’un support de mesure
125
4.5.2. Support de mesure témoin d’une station ou d’une chaîne
125
4.5.3. Audience FDP de chacun des médias
125
Presse
125
Cas particulier des quotidiens
126
Internet
126
Radio
127
Télévision
127
Publicité extérieure
127
Cinéma 4.6. Audience globale d’une marque média Détermination de l’audience globale d’une marque média Principe de la méthode Marengo 4.7. Deux notions d'audience liées à la convergence média 4.7.1. Audience brute cumulée d’un macro-support Méta-plan
128 128 128 129 132 132 132
4.7.2. Audience brute d’un méta-plan
133
Deuxième partie Fonctions-outils
5. Probabilisation
135
5.1. Théorème des probabilités composées et loi des grands nombres
137
Théorème des probabilités composées
137
Loi des grands nombres 5.2. Fondements conceptuels de l’approche probabiliste
138 138
5.2.1. Probabilité d’un individu de fréquenter un support
139
Expérience aléatoire
139
5.2.2. Concept de clone
140
5.2.3. Micro-modèle individuel
141
Vecteur d’exposition d’un individu
142
Tribut d’un individu
143
5.2.4. Fonction d’agrégation générique de tout indicateur médiaplanning 5.3. Plurifréquentation d’un support de mesure
143 144
Vecteur d’exposition
144
Facteur de plurifréquentation
145
Modélisation du vecteur d’exposition lié à la plurifréquentation 5.4. Distribution de contacts d’un plan
146 147
Vecteur d’exposition d’un individu à un plan
147
Distribution de contacts nette d’un plan
147
Moyenne de la distribution de contacts nette d’un plan
148
Distribution de contacts cumulée d’un plan
148
Table des matières
Propriété remarquable de la distribution de contacts cumulée 5.5. Genèse de la distribution de contacts d’un plan 5.5.1. Accumulation d’audience d’un support d’achat
XVII
148 149 150
Courbe d’accumulation d’audience expérimentale
151
Courbe d’accumulation d’audience probabiliste
153
Problème des Non-Jamais inhérent au mode de recueil par panel
153
Défaut de la courbe d’accumulation d’audience probabiliste
153
5.5.2. Duplication d’audience entre supports d’achat Notion générale d’audience dupliquée 5.5.3. Mosaïque de classes d’exposition
154 154 155
Deux items
155
Trois items
156
Quatre items
157
5.5.4. Mosaïque de classes d’exposition expérimentale
158
Effectif d’une classe d’exposition
159
Patron de fréquentation
159
5.5.5. Mosaïque de classes d’exposition probabiliste
160
Distorsion due à l’hypothèse d’indépendance
161
Audience cumulée d’une mosaïque de classes d’exposition probabilistes
162
Défaut des classes d’exposition probabilistes 5.6. Méthodes de probabilisation 5.6.1. Méthodes de probabilisation par classe d’équivalence A. Cas de la presse
162 163 163 164
Principe de la méthode
164
Classes d’équivalence
164
Calcul des probabilités
165
Variante
166
B. Cas de la télévision et d’internet
166
Principe de la méthode
166
Classes d’habitude d’écoute
167
Classes d’équivalence
167
C. Cas de la radio 5.6.2. Méthode de probabilisation par modélisation
167 168
Agrégation
169
Modélisation
169
Hiérarchisation
169
Discrétisation 5.7. Cas particulier des médias délivrant des contacts partiels
170 171
5.7.1. Indicateurs de GRP et d’audience en audiovisuel
172
Rappel de la définition du GRP en audiovisuel
172
Rappel de la définition de l’audience moyenne en audiovisuel
172
5.7.2. Distribution de contacts en audiovisuel
173
Distribution de contacts probabiliste
173
Distribution de contacts obtenue par comptage
174
Conclusion
176
5.7.3. Solution alternative recommandée par les auteurs Comparaison entre les vecteurs d’exposition de chacune des solutions
176 177
XVIII
Table des matières
6. Voisinage
179
6.1. Problème posé par les critères qualitatifs
180
Questions quantitatives assimilées
181
Questions quantitatives authentiques
181
Questions qualitatives 6.2. Notions préalables sous-jacentes au concept de distance 6.2.1. Catégorisation des questions d’une enquête marketing ou média
181 182 182
Question qualitative à réponses exclusives
182
Question qualitative à réponses multiples
183
Question quantitative
183
Question quantitative assimilée
183
Question induite
184
Pseudo-question
184
6.2.2. Dimension d’une question
185
6.2.3. Définition formelle d’une question
186
6.2.4. Item
186
Item natif qualitatif
187
Probabilité moyenne associée à un item qualitatif
187
Item natif numérisé
188
Item qualitatif déduit d’un item numérisé
188
Item probabilisé
188
Item qualitatif déduit d’un item probabilisé
189
Item construit
189
Variable intrinsèque d’un item 6.3. Concept de distance
189 190
6.3.1. Question de transfert
190
6.3.2. Base de jumelage
190
Profil d’appariement d’un individu
190
Variable multidimensionnelle
191
Espace vectoriel
192
Nuage de points
192
Variable de transfert
192
6.3.3. Distance de voisinage élémentaire entre individus
193
Distance élémentaire liée à une question quantitative
193
Distance élémentaire liée à une question qualitative
194
6.3.4. Distance de voisinage globale liée à des profils d’appariement 6.3.5. Phénomène de compensation 6.4. Inadéquation de l‘ACM à des fins de calcul de distance Grain d’écart 6.4.1. Indépendance des distances par rapport à la base de référence Propriété d’un espace vectoriel 6.4.2. Appauvrissement de la notion de distance induite par l’ACM
194 195 196 197 198 199 199
Principe de la méthode
199
Distance globale de voisinage entre individus au sens de l’ACM
201
Contradiction inhérente à la distance ACM 6.5. Méthode alternative proposée par les auteurs 6.5.1. Distance entre items qualitatifs
202 203 203
Table des matières
Rappel du constat 6.5.2. Distance de corrélation
XIX
203 204
Implication mutuelle entre propriétés
204
Propriété large, propriété fine
205
6.5.3. Indices de corrélation
206
Indice de concomitance
206
Coefficient de Yule
207
Indice de proximité
208
6.5.4. Distance de voisinage
208
Définition intuitive
208
Définition formelle
209
6.5.5. Distance entre modalités d’une question de transfert qualitative
210
Question à réponses exclusives
210
Question à réponses multiples
211
6.5.6. Distance de voisinage globale entre individus
212
Coefficients de pondération des variables de transfert
212
Écart significatif des variables de transfert numérique
213
Écart normalisé entre individus sur une variable de transfert
213
Calcul de la distance globale 6.6. Biais inhérent à l’absence de transitivité en matière de voisinage
213 214
6.7. Méthode des Voisinages pondérés
216
7. Étalonnage
219
7.1. Appariement de données
220
7.2. Définition des deux grands types d’étalonnage
221
7.2.1. Étalonnage bisource Hybridation de Médiamétrie
221 223
7.2.2. Étalonnage des audiences et des GRP probabilistes Niveau de correction
224 225
Principe de conservation des audiences et des GRP 7.3. Types d’étalonnage selon les médias
225 226
7.4. Méthodes d’étalonnage
227
7.5. Cas d’étalonnage du dispositif Cross Médias de Médiamétrie
228
7.5.1. Descriptif du cas
228
Redressement des probabilités
228
Calage des distributions de contacts
229
7.5.2. Implication dans les processus d’étalonnage A. Étalonnage des audiences Médias audiovisuels et presse Média internet B. Étalonnage des GRP 7.5.3. Détermination des GRP étalon selon les médias
229 229 229 230 230 231
Presse
231
Internet
231
Radio
232
Télévision
232
XX
Table des matières
7.6. Autres méthodes d’étalonnage micro-statistique 7.6.1. Étalonnage d'un support Médiaweight Etalonnage de l'audience probabiliste d'un support 7.6.2. Étalonnage d’un plan Coefficient individuel relatif à un bloc d’insertions Étalonnage de la probabilité d’un individu de fréquenter un support
233 233 233 233 234 234 234
8. Fusion
235
8.1. Notions de base
237
8.1.1. Notions générales
237
Jumeaux
237
Base de jumelage
238
Question de transfert
238
Exemples de bases de jumelage
239
Profil d’appariement
239
Principe de création des paires de jumeaux
240
Variable de transfert
240
8.1.2. Distance de voisinage élémentaire Cas particulier des questions quantitatives assimilées
240 240
8.1.3. Distance globale d’appariement
242
8.1.4. Classe d’équivalence
242
Définition générale d’une classe d’équivalence
243
Classe d’équivalence de donneurs d’un individu receveur
243
8.1.5. Univers d'appariement
243
Source majeure et source mineure
244
Définition de l’univers d’appariement d’une fusion
245
Trace de l’univers d’appariement dans la source majeure
246
8.1.6. Items caractéristiques d'une grandeur à transférer 8.2. Processus de fusion 8.2.1. Principe de restitution d’une propriété à transférer par fusion
248 249 249
Formalisation du principe
250
Implication logique
251
Conséquences dues aux implications à faible probabilité
251
Exemple d’un cas de forte implication
253
8.2.2. Caractéristique de la distance globale d’appariement 8.3. Objet d’une fusion
253 255
8.3.1. Fusion portant sur un seul support
256
8.3.2. Fusion portant sur un grand nombre de supports
256
Contre-argumentation
257
Fusion Hub Î AEPM du dispositif Cross Médias de Médiamétrie
258
Absence de variables de transfert relatives aux supports 8.4. Détermination des variables de transfert d’une fusion
259 259
8.4.1. Segmentation d’appariement
259
8.4.2. Création d’une variable de transfert
260
8.4.3. Variables de transfert construites sur les questions d’habitude
262
Solution recommandée par les auteurs
262
Table des matières
XXI
Configuration de supports
262
Palette d’items d’une configuration de supports
263
Niche de la palette d’une configuration de supports 8.5. Résultat d’une fusion 8.5.1. Limite d’un transfert de propriété par fusion 8.5.2. Conséquence au niveau des projets plurimédia 8.6. Exemples de projets plurimédia concrets
263 264 265 266 266
8.6.1. Rappel de la notion de source hub
267
8.6.2. Cross Médias de Médiamétrie
267
Problème de réplication et de dépliage
268
Problème d’une taille d’échantillon hub insuffisante
269
Possibilité de contrôle d’une fusion
271
8.6.3. Projet ONE Global
272
Audience et communication
273
Médiaplanning bimédia
273
Solution alternative à la fusion
275
Probabilisation de la presse-papier
276
8.6.4. Projet Internet Global
278
9. Modélisation
281
9.1. Bases expérimentales
284
Vecteur d’exposition d’un individu à un support après n insertions
284
Distribution de contacts nette d’un support après n insertions
284
Moyenne de la distribution de contacts nette d’un support
285
Distribution de contacts cumulée d’un support
285
Couverture d’un support après n insertions
285
Courbe d’accumulation d’audience d’un support 9.2. Fonctions de répartition
285 286
9.2.1. Fonction de répartition liée à une variable aléatoire
287
Univers
287
Poids normé d’un individu
287
Carré normé
287
Définition de la fonction de répartition d’une variable aléatoire
288
Définition d’une fonction de densité de probabilité
288
9.2.2. Fonction de répartition liée à une variable numérique
289
Distribution d’une variable numérique entière sur un univers
289
Fonction de répartition généralisée à une variable numérique entière
289
9.2.3. Création d’une fonction de répartition dans un univers source A. Cas d’une variable aléatoire
290 291
Méthode de probabilisation par modélisation de Jean-Luc Stehlé
291
Segment à zéro
292
Changement des paramètres a et b
293
Calcul des paramètres optimaux p°, τ° et z°
293
Calcul de la distribution de contacts théorique
294
Ajustement de la distribution théorique sur la distribution empirique
295
Pourquoi la modélisation s’appuie-t-elle sur une Bêta-binomiale ?
296
Propriété
297
XXII
Table des matières
B. Cas d’une variable numérique réelle 9.2.4. Reconstruction d’une fonction de répartition A. Hiérarchisation des individus Coefficient hiérarchique B. Discrétisation d’une fonction de répartition continue
298 298 298 298 299
But de la discrétisation
299
Propriété de F(x)
299
Fonction de discrétisation E(x)
300
Calcul des probabilités pi
301
Remarque à propos des supports faisant l’objet de plurifréquentation 9.3. Modélisation du phénomène de plurifréquentation Internet Publicité extérieure 9.4. Modélisation de la fréquentation du média internet 9.4.1. Rappel de quelques notions de base
301 302 302 302 303 304
Support de mesure
304
Quantum de fréquentation
304
Visite
304
Insertion et part de voix
305
Capping
305
Passage
305
9.4.2. Micro-modèle individuel complet de plurifréquentation
305
Vecteur de plurifréquentation d’un individu
306
Probabilité d’un individu de visiter un site un jour moyen
306
Vecteur d'exposition d'un individu à un site après un jour moyen
306
9.4.3. Grandeurs individuelles de base
307
Grandeurs individuelles de base probabilistes
307
Grandeurs individuelles de base de référence
308
Rôle des grandeurs de base
308
9.4.4. Tributs d’un individu
310
Rappel de la définition du tribut d’un individu
310
A. Tributs d’un individu relatifs aux performances d’un site
310
Tribut de i à l’audience probabiliste d’un site après une insertion
310
Tribut de i au nombre de contacts-pages vues probabiliste délivrés par un site après une insertion Tribut de i à l’audience probabiliste d’un site après J insertions
310 310
Tribut de i au nombre de contacts-pages vues probabiliste délivrés par un site après J insertions B. Tributs d’un individu relatifs aux performances d’un bloc d’insertions
310 311
Tribut de i à l’audience d’un bloc d’insertions
311
Tribut de i au nombre de contacts-pages vues délivrés par un bloc d’insertions
311
Tribut de i à la répétition induite par un bloc d’insertions
311
Tribut de i au grp unitaire délivré par un bloc d’insertions
311
C. Tributs d’un individu relatifs aux niches de contacts
312
Tribut de i à l’audience de la niche (-) de seuil s
312
Tribut de i à l’audience de la niche (+) de seuil s
312
Tribut de i au nombre de pages vues de la niche (-) de seuil s
312
Table des matières
Tribut de i au nombre de pages vues de la niche (+) de seuil s 9.4.5. Grandeurs résultats relatives à un site A. Grandeurs probabilistes après une insertion
XXIII
312 313 313
Audience probabiliste ciblée d’un site après une insertion
313
Volume probabiliste de contacts-pages vues ciblés après une insertion
314
B. Grandeurs probabilistes après J insertions
314
Audience probabiliste ciblée d’un site après J insertions
314
Volume probabiliste de contacts-pages vues ciblés après J insertions
314
C. Grandeurs de référence après une insertion
314
Audience de référence ciblée d’un site après une insertion
314
Volume de référence de contacts-pages vues ciblés après une insertion
315
D. Grandeurs de référence après J insertions
315
Audience cumulée de référence après J insertions
315
Audience cumulée de référence ciblée d’un site après J insertions
315
Volume de référence ciblé de contacts-pages vues après J insertions
315
9.4.6. Complexité de la modélisation du média internet
316
Prise en compte de la part de voix relative à un passage
316
Prise en compte d’une action de capping relative à un passage
317
9.4.7. Solution de modélisation recommandée par Médiamétrie
319
Principe de base
319
Vecteur d’exposition d’un individu à un site après un jour moyen
319
Vecteur d’exposition d’un individu à un site après un passage
322
Modélisation de la part de voix
322
Modélisation du capping
324
Étalonnage Conclusion
325 326
9.4.8. Solution préconisée par les auteurs
326
Notion d'abaque
326
Item d'audience
327
Simplification
327
Autre simplification
327
Jeu d'essai de Médiamétrie
327
Patron de visite reconstitué
329
Audience éditoriale brute d'un site un jour donné
331
Volume de pages vues délivré par un site un jour donné
331
Volume de paps achetées sur un site un jour donné
331
A. Abaque de part de voix relatif à un jour donné
331
Audience publicitaire étalon d'un site un jour donné
332
Item d'audience publicitaire d'un site un jour donné
332
Audience publicitaire brute d'un site un jour donné
332
B. Abaque de capping relatif à un jour donné
333
Volume cappé de paps achetables un jour donné
333
Volume cappé de paps achetées un jour donné
333
Audience cappée étalon d'un site un jour donné
333
Item d'audience cappée brute d'un site un jour donné
334
Audience cappée brute d'un site un jour donné
334
XXIV
Table des matières
C. Abaque de part de voix relatif à un passage
334
Audience cumulée éditoriale brute d'un site après un passage
335
Volume cumulé de pages vues délivré par un site après une passage
335
Sous-domaine de modélisation journalier d'un passage
335
Différentiel d'audience publicitaire étalon d'un site un jour donné
336
Audience cumulée publicitaire étalon d'un site après un passage
337
Item d'audience cumulée publicitaire brute après un passage
338
Audience cumulée publicitaire brute après un passage
338
D. Abaque de capping relatif à un passage
338
Audience cumulée cappée étalon d'un site après un passage
341
Item d'audience cumulée cappée brute d'un site après un passage
341
Audience cumulée cappée brute d'un site après un passage
342
Conclusion
342
9.5. Création de ONE Global par une solution alternative à la fusion
343
Panel MNR
343
Enquête ONE
343
Point clé
344
Annexes 1. Résultats des plans prévisionnels toujours en jours nommés
346
2. Essai de catégorisation des contenus
348
3. Concept d’item
351
4. Exemples réels de patrons de fréquentation sur internet
360
5. Structure d’écoute comparative entre un 1/4H et un écran
362
6. Étalement dans le temps des lectures d’un N° (hebdo)
364
7. Comparaison des tributs individuels à l’audience et au nombre de contacts
366
8. Algorithmes d’évaluation full-binomial d’un plan média
367
9. Écarts entre courbes d’accumulation d’audience brute et probabilisée
369
10. Phase de discrétisation de la méthode de probabilisation de Jean-Luc Stehlé
371
11. Distance entre modalités d’une question qualitative à réponses exclusives
375
12. Impossibilité de restituer des duplications par fusion
384
13. Analyse du raisonnement de Médiamétrie justifiant l’hybridation
388
14. Méthode d’étalonnage dite du trusquin
391
15. Descriptif d’un ZIP
394
16. Enquête hub du dispositif Cross Médias de Médiamétrie
396
17. Loi de Poisson inappropriée pour modéliser la distribution des pages vues
397
18. Bêta-binomiale et Gamma-Poisson
400
19. Étalonnage des grandeurs probabilistes d’un site
401
20. Principe de cohérence
406
21. Schémas de synthèse d’utilisation des fonctions-outil par média
409
Bibliographie Index
421 423
Chapitre 5
Probabilisation Deux types de probabilités sont utilisés en médiaplanning : les probabilités de fréquenter les supports et les probabilités conditionnelles de percevoir les messages (si les individus sont effectivement en contact avec les supports qui les véhiculent). Seules les premières sont produites par la fonction-outil de probabilisation. Les autres sont directement issues de la mesure, tels que les taux d’écoute en télévision qui bénéficient de la précision (à la seconde près) du système audimétrique. L’objectif premier du médiaplanning est de déterminer la distribution de contacts délivrée sur une cible, par un plan de campagne (c’est-à-dire par la combinaison de plusieurs supports d’achats, dans lesquels sont passées une ou plusieurs insertions). La raison en est simple : tous les indicateurs de performance d’un plan sont contenus implicitement dans la distribution de contacts de ce plan. La probabilisation des données d’audience est devenue une fonction-outil essentielle au service du médiaplanning, parce qu’en l’absence d’un panel seule la probabilité individuelle de fréquenter un support permet de calculer son audience cumulée et, par voie de conséquence, la distribution de contacts d’un plan composé de plusieurs supports. Certes, on observe à travers les habitudes de lecture ou d’écoute des individus, que l’acte de fréquentation d’un support n’est pas un acte régulier dans le temps. Cela suffirait, en soi, à justifier que l’on utilise une probabilité pour modéliser l’acte de fréquentation d’un support. Mais en réalité la raison principale qui rend nécessaire l’utilisation d’une probabilité est qu’il est impossible de déterminer la courbe d’accumulation d’audience d’un support après n insertions, à partir de l’audience brute de ce support, déterminée par la mesure, sur 1 seule période d’insertion. Sans faire appel à la notion de probabilité, on serait donc dans l’impossibilité de calculer la distribution de contacts d’un plan. Incontestablement l’attribution de probabilités de fréquentation des supports, aux individus statistiques des sources d’audience, a favorisé le développement du médiaplanning, en permettant l’élaboration d’algorithmes d’évaluation de plans. C’est à propos de la presse, que l’on a calculé pour la première fois une distribution de contacts à partir de probabilités individuelles. On ne disposait à l’époque que d’une seule source d’audience produite par le CESP, et c’était une enquête ponctuelle. En effet, dans le cas où la source d’audience est un panel, les probabilités ne sont pas forcément nécessaires pour déterminer une distribution de contacts. Mais dans le cas d’une enquête ponctuelle, la probabilisation est indispensable. On doit donc à Jean-Michel Agostini – un des pionniers du médiaplanning en France – d’avoir pris l’initiative, dès le début des années 1960, d’introduire des questions d’habitudes de lecture dans l’enquête du CESP, avec pour seul but le calcul des probabilités de lecture. On a pu ainsi déterminer l’audience cumulée d’un support après plusieurs parutions et, du même coup, la distribution de contacts d’un plan.
136
5. Probabilisation
Néanmoins, l’utilisation des probabilités individuelles pour déterminer une distribution de contacts pose un problème de rigueur mathématique. L’algorithme d’évaluation d’un plan est basé sur le théorème des probabilités composées, qui requiert pour être appliqué qu’on respecte l’hypothèse d’indépendance entre les fréquentations des différents supports. Or il n’y a pas indépendance entre ces fréquentations et par conséquent on transgresse cette hypothèse. Ce qui entraîne dans la plupart des cas des biais importants. De plus, on ne fait pas ce que l’on veut en matière de probabilisation. On est en effet tributaire du mode de recueil propre à la source d’audience du média considéré : panel constant ou enquête ponctuelle. Car le mode de recueil de l’information impose catégoriquement la façon dont cette information est susceptible d’être probabilisée. Si la source est un panel, l’objet média sur lequel s’appuie la probabilisation est le patron de fréquentation individuel d’un support. Mais si la source est une enquête ponctuelle, c’est sur la courbe d’accumulation d’audience agrégée d’un support, que s’appuie la probabilisation. Le mode de recueil de la source d’audience d’un média a donc un impact direct sur le niveau de qualité des probabilités individuelles calculées dans ce média. Manifestement, outre l’écart considérable de quantité d’information recueillie, les panels permettent de calculer des probabilités de qualité bien supérieures à celles des enquêtes ponctuelles. Pourtant, de manière surprenante, les médias dont les sources d’audience sont des panels, tels que la radio, la télévision et internet, font l’objet d’une probabilisation (pour la télévision, c’était avant l’introduction d’Éval TV) qui fonctionne par comptage. Et ceci bien que les probabilités ne soient indispensables que lorsque la source d’audience est une enquête ponctuelle. Les raisons de cette situation sont historiques. À l’époque où la radio et la télévision était mesurée par le CESP, dans la même enquête face à face que celle de la presse, il était légitime de probabiliser ces médias de la même façon que cette dernière ; d’autant plus que les mêmes méthodes d’évaluation étaient appliquées aux trois médias. Avec l’arrivée d’internet, l’apparition du phénomène de plurifréquentation (la multiplicité des pages vues) a justifié la recherche d’une nouvelle méthode d’évaluation de plans, mais l’idée de remettre en cause les probabilités individuelles n’a pas émergé. Ce chapitre débute par un rappel des deux lois fondamentales sur lesquelles s’appuient les probabilités : le théorème des probabilités composées et la loi des grands nombres. Les auteurs introduisent ensuite la notion de vecteur d’exposition (qui est un vecteur de probabilités), expression d’un micro-modèle individuel qu’ils considèrent être au cœur de l’approche probabiliste du médiaplanning. Ils décrivent ensuite la genèse d’une distribution de contacts, comme la conjonction simultanée de deux phénomènes : l’accumulation d’audience d’un support et la duplication d’audience entre plusieurs supports. La partie centrale de ce chapitre traite de la probabilisation proprement dite et expose les deux grands types de méthode de probabilisation. Quant à la dernière partie, elle met en exergue la problématique cruciale des contacts partiels qui, en audiovisuel, conditionne implicitement la définition des notions d’audience et de GRP retenues par la profession et explique pourquoi, en radio et en télévision les audiences
5. Probabilisation
137
de référence sont des audiences moyennes et non pas, comme en presse, des audiences brutes cumulées de type LDP.
5.1. Théorème des probabilités composées et loi des grands nombre Deux lois mathématiques fondamentales permettent d’expliquer comment, à partir de la seule probabilité individuelle de fréquenter un support, on peut calculer son audience cumulée, après plusieurs insertions : x x
le théorème des probabilités composées, la loi des grands nombres.
Ces deux lois, qui appartiennent à la branche générale du calcul des probabilités, constituent les fondations de tout l’édifice méthodologique du médiaplanning. Théorème des probabilités composées Le théorème des probabilités composées permet de calculer la probabilité de réalisation de la conjonction de deux ou plusieurs évènements indépendants, lorsqu’on connait respectivement la probabilité de réalisation de chacun d’eux. Il suffit de faire leur produit arithmétique. Ce théorème permet également de calculer la probabilité de réalisation de la disjonction de deux ou plusieurs évènements indépendants. Sachant que la probabilité pour qu’un évènement ne se produise pas est le complément à 1 de la probabilité pour qu’il se produise, il est facile de calculer la réalisation de la disjonction de deux ou plusieurs évènements indépendants, c’est-à-dire la réalisation d’au moins un de ces événements. Il suffit de faire le complément à 1 du produit arithmétique des compléments à 1 des probabilités respectives de chacun des évènements. En presse par exemple, le théorème des probabilités composées permet de déterminer la probabilité, notée pin(1+), d’un individu statistique i, de lire un titre au moins une fois après n parutions, connaissant sa probabilité pi de le lire après 1 parution. Ce fait est capital et explique à lui seul le rôle primordial de la probabilisation. Soit [1- pi] la probabilité de i de ne pas lire le titre après 1 parution et [1- pi n(1+)] celle de ne l’avoir toujours pas lu après n parutions. En vertu du théorème des probabilités composées : [1- pin(1+)] = [1- pi]•[1- pi]•[1- pi] … n fois = [1- pi]n D’où l’expression de la probabilité pin(1+) : pin(1+) = 1- [1- pi]n Connaissant les probabilités pin(1+) de tous les individus i, l’audience recherchée du titre après n parutions se calcule alors par agrégation de la contribution de chacun d’eux à cette audience. Encore faut-il rappeler, que la contribution élémentaire d’un individu à l’audience d’un titre, aussi bien après 1 qu’après n parutions, est le résultat de l’application d’une autre loi fondamentale du calcul des probabilités : la loi des grands nombres.
138
5. Probabilisation
Loi des grands nombres Selon la loi des grands nombres, lorsqu’on expérimente un grand nombre de fois, noté N, dans les mêmes conditions, un évènement dont on connait la probabilité p de réalisation, le nombre x de fois où il se réalise tend lorsque N devient très grand vers le produit arithmétique x = N•p. Dans une enquête média, le poids γi d’un individu statistique i est le produit de son coefficient de redressement par le facteur d’extrapolation de l’échantillon de l’enquête. Ce poids est égal au nombre d’individus physiques extrapolés que l’individu statistique i représente au sein de la population étudiée. Ce nombre peut être légitimement considéré comme un grand nombre, au sens de la loi, car l’ordre de grandeur des poids γi est de plusieurs milliers. À titre d’exemple, dans une enquête représentative de l’ensemble 15 ans + de la population française (≈ 52 000 000), dont l’échantillon est de 20 000 personnes interrogées, le poids moyen des individus statistiques est égal à 2 600. Soit un individu i de poids γi dont pi est la probabilité de lire un titre après 1 parution. Selon la loi des grands nombres, le nombre yi d’individus physiques extrapolés correspondant qui ont effectivement lu le titre, après 1 parution, est égal au produit : yi = γi•pi Ce nombre est appelé la contribution de l’individu statistique i à l’audience probabilisée du titre. Pour obtenir l’audience probabilisée du titre après 1 parution, notée A 1, il suffit de procéder à l’agrégation de la contribution de chacun des individus à cette audience : A1 = ∑γi•pi Et pour obtenir l’audience probabilisée du titre après n parutions, notée An, il suffit de procéder à l’agrégation de la contribution de chacun des individus à cette audience : An = ∑γi•pin(1+)
5.2. Fondements conceptuels de l’approche probabiliste La probabilisation des données d’audience est la première de toutes les fonctions-outil au service du médiaplanning. Elle consiste à attribuer à chaque individu de l’univers de la source d’audience d’un média une probabilité de fréquenter chacun des supports de ce dernier, l’objectif étant que cette probabilité soit le plus exactement possible le reflet des habitudes de fréquentations desdits supports par les individus. Mais que fait-on ensuite de ces probabilités ? Comment sont-elles traitées, de telle sorte qu’on puisse produire les indicateurs de performance d’un plan de campagne ? La réponse à cette question tient en 3 phrases : 1. Tous les indicateurs de performance d’un plan de campagne sont implicitement inclus dans la distribution de contacts du plan. 2. La distribution de contacts d’un plan est le résultat de l’agrégation des vecteurs d’exposition au plan de tous les individus statistiques de la source d’audience, sachant que chaque vecteur d’exposition est la suite ordonnée des probabilités d’un individu d’être touché 0, 1, 2, … k fois par les supports du plan.
5. Probabilisation
139
3. Le vecteur d’exposition d’un individu à un plan est calculé, précisément, à partir des différentes probabilités de fréquenter chacun des supports du plan, par le processus mathématique full-binomial que les auteurs appellent l’algorithme de macro-évaluation d’un plan. (Voir sa description à l’annexe n°8).
5.2.1. Probabilité d’un individu de fréquenter un support En termes de médiaplanning on dit qu’un support distribue des contacts sur les individus d’une population. Inversement on dit que tout individu de cette population fréquente le support chaque fois qu’il reçoit au moins un contact de celui-ci durant un intervalle de temps donné. Ce qui présuppose qu’il peut en recevoir plusieurs pendant ce même intervalle de temps. Il s’avère que la fréquentation d’un support par un individu n’est pas un acte régulier dans le temps. Au cours d’une période d’observation donnée, datée, on ne peut pas avoir la certitude qu’un individu fréquentera ce support, alors même qu’il l’a déjà fréquenté précédemment ; il n’a qu’une certaine chance de le fréquenter. Ainsi, si on procède à la mesure de l’audience brute cumulée du support sur cette période, le fait que l’individu considéré fasse partie de son audience demeure un évènement aléatoire. Intuitivement on voit bien que la réalisation de l’acte de fréquentation d’un support par un individu, durant une période datée précise, relève d’une notion de probabilité, dont la valeur sera d’autant plus grande que l’habitude de fréquentation du support par l’individu est elle-même grande. La probabilité d’un individu de fréquenter un support est l’expression chiffrée de son habitude de fréquentation dudit support. Expérience aléatoire Mesurer l’audience d’un support d’achat à travers une enquête, telle que l’audience brute cumulée d’un titre de presse, peut être interprété comme 1 expérience aléatoire. Mesurer l’audience brute cumulée d’un site, à travers le panel mensuel MNR 1 jour daté donné, peut être également interprété comme 1 expérience aléatoire. Si la durée du panel est de 30 jours, cela revient à procéder à 30 expériences aléatoires. Pour formaliser cette interprétation, il suffit d’associer à chaque acte de fréquentation d’un support d’achat x par un individu i pendant la période d’observation, une variable aléatoire Xi susceptible de prendre la valeur 1, avec une certaine probabilité p i lorsque l’individu i fréquente le support. Soit xi la valeur binaire prise par cette variable. x x
xi = 1, si l’acte de fréquentation s’est réalisé, ce qui signifie que l’individu a été au moins une fois en contact avec le support pendant la durée d’observation, xi = 0, si l’acte de fréquentation ne s’est pas réalisé.
Soit γi le poids de l’individu i au sein de l’univers de mesure U. Soit Eu l’effectif de l’univers U, en nombre d’individus physiques extrapolés.
140
5. Probabilisation
On est capable par comptage, à partir de la mesure, de calculer l’audience brute cumulée du support d’achat x sur sa durée de vie, exprimée par une proportion d’individus notée α°x, en procédant à l’addition des poids des individus i pour lesquels xi = 1 : α°x = (∑γi•xi)/Eu sommation sur i Or dénombrer les actes de fréquentation du support x, durant un intervalle de temps donné, de tous les individus de l’univers de mesure U, revient à déterminer le nombre de réalisations des expériences aléatoires correspondant à l’ensemble des variables aléatoires Xi de paramètre pi. On peut affirmer que : L’audience brute cumulée αx du support d’achat x s’identifie à l’ensemble des réalisations des variables aléatoires X i. Il en résulte qu’il est possible, connaissant la distribution des probabilités p i sur l’ensemble des individus de l’univers de mesure U, notée D x, de calculer l’audience du support d’achat x. Cette audience, notée αx, est appelée son audience probabiliste. Pour la calculer, on s’appuie sur le concept de clone d’un individu statistique.
5.2.2. Concept de clone Tout individu statistique i de poids γi, dont la probabilité de fréquenter le support d’achat x est égale à pi et dont la probabilité de ne pas le fréquenter est égale à q i = (1-pi) est susceptible d’être partagé en deux sous-individus, appelés clones : x x
Le premier, de poids [γi•pi], fréquente le support. Le second, de poids [γi•qi], ne fréquente pas le support.
Il s’agit d’une application de la loi des grands nombres, en vertu de laquelle parmi les γ i individus physiques extrapolés (correspondant au poids de l’individu statistique i) ayant la probabilité pi de fréquenter le support d’achat x, il y en a γi•pi qui le fréquentent effectivement. Par d’exemple, si γi = 1 000 et que pi = 0,643 il y a : 1 000 x 0,643 = 643 individus physiques extrapolés qui fréquentent le support d’achat x. L’audience probabiliste du support d’achat x après 1 insertion, s’obtient alors par l’agrégation des poids de tous les clones qui fréquent le support : αx = ∑γi•pi
sommation sur i
À condition d’être capable de déterminer sur l’ensemble des individus de l’univers de mesure U une distribution de probabilités Dx qui corresponde au plus près à leurs habitudes de fréquentation du support x, l’audience probabiliste de celui-ci est égale, avec une approximation qui peut être excellente, à son audience brute cumulée : αx ≈ α°x Ceci étant, il existe entre les deux audiences une différence essentielle : x x
L’audience brute cumulée α°x du support x est l’effectif d’un item qualitatif. L’audience probabiliste αx dudit support est un nombre, résultat d’un calcul.
La faiblesse de l’audience probabiliste est de ne pas être l’effectif d’un item qualitatif, c’est-à-dire de ne pas être un groupe d’individus.