Statistique et causalité, F. Bertrand, G. Saporta, C. Thomas-Agnan - Editions Technip

Page 1



Université de technologie de Troyes Conservatoire National des Arts et Métiers, Paris Université Toulouse 1 Capitole

2021

Éditions TECHNIP

Pages de titre -Statistique et causalité.indd 1

5 avenue de la République, 75011 PARIS

26/08/2021 10:11


Pages de titre -Statistique et causalité.indd 2

29/06/2021 10:39


CHEZ LE MÊME ÉDITEUR Ouvrages SFdS • Apprentissage statistique et données massive, 2018 M. Maumy-Bertrand, G. Saporta, C. Thomas-agnan, Eds. • Model choice and model aggregation, 2017 F. Bertrand, J.-J. Droesbeke, G. Saporta, C. Thomas-agnan, Eds. • Méthodes robustes en statistiques, 2015 J.-J. Droesbeke, G. Saporta, C. Thomas-agnan, Eds. • Approches statistiques du risque, 2014 J.-J. Droesbeke, M. Maumy-Bertrand, G. Saporta, C. Thomas-agnan, Eds. • Modèles à variables latentes et modèles de mélange, 2013 J.-J. Droesbeke, G. Saporta, C. Thomas-agnan, Eds. • Approches non paramétriques en régression, 2011 J.-J. Droesbeke, G. Saporta, Eds. • Analyse statistique des données longitudinales, 2010 J.-J. Droesbeke, G. Saporta, Eds. • Analyse statistique des données spatiales, 2006 J.-J. Droesbeke, M. Lejeune, G. Saporta, Eds. • Modèles statistiques pour des données qualitatives, 2005 J.-J. Droesbeke, M. Lejeune, G. Saporta, Eds. • Méthodes bayésiennes en statistique, 2002 J.-J. Droesbeke, J. Fine, G. Saporta, Eds. • Plans d’expériences – application à l’entreprise, 1997 J.-J. Droesbeke, J. Fine, G. Saporta, Eds. Tous droits de traduction, de reproduction et dʼadaptation réservés pour tous pays. Toute représentation, reproduction intégrale ou partielle faite par quelque procédé que ce soit, sans le consentement de lʼauteur ou de ses ayants cause, est illicite et constitue une contrefaçon sanctionnée par les articles 425 et suivants du Code pénal. Par ailleurs, la loi du 11 mars 1957 interdit formellement les copies ou les reproductions destinées à une utilisation collective.

© Éditions Technip, 2021 5 avenue de la République, 75011 Paris ISBN 978-2-7108-1193-0

Pages de titre -Statistique et causalité.indd 3

26/08/2021 10:11


iv

“Pour toute chose, il doit y avoir une cause, ou raison assignable, pourquoi elle existe ou pourquoi elle n’existe pas.” Baruch Spinoza (1632-1677), Éthique


Avant-propos Les Journées d’Étude en Statistique (JES) ont été organisées pour la dixhuitième fois en 2018 par la Société Française de Statistique (SFdS). De 1984 à 2010, ces Journées se sont déroulées dans le cadre du CIRM (Centre International de Rencontres Mathématiques) situé sur le campus de Marseille-Luminy. Elles ont lieu depuis 2012 au centre de vacances du CNRS à Fréjus. Depuis les premières Journées qui furent organisées en 1984 par Jean-Jacques Droesbeke, Bernard Fichet et Philippe Tassi, les JES ont exploré tous les deux ans un domaine particulier de la statistique, publiant chaque fois un ouvrage destiné non seulement aux participants, mais aussi à la communauté des utilisateurs et des enseignants intéressés par le thème retenu. On lira avec profit l’article de J.J. Droesbeke « La formation à la statistique des enseignantschercheurs. L’expérience des Journées d’étude en statistique » paru dans la revue Statistique et Enseignement, volume 8, no 2. Le premier sujet qui fut développé était l’Analyse des séries chronologiques (Droesbeke et al. [1989b]). Les Journées de 1986 portèrent sur les Sondages (Droesbeke et al. [1987]) qui ont fourni en fait la première publication de cette collection. Vinrent ensuite l’Analyse statistique des durées de vie en 1988 (Droesbeke et al. [1989a]) et les Modèles pour l’analyse des données multidimensionnelles en 1990 (Droesbeke et al. [1992]). Les ouvrages de ces quatre Journées furent publiés par Economica. Les cinquièmes Journées d’Étude en Statistique furent organisées en 1992 et portèrent sur les Modèles ARCH et leurs applications à la finance (Droesbeke et al. [1994]). Elles furent suivies en 1994 par les sixièmes Journées dont le thème fut l’Inférence non paramétrique, et plus particulièrement les Statistiques de rangs (Droesbeke et Fine [1996]). Ces deux ouvrages furent coédités par les Éditions de l’Université de Bruxelles et Ellipses. En 1996, le thème retenu fut les Plans d’expérience (Droesbeke et al. [1997]). Ce septième ouvrage de la collection voit aussi un changement d’éditeur ; c’est en effet Technip qui prend le relais à cette occasion.

v


vi Il est utile de noter que les sept premières Journées d’Étude furent organisées par l’Association pour la Statistique et ses Utilisations (ASU). Cette société savante ayant fusionné en 1997 avec la Société de Statistique de Paris pour constituer la Société Française de Statistique, c’est donc cette dernière qui organisera dans la suite les Journées d’Étude en Statistique. Les huitièmes Journées furent programmées en 1998 sur le thème des Méthodes bayésiennes en statistique (Droesbeke et al. [2002]). Vinrent ensuite les Modèles statistiques pour données qualitatives en 2000 (Droesbeke et al. [2005]), l’Analyse statistique des données spatiales en 2002 (Droesbeke et al. [2006]), l’Analyse statistique des données longitudinales en 2004 (Droesbeke et Saporta [2010]), les Approches non paramétriques en régression en 2006 (Droesbeke et Saporta [2011]), les Modèles à variables latentes et modèles de mélange en 2008 (Droesbeke et al. [2013]), les Approches statistiques du risque en 2010 (Droesbeke et al. [2014]), les Méthodes robustes en statistique en 2012 (Droesbeke et al. [2015]), Choix et agrégation de modèles en 2014 qui donna lieu pour la première fois à un ouvrage en anglais (Bertrand et al. [2017]) et Apprentissage statistique et données massives en 2016 (Maumy-Bertrand et al. [2018]). Le présent ouvrage a été élaboré à la suite des dix-huitièmes Journées tenues en 2018 sur le thème de la causalité. Nous remercions les divers conférenciers qui ont prêté leur concours à ces Journées : • Léon Bottou (Facebook AI Research) • Antoine Chambaz (université de Paris) • Daniel Commenges (institut national de la santé et de la recherche médicale) • Isabelle Drouet (université Paris-Sorbonne) • Ron Kenett (groupe KPA) • Vivian Viallon (centre international de recherche sur le cancer) Nos remerciements vont aussi à ceux qui se sont associés à ces derniers en tant que co-auteurs de divers chapitres : • Frédéric Bertrand (université de technologie de Troyes) ainsi que Myriam Maumy-Bertrand (université de Strasbourg) pour le chapitre 4 ; • Emmanuelle Claeys (université de Strasbourg) ainsi que Myriam MaumyBertrand (université de Strasbourg) pour le chapitre 6 ; • David Benkeser (Emory University, Atlanta) pour le chapitre 7.


vii Nous tenons à remercier tout particulièrement Myriam Maumy-Bertrand (université de Strasbourg) pour sa participation à l’organisation des journées et à relecture de l’ouvrage. Nos remerciements s’adressent aussi à toutes les personnes qui, à titres divers, nous ont apporté leur aide, que ce soit à la Villa Clythia de Fréjus, à la Société Française de Statistique à Paris, à l’Université de Strasbourg ou à l’Université Toulouse 1 Capitole. Frédéric Bertrand Université de Strasbourg Université de technologie de Troyes Gilbert Saporta Conservatoire National des Arts et Métiers, Paris Christine Thomas-Agnan Université de Toulouse I



Table des matières 1 LA CAUSALITÉ EN PHILOSOPHIE ET EN SCIENCES 18e – 21e SIÈCLES Isabelle Drouet

1

1.1

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1

1.2

La causalité comme problème philosophique : Hume . . . . . .

3

1.3

Un concept rejeté au début du 20e siècle . . . . . . . . . . . . .

7

1.4

Les principales théories philosophiques contemporaines de la causalité . . . . . . . . . . . . . . . . . . . . . . . . . . . .

11

1.5

Les approches de la causalité en statistique au 20 siècle . . . .

17

1.6

Conclusion

21

e

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2 L’ÉCHELLE DE LA CAUSALITÉ : ALLÉGORIE ET FORMALISATION Antoine Chambaz et Vivian Viallon 2.1

2.2

2.3

23

Un paquet de cartes fantaisiste . . . . . . . . . . . . . . . . . .

24

2.1.1

Le contenu du paquet de cartes . . . . . . . . . . . . . .

24

2.1.2

Le contenu du paquet de cartes, seconde passe . . . . .

24

2.1.3

Une surprise. Un paradoxe ? . . . . . . . . . . . . . . . .

25

Associations . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

26

2.2.1

Expérience et modèle statistiques . . . . . . . . . . . . .

27

2.2.2

Traits, paramètres, hypothèses statistiques

. . . . . . .

29

2.2.3

« Effet moyen » d’un traitement . . . . . . . . . . . . .

30

2.2.4

Inférence statistique . . . . . . . . . . . . . . . . . . . .

32

2.2.5

« Effet moyen » d’un traitement : extraction de calculs rénaux . . . . . . . . . . . . . . . . . . . . . . . . . . . .

33

Effets d’une intervention . . . . . . . . . . . . . . . . . . . . . .

35

2.3.1

Diagrammes causaux, systèmes d’équations structurelles

37

2.3.2

Du do-calcul et de l’effet d’une intervention . . . . . . .

39

ix


x

TABLE DES MATIÈRES

2.3.3 2.4

2.5

2.6

Identifiabilité dans le cas de variables cachées et modèles non markoviens . . . . . . . . . . . . . . . . . . . . . . .

41

Contrefactuelles . . . . . . . . . . . . . . . . . . . . . . . . . . .

46

2.4.1

Définition des contrefactuelles via les équations structurelles . . . . . . . . . . . . . . . . . . . . . . . . .

49

2.4.2

Exemples . . . . . . . . . . . . . . . . . . . . . . . . . .

50

Nature du paradoxe de Simpson

. . . . . . . . . . . . . . . . .

53

2.5.1

Boucler la boucle . . . . . . . . . . . . . . . . . . . . . .

53

2.5.2

Cinq jeux auxquels se livrer . . . . . . . . . . . . . . . .

54

2.5.3

Le recours au jeu comme procédé dialectique . . . . . .

54

2.5.4

Stratégies optimales de jeu . . . . . . . . . . . . . . . .

55

Quelques compléments . . . . . . . . . . . . . . . . . . . . . . .

58

2.6.1

Les trois règles du do-calcul . . . . . . . . . . . . . . . .

58

2.6.2

Randomisation . . . . . . . . . . . . . . . . . . . . . . .

58

2.6.3

De la d-séparation et de l’indépendance entre variables d’un DAG . . . . . . . . . . . . . . . . . . . . . . . . . .

60

3 EFFETS DIRECTS ET INDIRECTS Vivian Viallon 3.1 3.2

63

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

63

Le point de vue contrefactuel . . . . . . . . . . . . . . . . . . .

64

3.2.1

Variables contrefactuelles en jeu . . . . . . . . . . . . .

64

3.2.2

Effets naturels direct et indirect

. . . . . . . . . . . . .

67

3.3

Effets direct et indirect interventionnels . . . . . . . . . . . . .

70

3.4

Conclusion

72

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4 LES RÉSEAUX BAYÉSIENS EN PRATIQUE Ron S. Kenett, Frédéric Bertrand et Myriam Maumy-Bertrand

75

4.1

Introduction aux réseaux bayésiens . . . . . . . . . . . . . . . .

75

4.2

Les réseaux bayésiens en application . . . . . . . . . . . . . . .

81

4.2.1

Première application : satisfaction de la clientèle . . . .

82

4.2.2

Analyse de données de transport . . . . . . . . . . . . .

89

4.3

Bibliothèques du logiciel libre R et autres logiciels pour étudier les réseaux bayésiens . . . . . . . . . . . . . . . . . . . . . . . .

100

4.4

Prédiction et explication . . . . . . . . . . . . . . . . . . . . . .

101

4.5

Discrétisation des réseaux bayésiens . . . . . . . . . . . . . . .

104

4.5.1

104

Quelles discrétisations ? . . . . . . . . . . . . . . . . . .


TABLE DES MATIÈRES

4.6

4.7

4.5.2

Comment étudier la sensibilité du réseau bayésien à la discrétisation ? . . . . . . . . . . . . . . . . . . . . . . .

107

4.5.3

Exemple d’étude de sensibilité . . . . . . . . . . . . . .

112

Autres études de cas . . . . . . . . . . . . . . . . . . . . . . . .

115

4.6.1

Gestion : la conjecture de l’efficacité statistique . . . . .

115

4.6.2

Convivialité du web : gérer des données massives . . . .

118

4.6.3

Risques opérationnels liés aux TIC : Analyse de sensibilité d’un réseau bayésien . . . . . . . . . . . . . . . . . .

121

4.6.4

Biotechnologie : Un exemple de suivi des performances dans le temps . . . . . . . . . . . . . . . . . . . . . . . .

123

4.6.5

Systèmes de soins de santé : Une étude de cas sur les systèmes d’aide à la décision . . . . . . . . . . . . . . .

126

4.6.6

Test systémique : tests de groupes basés sur les risques .

128

En conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . .

129

5 APPROCHE DYNAMIQUE DE LA CAUSALITÉ Daniel Commenges 5.1

xi

131

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

131

5.1.1

La causalité en biostatistique . . . . . . . . . . . . . . .

131

5.1.2

Les limites de l’approche par réponses potentielles . . .

133

5.1.3

Les idées principales de l’approche dynamique . . . . . .

134

5.2

Représentation par processus stochastiques . . . . . . . . . . .

135

5.3

Indépendance locale et influences directes et indirectes . . . . .

136

5.3.1

Indépendance locale et influences directes et indirectes .

136

5.3.2

Représentation graphique . . . . . . . . . . . . . . . . .

137

5.3.3

Extension à un horizon aléatoire et le problème de la mort . . . . . . . . . . . . . . . . . . . . . . . . . .

137

5.3.4

Le cas déterministe . . . . . . . . . . . . . . . . . . . . .

139

Influences causales . . . . . . . . . . . . . . . . . . . . . . . . .

139

5.4

5.4.1

Systèmes, influences causales . . . . . . . . . . . . . . .

139

5.4.2

Systèmes sans facteurs de confusion pour [V → Y ] . . .

139

5.4.3

Le concept NUC à l’œuvre . . . . . . . . . . . . . . . .

140

5.5

L’approche dynamique dans les études sur le vieillissement . . .

141

5.6

Effets conditionnels et marginaux . . . . . . . . . . . . . . . . .

145

5.6.1

Effet causal conditionnel . . . . . . . . . . . . . . . . . .

145

5.6.2

Effet causal marginal . . . . . . . . . . . . . . . . . . . .

145

Modèles mécanistes . . . . . . . . . . . . . . . . . . . . . . . . .

145

5.7


xii

TABLE DES MATIÈRES

5.8

5.7.1

Generalités . . . . . . . . . . . . . . . . . . . . . . . . .

145

5.7.2

Structure générale d’un modèle mécaniste . . . . . . . .

146

5.7.3

Inférence pour les modèles mécanistes . . . . . . . . . .

148

5.7.4

Défis computationnels pour les modèles mécanistes . . .

150

5.7.5

Modèle de l’interaction VIH-système immunitaire . . . .

151

Les régimes de traitement dynamiques . . . . . . . . . . . . . .

157

5.8.1

Effets des trithérapies sur la concentration de CD4 : notation et modèles marginaux structuraux . . . . . . .

157

5.8.2

Hypothèses et inférence dans l’approche dynamique . .

158

5.8.3

Effets des trithérapies sur la concentration de CD4 : résultats pour les modèles dynamiques . . . . . . . . . .

161

6 CAUSALITÉ ET APPRENTISSAGE AUTOMATIQUE Léon Bottou, Emmanuelle Claeys Myriam Maumy-Bertrand

165

6.1

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

165

6.2

La publicité online dans les moteurs de recherche . . . . . . . .

166

6.2.1

Système des enchères publicitaires . . . . . . . . . . . .

167

6.2.2 6.2.3

L’ingénierie des moteurs de placement . . . . . . . . . . Modélisation de la log-probabilité de clic . . . . . . . . .

170 172

6.2.4

Risque du trou noir et stratégie d’exploration . . . . . .

174

6.3

La boucle de filtrage . . . . . . . . . . . . . . . . . . . . . . . .

176

6.4

Modélisation du système causal . . . . . . . . . . . . . . . . . .

177

6.4.1

Calcul de l’espérance contrefactuelle . . . . . . . . . . .

179

6.4.2

Calcul des intervalles de confiance . . . . . . . . . . . .

181

6.4.3 6.5

Expérimentation . . . . . . . . . . . . . . . . . . . . . .

183

Réduction de la variance . . . . . . . . . . . . . . . . . . . . . .

187

6.5.1

Réduction de la variance par ré-équilibrage . . . . . . .

187

6.5.2

Réduction de la variance par une fonction de prédiction

189

6.6

Approche contrefactuelle pour l’apprentissage d’un modèle optimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

191

6.7

Notion d’équilibre

. . . . . . . . . . . . . . . . . . . . . . . . .

193

6.8

Intuition causale . . . . . . . . . . . . . . . . . . . . . . . . . .

196

6.9

Conclusion

199

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .


TABLE DES MATIÈRES

7 UNE INTRODUCTION À L’APPRENTISSAGE CIBLÉ David Benkeser et Antoine Chambaz 7.1

7.2

7.3

7.4

xiii

201

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

201

7.1.1

Une histoire causale . . . . . . . . . . . . . . . . . . . .

201

7.1.2

Le package tlrider . . . . . . . . . . . . . . . . . . . .

202

7.1.3

Plan . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

202

7.1.4

Une étude sur données simulées . . . . . . . . . . . . . .

203

Le paramètre cible . . . . . . . . . . . . . . . . . . . . . . . . .

208

7.2.1

Définition et interprétation . . . . . . . . . . . . . . . .

208

7.2.2

Fonctionnelle statistique cible . . . . . . . . . . . . . . .

210

7.2.3

Des représentations aux stratégies d’estimation . . . . .

213

Fluctuations et régularité . . . . . . . . . . . . . . . . . . . . .

213

7.3.1

Fluctuations . . . . . . . . . . . . . . . . . . . . . . . .

214

7.3.2

Régularité et gradients . . . . . . . . . . . . . . . . . . .

216

7.3.3

Linéarité asymptotique et efficacité statistique . . . . .

218

. . . . . . . . . . . . . . . . . . . . . . . . .

219

7.4.1

Approximation linéaire de paramètres . . . . . . . . . .

220

7.4.2

Double robustesse du terme de reste de la fonctionnelle statistique cible . . . . . . . . . . . . . . . . . . . . . . .

220

7.5

Inférence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

222

7.6

Une stratégie d’inférence simple . . . . . . . . . . . . . . . . . .

222

7.6.1

Présentation d’un estimateur en forme de mise en garde

222

7.6.2

Estimateur IPTW en supposant le mécanisme d’action connu . . . . . . . . . . . . . . . . . . . . . . . . . . . .

223

Paramètres de nuisance . . . . . . . . . . . . . . . . . . . . . .

226

7.7.1

Anatomie de l’expression . . . . . . . . . . . . . . . . .

226

7.7.2

Un point de vue algorithmique . . . . . . . . . . . . . .

227

7.7.3

QW . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

227

7.7.4

Gbar . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

228

7.7.5

Qbar . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

230

7.7

7.8

7.9

Double robustesse

Deux stratégies inférentielles naïves . . . . . . . . . . . . . . . .

233

7.8.1

Estimateur IPTW . . . . . . . . . . . . . . . . . . . . .

234

7.8.2

Estimateur G-comp . . . . . . . . . . . . . . . . . . . .

237

Correction en un pas . . . . . . . . . . . . . . . . . . . . . . . .

242

7.9.1

Estimateur à un pas . . . . . . . . . . . . . . . . . . . .

242

7.9.2

Étude empirique . . . . . . . . . . . . . . . . . . . . . .

244


xiv

TABLE DES MATIÈRES

7.10 Stratégie d’apprentissage ciblé . . . . . . . . . . . . . . . . . . .

247

7.10.1 Motivations et principe général . . . . . . . . . . . . . .

247

7.10.2 Estimateur TMLE . . . . . . . . . . . . . . . . . . . . .

248

7.10.3 Étude empirique . . . . . . . . . . . . . . . . . . . . . . 7.11 Conclusion

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .

251 253

Bibliographie

255

Index

271


Chapitre 1 LA CAUSALITÉ EN PHILOSOPHIE ET EN SCIENCES 18e – 21e SIÈCLES Isabelle Drouet1

1.1

Introduction

Dans Pearl et Mackenzie [2018], qu’il a co-signé avec Dana Mackenzie, Judea Pearl (figure 1.1) défend la thèse selon laquelle l’inférence causale est une nouvelle science, (p.1)2 , qui s’est constituée depuis une trentaine d’années. Cette science peut être considérée comme une branche de la statistique puisqu’elle s’occupe d’énoncer des principes pour le traitement et l’interprétation de données portant sur un grand nombre d’individus. Mais les interprétations qu’elle vise sont toutes de nature causale et à ce titre Mackenzie et Pearl l’opposent à la statistique classique. Cette opposition est nourrie de la présentation d’épisodes visant à illustrer les difficultés de la relation entre statistique classique et causalité. Le caractère difficile de la relation entre statistique classique et causalité est analysé par Pearl et Mackenzie comme étant paradoxal. Les deux auteurs relèvent la tension qui existe entre le caractère tout récent du développement de l’inférence causale et le fait que répondre à des questions causales est un des buts classiques des sciences empiriques. Cette tension est elle-même rapportée à notre aptitude, sélectionnée par l’évolution, à résoudre par nous-mêmes un grand nombre de problèmes causaux, y compris parmi les plus difficiles : « Précisément parce que nous sommes si doués pour répondre aux questions portant sur les interrupteurs, la crème glacée ou les baromètres, la nécessité 1 Ce travail doit beaucoup à de nombreuses discussions avec Antoine Chambaz ; qu’il en soit sincèrement remercié. 2 Pour cet ouvrage, la traduction est proposée par l’auteure du présent chapitre.


2

Chapitre 1

Figure 1.1 : Judea Pearl (1936 – ).

d’une machinerie mathématique visant spécifiquement à les traiter n’a pas paru évidente » [Pearl et Mackenzie, 2018, p.15]. Il nous semble cependant possible d’aller plus loin et de compléter cette hypothèse psychologique. Nous tentons de le faire ici en nous plaçant sur le terrain, non abordé par Pearl et Mackenzie, de l’analyse conceptuelle – ou, autrement dit, à partir de la question de savoir comment il convient de définir la causalité. Dans ce chapitre, nous envisageons la défiance durable de la statistique moderne à l’égard de la causalité à la lumière de l’histoire des théories philosophiques de la causalité. Pour des raisons sur lesquelles nous reviendrons, il est usuel de considérer que cette histoire commence avec la théorie proposée par Hume au milieu du 18e siècle. La première partie du texte présente cette théorie. La deuxième partie vise à expliquer comment elle a donné lieu au rejet de la causalité, tant par la statistique naissante que par certains philosophes, au début du 20e siècle. Dans une troisième partie, nous rendons compte du regain d’intérêt des philosophes des sciences pour la causalité depuis les années 1970 et présentons à gros traits les principales théories contemporaines de la causalité. Cette présentation nous conduit à introduire les notions mobilisées par Pearl et Mackenzie au titre de ce qu’ils appellent « l’échelle de la causalité » [Pearl et Mackenzie, 2018, p.42-43] ; il nous semble que leur statut et les rapports qu’elles entretiennent en sortent clarifiés. Les analyses menées dans les trois premières parties du texte sont compa-


LA CAUSALITÉ EN PHILOSOPHIE ET EN SCIENCES

3

tibles avec la thèse selon laquelle il n’y aurait eu aucune place pour la causalité en statistique avant la fin du 20e siècle. Or cette thèse, vers laquelle Pearl et Mackenzie semblent incliner, demande à être nuancée. Il est probablement vrai que la statistique moderne n’a jamais été essentiellement causale et que les travaux portant sur la causalité sont restés marginaux. Cependant, ces travaux ont existé, comme en témoigne la cinquième et dernière partie du texte. Dans cette partie, nous identifions les principales méthodes d’analyse causale introduites en statistique au cours du 20e siècle, et là aussi nous trouvons des outils et idées réinvestis par Pearl dans sa théorie de l’inférence causale.

1.2

La causalité comme problème philosophique : Hume

Figure 1.2 : Aristote (384 – 322 av. J.-C.).

La recherche des causes est une activité que nous menons quotidiennement et par ailleurs elle a été identifiée comme essentielle à l’entreprise de connaissance depuis l’Antiquité. Cette idée a été explicitée par Aristote (figure 1.2), dont la théorie des quatre causes est sans doute la première réflexion sur le concept de cause. Cette théorie procède de l’idée selon laquelle une cause est ce à quoi une question commençant par « pourquoi » peut faire référence. Elle consiste à distinguer quatre types de causes : matérielles, formelles, efficientes et finales



Chapitre 3 EFFETS DIRECTS ET INDIRECTS Vivian Viallon

3.1

Introduction

Considérons une exposition ou un traitement d’intérêt X et une variable réponse d’intérêt Y . L’analyse de médiation, qui fait l’objet de ce chapitre, permet de quantifier la part de l’effet@effet !causal total@causal total de X sur Y qui est médiée, ou expliquée, par une ou des variables intermédiaires, appelée(s) dans ce cas médiateur(s). Les exemples d’application de l’analyse de médiation abondent aujourd’hui dans la littérature en épidémiologie, en sciences sociales, etc. (MacKinnon et al. [2007]; Druckman et al. [2011]; Khandekar et al. [2011]; Ho et al. [2012]). Considérons le cas de l’obésité (X) et du développement d’un cancer (Y ). Sous certaines hypothèses, les outils du chapitre 2 permettent d’établir si l’obésité est une cause du cancer et de quantifier le sur-risque (causal) de cancer attaché à l’obésité. Mais ils ne permettent pas directement de comprendre quels mécanismes biologiques sous-tendent cet effet. Or des travaux suggèrent que des voies métaboliques impliquées dans la carcinogénèse (insuline, inflammation, hormones stéroïdiennes, etc.) pourraient être perturbées chez les individus en sur-poids et un champ actif en épidémiologie concerne l’identification des voies métaboliques qui expliqueraient tout ou partie de l’effet carcinogène de l’obésité. Ces voies, une fois identifiées, correspondent à des médiateurs dans le système causal liant l’obésité au développement d’un cancer. Dans ce chapitre, nous nous focaliserons sur le cas des analyses de médiation incluant un seul médiateur, dont un schéma typique est donné en figure 3.1. Par exemple, X peut correspondre à l’obésité, M au niveau du gène IGF-1, Y à la survenue d’un cancer et W à un ensemble de facteurs incluant l’âge, le sexe, des variables décrivant le régime alimentaire et l’activité physique, le tabagisme, etc. Dans ce cadre, l’effet indirect sera défini comme une mesure de la part de l’effet de X expliquée, ou médiée, par M , et l’effet direct comme une mesure de l’effet de X qui n’est pas expliquée par M .


64

Chapitre 3

W

 W    X M    Y

M

X

= = = =

fW (UW ) fX (W, UX ) fM (X, W, UM ) fY (X, M, W, UY )

Y

Figure 3.1 : Modèle causal de médiation typique dans le cas d’un médiateur unique (potentiellement multivarié)

Le développement de l’analyse de médiation a été largement influencé par les travaux de Baron et Kenny [1986]. Ces auteurs ont proposé l’approche « produit » pour estimer les effets directs et indirects sous des modèles linéaires. En particulier, supposons que : T E[Y |X, M, W ] = θ0 + θX X + θM M + θW W

et

T E[M |X, W ] = β0 + βX X + βW W.

Nous avons donc E(Y |X, W ) = θ0 +θM β0 +(θX +θM βX )X +(θW +θM βW )T W , et la quantité θX +θM βX mesure l’effet total de X sur Y . Baron et Kenny [1986] suggèrent alors de considérer le paramètre θX comme l’effet direct de X et la quantité θM βX comme l’effet indirect de X à travers M . θX peut être considéré comme l’effet de X sur Y pour un niveau fixé du médiateur M . Quoiqu’encore populaire en pratique, cette approche historique présente des limites importantes, notamment quant à son extension aux modèles nonlinéaires et/ou aux modèles incluant des interactions éventuelles (Robins et Greenland [1992]; Pearl [2001]). Les approches développées à partir des outils de l’inférence causale présentés au chapitre 2 permettent cette extension, ainsi qu’un traitement systématique des biais de confusion et par suite des conditions qui garantissent une interprétation causale aux quantités que l’on peut estimer à partir des données disponibles en pratique.

3.2 3.2.1

Le point de vue contrefactuel Variables contrefactuelles en jeu

Les outils présentés au chapitre 2 permettent de définir et, sous certaines hypothèses, de quantifier l’effet causal de X sur Y . Pour simplifier les notations, nous considérons dorénavant que l’exposition ou le traitement d’intérêt X est binaire à valeur dans {0, 1}. En considérant l’échelle additive, l’effet causal de X sur Y est formellement défini à l’aide des variables contrefactuelles Yx , pour


EFFETS DIRECTS ET INDIRECTS

65

Mx

W

x

Yx

Figure 3.2 : Sous-modèle suivant l’intervention do(X = x) correspondant au modèle présenté en figure 3.1.

x ∈ {0, 1}, ou de manière équivalente via l’opérateur do, par : E(Y1 − Y0 ) = E(Y |do(X = 1)) − E(Y |do(X = 0)). Comme nous l’avons vu au chapitre 2, des conditions sur la structure du DAG assurent l’identifiabilité de cet effet, et donc son estimation à partir de données observées du type (Xi , Yi , Wi )16i6n , où W représente certaines variables impliquées dans le DAG (qu’on supposera discrètes ici, par souci de simplification des notations). Par exemple, le critère de la porte dérobée fournit la liste des sous-ensembles de variables sur lesquelles il est suffisant d’ajuster pour identifier les quantités E(Y1 ) et E(Y0 ) (voir l’équation (2.19) du chapitre 2). Dans le cas de la figure 3.1, W vérifie le critère de la porte dérobée pour (X, Y ) et nous avons donc : X E(Y1 − Y0 ) = {E(Y |X = 1, W = w) − E(Y |X = 1, W = w)}P(W = w). w

L’analyse de médiation vise à obtenir une décomposition de l’ ATE = E(Y1 − Y0 ) sous la forme ATE = DE + IE, avec DE et IE les effets direct et indirect, respectivement. Dans la suite de ce chapitre, nous nous attacherons à présenter des définitions formelles des quantités DE et IE, ainsi que les conditions qui garantissent leur identifiabilité. Considérons un individu, ou une unité expérimentale, donné(e), caractérisé(e) par la valeur u = (uM , uW , uX , uY ) prise par les variables exogènes U = (UM , UW , UX , UY ). Introduisons alors les quantités contrefactuelles suivantes : • Mx (u) : la valeur de M pour cet individu dans le monde contrefactuel suivant l’intervention do(X = x) ; • Yx (u) : la valeur de Y pour cet individu dans le monde contrefactuel suivant l’intervention do(X = x) ; • Yx,m0 (u) : la valeur de Y pour cet individu dans le monde contrefactuel suivant l’intervention do(X = x, M = m0 ) ;


66

Chapitre 3 • Yx,Mx0 (u) : la valeur de Y pour cet individu dans le monde contrefactuel suivant l’intervention do(X = x, M = Mx0 (u)).

Dans l’exemple de l’obésité, IGF-1 et la survenue d’un cancer, ces quantités s’interprètent comme suit : • M0 (u) : niveau d’IGF-1 de l’individu si l’on était intervenu pour qu’il ne soit pas obèse. • Y1 (u) : survenue du cancer pour cet individu si l’on était intervenu pour qu’il soit obèse. • Y1,m (u) : survenue du cancer pour cet individu si l’on était intervenu pour qu’il soit obèse et qu’il ait un niveau d’IGF-1 égal à m. • Y1,M1 (u) : survenue du cancer pour cet individu si l’on était intervenu pour qu’il soit obèse et qu’il ait un niveau d’IGF-1 égal au niveau d’IGF1 qu’on aurait observé chez cet individu si l’on était intervenu pour qu’il soit obèse. Il s’agit donc tout simplement de Y1 (u), ce qui peut être établi plus formellement à partir des équations structurelles (voir ci-dessous). • Y1,M0 (u) : survenue du cancer pour cet individu si l’on était intervenu pour qu’il soit obèse et qu’il ait un niveau d’IGF-1 égal au niveau d’IGF1 qu’on aurait observé chez cet individu si l’on était intervenu cette fois pour qu’il ne soit pas obèse. Plus formellement, d’après le système d’équations structurelles de la figure 3.1, il vient : Mx (u)

=

fM (x, W, uM ),

Yx,m (u)

=

fY (x, m, W, uY ),

Yx (u)

=

fY (x, Mx (u), W, uY )

=

Yx,Mx (u),

=

fY (x, Mx0 (u), W, uY ).

Yx,Mx0 (u)

Ces définitions s’étendent au niveau de la population, et l’on peut ainsi définir les variables contrefactuelles : Mx

=

fM (x, W, UM ),

Yx,m

=

fY (x, m, W, UY ),

Yx

=

fY (x, Mx , W, UY ) = fY (x, fM (x, fW (UW ), UM ), fW (UW ), UY )

=: Yx,Mx ainsi que Yx,Mx0

=

fY (x0 , Mx0 , W, UY ) = fY (x, fM (x0 , fW (UW ), UM ), fW (UW ), UY ).

Il est important de noter à ce stade que les valeurs Y1,M0 (u) et Y0,M1 (u) ne peuvent pas être observées et qu’aucune intervention ne peut être planifiée pour


EFFETS DIRECTS ET INDIRECTS

67

les observer, contrairement aux valeurs Y1,M1 (u) = Y1 (u) et Y0,M0 (u) = Y0 (u). En effet, l’intervention do(X = x) permettrait d’observer Yx,Mx (u) = Yx (u). Pour observer Y1,M0 (u), il faudrait cependant planifier la double intervention do(X = 1) et do(M = M0 (u)) ; or M0 (u) n’est pas connue, et ne pourrait être observée que suite à l’intervention do(X = 0), qui n’est pas compatible avec l’intervention do(X = 1) : il est donc impossible de mettre en place la double intervention do(X = 1) et do(M = M0 (u)). Les variables Y1,M0 et Y0,M1 jouent malgré tout un rôle central dans l’analyse de médiation et permettent une définition précise des effets direct et indirect, tels que présentés ci-dessous.

3.2.2

Effets naturels direct et indirect

Pour l’individu caractérisé par U = u, la différence entre Y1 (u) = Y1,M1 (u) et Y0 (u) = Y0,M0 (u) est due à la modification du niveau de l’exposition, mais également à la modification du niveau du médiateur, de M0 (u) à M1 (u), induite par ce changement du niveau de l’exposition. Il apparaît donc naturel de décomposer la différence Y1 (u) − Y0 (u) suivant l’une ou l’autre des équations suivantes : Y1 (u) − Y0 (u) = Y1,M1 (u) − Y0,M0 (u) = [Y1,M1 (u) − Y1,M0 (u)] + [Y1,M0 (u) − Y0,M0 (u)] = [Y1,M1 (u) − Y0,M1 (u)] + [Y0,M1 (u) − Y0,M0 (u)]. Considérons la première décomposition. Le terme [Y1,M0 (u) − Y0,M0 (u)] quantifie la variation de Y que l’on observerait chez l’individu caractérisé par la valeur u des variables exogènes si l’on intervenait pour modifier l’exposition du niveau 1 à 0, tout en maintenant la valeur du médiateur au niveau qu’il aurait eu au niveau 0 de l’exposition. Le niveau du médiateur étant fixé, il s’agit donc d’un effet direct de l’exposition. Le terme [Y1,M1 (u) − Y1,M0 (u)] quantifie quant à lui la variation de Y que l’on observerait si l’on intervenait pour fixer l’exposition au niveau 1, tout en passant la valeur du médiateur de celle qu’il aurait eu si l’exposition était fixée à 1 à celle qu’il aurait eu si l’exposition était fixée à 0. C’est l’effet de l’exposition sur la réponse à travers le médiateur uniquement, et il s’agit donc d’un effet indirect. Le même raisonnement s’applique sur la deuxième décomposition. Les quantités contrefactuelles individuelles ci-dessus n’ont cependant pas d’intérêt pratique puisqu’il n’est pas possible d’observer à la fois Y1,M1 (u) et Y0,M0 (u) et, comme mentionné ci-dessus, il n’est « encore moins possible » d’observer Y1,M0 (u) ou Y0,M1 (u). Néanmoins, les décompositions présentées cidessus peuvent être étendues au niveau populationnel, ce qui va conduire à une définition des effets naturels direct et indirect. Nous montrerons que ces quantités contrefactuelles sont identifiables et peuvent donc être estimées en pratique, sous des hypothèses que nous préciserons. L’effet total moyen admet les deux décompositions suivantes :


68

Chapitre 3

E(Y1 − Y0 ) =

E(Y1,M1 − Y0,M0 )

=

E(Y1,M1 − Y1,M0 ) + E(Y1,M0 − Y0,M0 )

:=

NIE(1) + NDE(0);

et E(Y1 − Y0 ) =

E(Y1,M1 − Y0,M0 )

=

E(Y1,M1 − Y0,M1 ) + E(Y0,M1 − Y0,M0 )

:=

NDE(1) + NIE(0).

En reprenant les arguments invoqués plus haut pour interpréter les quantités individuelles, les termes NDE(0) et NDE(1) sont des mesures de l’effet direct, appelées effet naturel direct, alors que les quantités NIE(0) et NIE(1) sont des mesures de l’effet indirect, à travers le médiateur M , appelées effet naturel indirect (Robins et Greenland [1992]; Pearl [2001]; Imai et al. [2010]; VanderWeele [2015]). Ces définitions sont générales au sens où elles ne reposent sur aucune hypothèse particulière sur le type de fonctions impliquées dans le système d’équations structurelles de la figure 3.1 (contrairement à l’approche produit, qui repose sur l’hypothèse de linéarité des modèles et l’absence d’interaction). Cependant, elles reposent sur des variables non observables, ce qui pose naturellement la question de leur identifiabilité. Considérons les hypothèses suivantes : (A.1) Yx,m ⊥ ⊥ X|W ; (A.2) Yx,m ⊥ ⊥ M |(X, W ) ; (A.3) Mx ⊥ ⊥ X|W ; (A.4) Yx,m ⊥ ⊥ Mx0 |W . Globalement, l’hypothèse (A.1) revient à supposer l’absence de facteur de confusion non-observé pour la relation X − Y ; alors que les hypothèses (A.2) et (A.3) reviennent à supposer l’absence de facteur de confusion non-observé pour les relations M − Y et X − M , respectivement. L’hypothèse (A.4) revient quant à elle à supposer qu’aucun des facteurs de confusion dans la relation M − Y n’est causé par X. Nous reviendrons sur ce point particulier dans le paragraphe suivant. Nous supposerons de plus que la condition de positivité P(x, w, m) > 0 est vérifiée pour tous x, m, w tels que P(x)P(w)P(m) > 0, et que les hypothèses de cohérence suivantes sont également vérifiées :


EFFETS DIRECTS ET INDIRECTS

69

(Coh1) si Mx0 = m, alors Yx,Mx0 = Yx,m ; (Coh2) si X = x et M = m, alors Y = Yx,m ; (Coh3) si X = x0 alors M = Mx0 . La formule des espérances totales, permet d’affirmer que X E(Yx,Mx0 ) = E(Yx,Mx0 |W = w)P(W = w = w). w

Or : E(Yx,Mx0 |W = w)

X

=

E(Yx,Mx0 |Mx0 = m, W = w)P(Mx0 = m|W = w)

m (Coh1)

X

=

E(Yx,m |Mx0 = m, W = w)P(Mx0 = m|W = w)

m (A.4)

X

=

E(Yx,m |W = w)P(Mx0 = m|W = w).

m

Puis : E(Yx,m |W = w)

(A.1)

E(Yx,m |X = x, W = w)

(A.2)

E(Yx,m |X = x, M = m, W = w)

= =

(Coh2)

=

E(Y |X = x, M = m, W = w)

et : P(Mx0 = m|W = w)

(A.1)

=

P(Mx0 = m|X = x0 , W = w)P(W = w)

(Coh3)

P(M = m|X = x0 , W = w).

XX

E(Y |X = x, M = m, W = w)

=

Il vient : E(Yx,Mx0 ) =

w

m

× P(M = m|X = x0 , W = w)P(W = w). À titre d’exemple, nous aboutissons aux expressions suivantes : XnX NDE(0) = P(M = m|X = 0, W = w) E(Y |X = 1, M = m, W = w) w

m

o − E(Y |X = 0, M = m, W = w) P(W = w) XnX NIE(1) = E(Y |X = 1, M = m, W = w) P(M = m|X = 1, W = w) w

m

o − P(M = m|X = 0, W = w) P(W = w),



Chapitre 7 UNE INTRODUCTION À L’APPRENTISSAGE CIBLÉ David Benkeser et Antoine Chambaz

7.1

Introduction

Nous proposons dans ce chapitre une introduction à l’apprentissage ciblé. L’apprentissage ciblé a été inventé par Mark van der Laan et Dan Rubin en 2006. Depuis lors, la méthodologie a été développée et appliquée dans une grande variété de contextes. Nous recommandons les deux monographies van der Laan et Rose [2011, 2018] pour un riche panorama. À titre d’exemple, nous la focalisons sur l’inférence statistique d’une quantité causale simple souvent rencontrée dans la littérature causale car archétypique. Nous utilisons cet exemple pour présenter des concepts-clés qui s’avèrent pertinents bien plus largement que dans son cadre restreint mais instructif. Par souci pédagogique, la progression alterne considérations théoriques et computationnelles qui s’enrichissent mutuellement.

7.1.1

Une histoire causale

Nous nous intéressons donc à une histoire causale dans laquelle une récompense aléatoire (un nombre réel entre 0 et 1) est tirée en fonction d’une action entreprise (une action parmi deux) et d’un contexte aléatoire dans lequel l’action est réalisée (contexte résumé, pour simplifier, par un nombre réel entre 0 et 1). La quantité causale cible est la différence des espérances des deux récompenses contrefactuelles. Vaut-il mieux présenter à ses clients la publicité A ou la publicité B ? Faut-il préférer le mode opératoire A ou le mode opératoire B ? Il est essentiellement question de déterminer quelle action maximise une « récompense ».


202

Chapitre 7

Nous construirons plusieurs estimateurs et discuterons de leurs mérites respectifs, sur les plans théorique et computationnel. La construction de l’estimateur le plus subtil relèvera de l’apprentissage ciblé, au croisement du machine learning (nous conserverons l’expression anglaise plutôt que d’adopter l’une de ses traductions françaises, apprentissage automatique ou apprentissage machine) et du semi-paramétrique, la théorie statistique de l’inférence fondée sur les modèles semi-paramétriques.

7.1.2

Le package tlrider

Diverses notions seront illustrées et computationnellement incarnées grâce au package tlrider développé spécifiquement dans le langage R [R Core Team, 2020]1 . Le package peut être installé en exécutant le code suivant : #> devtools::install_github("achambaz/tlride/tlrider") D’autres packages sont également requis, dont tidyverse [Wickham et Grolemund, 2016] et caret [Kuhn, 2020]. En supposant que ceux-ci sont installés aussi, nous les chargerons puis nous limiterons aussi l’affichage des nombres à trois décimales en exécutant le code suivant : #> #> #> #>

library(tidyverse) library(caret) library(tlrider) options(digits=3)

7.1.3

Plan

Relevant toujours de l’introduction, la section 7.1.4 lève le rideau sur le package tlrider et, en particulier, sur la loi synthétique qui servira à illustrer numériquement les développements théoriques à venir. La section 7.2 introduit le paramètre d’intérêt, en commente la nature et argumente qu’il est bénéfique de le considérer comme la valeur prise par une fonctionnelle statistique Ψ lorsqu’évaluée en la loi de l’expérience d’intérêt. Les sections 7.3 et 7.4 discutent des notions de fluctuation, de régularité et de double robustesse attachées à Ψ, et de quelques unes de leurs implications statistiques. La section 7.5 ouvre le bal des sections consacrées au développement d’estimateurs de plus en plus sophistiqués et performants. La section 7.6 discute une stratégie inférentielle simple supposant que l’on connaît a priori un certain trait de la loi de l’expérience. La section 7.7 introduit la notion de paramètres de nuisance associés à Ψ et propose une formalisation et une pratique algorithmique de leur apprentissage. La section 7.8 présente et commente les stratégies inférentielles inverse 1 Les expériences étant aléatoires, certains résultats obtenus en exécutant ces codes d’exemple pourront différer de ceux présents dans ce chapitre.


UNE INTRODUCTION À L’APPRENTISSAGE CIBLÉ

203

probability of treatment weighted (IPTW ) et G-comp, qualifiées de « naïves ». La section 7.9 révèle comment la procédure G-comp peut être améliorée en un pas. La section 7.10 présente, enfin, la procédure d’estimation ciblée. Comme annoncé plus tôt, toutes les sections mêlent considérations théoriques et computationnelles. Tout au long de ce chapitre, chaque procédure inférentielle est illustrée dans le contexte d’une même expérience simulée.

7.1.4

Une étude sur données simulées

Une expérience reproductible vue comme une loi Nous nous intéressons à une expérience reproductible. À chaque fois que celle-ci est réalisée, elle génère une observation que nous appelons O. Nous modélisons O comme une variable aléatoire échantillonnée sous la loi de l’expérience que nous désignons par P0 . Nous considérons P0 comme un élément du modèle M. Le modèle M est un ensemble de lois. Il inclut toutes les lois dont nous pensons qu’elles décrivent de façon plausible la loi de l’observation. Ainsi, le choix du modèle est fondé sur la connaissance que nous avons a priori de l’expérience. Plus nous en savons, plus M est contraint et donc petit. Nous utiliserons ici un très grand modèle dont la taille reflète la méconnaissance de nombreux aspects de l’expérience. Une expérience reproductible synthétique Plutôt que de nous appuyer sur une expérience réelle, nous proposons de considérer une expérience reproductible synthétique. Ainsi, nous pouvons désormais endosser deux rôles distincts à notre guise : celui d’un oracle connaissant parfaitement la nature de l’expérience, et celui d’un statisticien désireux de mieux comprendre en quoi l’expérience consiste en observant certains de ses résultats. Ce dispositif se révélera pédagogiquement vertueux. Exécutons l’exemple intégré dans le package tlrider : #> example(tlrider) Cinq objets ont été créés : #> ls() # [1] "another_experiment" "experiment" "expit" # [4] "logit" "sigma0" La fonction expit() implémente la fonction de lien expit : R →]0; 1[ caractérisée par expit(x) , (1 + e−x )−1 . La fonction logit() est la fonction inverse de expit, logit :]0; 1[→ R satisfaisant logit(p) , log[p/(1 − p)]. Quant à l’objet experiment, voici la description que R en donne :


204

Chapitre 7

#> experiment # A law for (W,A,Y) in [0,1] x {0,1} x [0,1]. # # If the law is fully characterized, you can use method # ’sample_from’ to sample from it. # # If you built the law, or if you are an _oracle_, you can # also use methods ’reveal’ to reveal its relevant features # (QW, Gbar, Qbar, qY -- see ’?reveal’), and ’alter’ to change # some of them. # # If all its relevant features are characterized, you can # use methods ’evaluate_psi’ to obtain the value of ’Psi’ at # this law (see ’?evaluate_psi’) and ’evaluate_eic’ to obtain # the efficient influence curve of ’Psi’ at this law (see ’? # evaluate_eic’). La loi P0 de l’expérience reproductible experiment que nous avons construite génère une observation générique O qui se décompose sous la forme O , (W, A, Y ) ∈ [0; 1] × {0; 1} × [0; 1]. Nous interprétons W comme une mesure résumée, appartenant à [0; 1], d’un contexte aléatoire dans lequel une action A, choisie parmi deux actions possibles, est entreprise et conduit à l’obtention d’une récompense Y , appartenant à [0; 1]. Nous pouvons simplement échantillonner sous P0 grâce à la méthode sample_from. Par exemple, le code suivant réplique l’expérience cinq fois indépendamment : #> (five_obs # W A Y # [1,] 0.429 # [2,] 0.454 # [3,] 0.377 # [4,] 0.461 # [5,] 0.419

<- sample_from(experiment, n = 5)) 1 1 0 1 1

0.981 0.855 0.836 0.582 0.878

La nature d’experiment révélée En tant qu’oracle, nous pouvons lever le voile sur la nature de experiment et révéler une sélection de ses traits pertinents, eu égard à ce que nous souhaiterons en apprendre au premier chef, sujet qui sera abordé dans la section 7.2. #> relevant_features <- reveal(experiment) #> names(relevant_features) # [1] "QW" "Gbar" "Qbar" "qY" "sample_from"


UNE INTRODUCTION À L’APPRENTISSAGE CIBLÉ

205

Profitant toujours de notre position oraculaire, nous pouvons commenter un à un ce que sont ces traits pertinents révélés par reveal. QW. Le trait QW, une fonction, décrit la loi marginale de W sous P0 , loi que nous noterons Q0,W . #> relevant_features$QW # function(W, # mixture_weights = c(1/10, 9/10, 0), # mins = c(0, 11/30, 0), # maxs = c(1, 14/30, 1)) { # out <- sapply(1:length(mixture_weights), # function(ii){ # mixture_weights[ii] * # stats::dunif(W, # min = mins[ii], # max = maxs[ii]) # }) # return(rowSums(out)) # } Il apparaît que Q0,W est un mélange de deux lois uniformes, l’une sur l’intervalle [0; 1] avec un poids de 1/10 et l’autre sur l’intervalle [11/30; 14/30] avec un poids de 9/10. La densité de Q0,W sera représentée à la figure 7.4. Gbar. Le trait Gbar, une fonction, représente la probabilité conditionnelle de l’action A = 1 sachant W . Pour chaque a ∈ {0, 1}, notons Ḡ0 (W ) , PP0 (A = 1|W ), `Ḡ0 (a, W ) , PP0 (A = a|W ). Ainsi, `Ḡ0 (A, W ) , AḠ0 (W ) + (1 − A)(1 − Ḡ0 (W )). #> relevant_features$Gbar # function(W) { # expit(1 + 2 * W - 4 * sqrt(abs((W - 5/12)))) # } p Les nombres réels de la forme 1 + 2W − 4 ∗ |W − 5/12| sont envoyés dans l’intervalle [0; 1] par la fonction de lien expit. La fonction Ḡ0 sera représentée à la figure 7.5.



Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.