2.2.3 « Effet moyen » d’un traitement

from Statistique et causalité, F. Bertrand, G. Saporta, C. Thomas-Agnan - Editions Technip

rénaux

202

Chapitre 7

Nous construirons plusieurs estimateurs et discuterons de leurs mérites respectifs, sur les plans théorique et computationnel. La construction de l’estimateur le plus subtil relèvera de l’apprentissage ciblé, au croisement du machine learning (nous conserverons l’expression anglaise plutôt que d’adopter l’une de ses traductions françaises, apprentissage automatique ou apprentissage machine) et du semi-paramétrique, la théorie statistique de l’inférence fondée sur les modèles semi-paramétriques.

7.1.2 Le package tlrider

Diverses notions seront illustrées et computationnellement incarnées grâce au package tlrider développé spécifiquement dans le langage R [R Core Team, 2020]1. Le package peut être installé en exécutant le code suivant :

#> devtools::install_github("achambaz/tlride/tlrider")

D’autres packages sont également requis, dont tidyverse [Wickham et Grolemund, 2016] et caret [Kuhn, 2020]. En supposant que ceux-ci sont installés aussi, nous les chargerons puis nous limiterons aussi l’affichage des nombres à trois décimales en exécutant le code suivant :

#> library(tidyverse) #> library(caret) #> library(tlrider) #> options(digits=3)

7.1.3 Plan

Relevant toujours de l’introduction, la section 7.1.4 lève le rideau sur le package tlrider et, en particulier, sur la loi synthétique qui servira à illustrer numériquement les développements théoriques à venir. La section 7.2 introduit le paramètre d’intérêt, en commente la nature et argumente qu’il est bénéfique de le considérer comme la valeur prise par une fonctionnelle statistique Ψ lorsqu’évaluée en la loi de l’expérience d’intérêt. Les sections 7.3 et 7.4 discutent des notions de fluctuation, de régularité et de double robustesse attachées à Ψ, et de quelques unes de leurs implications statistiques. La section 7.5 ouvre le bal des sections consacrées au développement d’estimateurs de plus en plus sophistiqués et performants. La section 7.6 discute une stratégie inférentielle simple supposant que l’on connaît a priori un certain trait de la loi de l’expérience. La section 7.7 introduit la notion de paramètres de nuisance associés à Ψ et propose une formalisation et une pratique algorithmique de leur apprentissage. La section 7.8 présente et commente les stratégies inférentielles inverse

1 Les expériences étant aléatoires, certains résultats obtenus en exécutant ces codes d’exemple pourront différer de ceux présents dans ce chapitre.

UNE INTRODUCTION À L’APPRENTISSAGE CIBLÉ 203

probability of treatment weighted (IPTW ) et G-comp, qualifiées de « naïves ». La section 7.9 révèle comment la procédure G-comp peut être améliorée en un pas. La section 7.10 présente, enfin, la procédure d’estimation ciblée. Comme annoncé plus tôt, toutes les sections mêlent considérations théoriques et computationnelles. Tout au long de ce chapitre, chaque procédure inférentielle est illustrée dans le contexte d’une même expérience simulée.

7.1.4 Une étude sur données simulées

Une expérience reproductible vue comme une loi

Nous nous intéressons à une expérience reproductible. À chaque fois que celle-ci est réalisée, elle génère une observation que nous appelons O. Nous modélisons O comme une variable aléatoire échantillonnée sous la loi de l’expérience que nous désignons par P0.

Nous considérons P0 comme un élément du modèle M. Le modèle M est un ensemble de lois. Il inclut toutes les lois dont nous pensons qu’elles décrivent de façon plausible la loi de l’observation. Ainsi, le choix du modèle est fondé sur la connaissance que nous avons a priori de l’expérience. Plus nous en savons, plus M est contraint et donc petit. Nous utiliserons ici un très grand modèle dont la taille reflète la méconnaissance de nombreux aspects de l’expérience.

Une expérience reproductible synthétique

Plutôt que de nous appuyer sur une expérience réelle, nous proposons de considérer une expérience reproductible synthétique. Ainsi, nous pouvons désormais endosser deux rôles distincts à notre guise : celui d’un oracle connaissant parfaitement la nature de l’expérience, et celui d’un statisticien désireux de mieux comprendre en quoi l’expérience consiste en observant certains de ses résultats. Ce dispositif se révélera pédagogiquement vertueux.

Exécutons l’exemple intégré dans le package tlrider :

#> example(tlrider)

Cinq ob jets ont été créés :

#> ls() # [1] "another_experiment" "experiment" "expit" # [4] "logit" "sigma0"

La fonction expit() implémente la fonction de lien expit : R →]0; 1[ caractérisée par expit(x) (1 + e −x)−1. La fonction logit() est la fonction inverse de expit, logit :]0; 1[→ R satisfaisant logit(p) log[p/(1 − p)]. Quant à l’ob jet experiment, voici la description que R en donne :

2.2.3 « Effet moyen » d’un traitement

Next Article

rénaux

202

7.1.3 Plan

7.1.4 Une étude sur données simulées

Une expérience reproductible vue comme une loi

Une expérience reproductible synthétique

More articles from this publication:

rénaux

2.1.3 Une surprise. Un paradoxe ?

1.5 Les approches de la causalité en statistique au 20e siècle

1.3 Un concept rejeté au début du 20e siècle

2.2.4 Inférence statistique

1.2 La causalité comme problème philosophique : Hume

This article is from:

Statistique et causalité, F. Bertrand, G. Saporta, C. Thomas-Agnan - Editions Technip