Un de mes articles préférés de ces dernières années contenait ce diagramme. Il montre l'impact du contrôle de trois types différents de variables : les confondants, les colliders et les médiateurs. Avec les confondants, le contrôle est bénéfique. Avec les autres, vous ruinez votre résultat en contrôlant.
Si vous avez des variables avec une erreur de mesure, vous pouvez rencontrer une autre variable problématique : le proxy. Les variables proxy peuvent aggraver toutes ces distorsions et rendre leur gestion beaucoup plus difficile.
Le document fait cette simple observation : le contrôle statistique nécessite une justification causale. C'est en fait le titre. Ils ont donné plusieurs exemples basés sur des DAG. Considérez celui-ci : l'edutainment est-il un facteur de confusion ou un médiateur ? Devriez-vous le contrôler, ou cela biaiserait-il votre estimation ?
C'est toujours quelque chose que vous devez considérer, mais il est, franchement, exceptionnel de penser de manière causale à propos du contrôle statistique. De nombreux articles font des choses comme contrôler des variables en aval non pertinentes (proxies), ou ils contrôlent involontairement des médiateurs. C'est la norme !
Mon article aborde beaucoup plus de problèmes liés à l'utilisation et à la mauvaise utilisation des contrôles. Par exemple, il note qu'il peut falloir beaucoup de données et d'efforts pour faire correspondre le score de propension aux expériences :
Il est noté qu'une constatation donnée peut ne pas signifier ce qu'elle prétend.
Et cela montre que même la norme en matière d'inférence causale—le RCT—doit être réalisé correctement, sinon vous vous retrouverez dans une situation où vos estimations d'effet sont gonflées et vos conclusions sont erronées.
55,86K