Le paradoxe de Simpson ou effet de Yule-Simpson est un paradoxe statistique décrit par Edward Simpson en 1951 et George Udny Yule en 1903, dans lequel un phénomène observé dans plusieurs groupes s'inverse lorsque les groupes sont combinés. Ce résultat, qui semble impossible au premier abord, est lié à des éléments qui ne sont pas pris en compte, comme la présence de variables non indépendantes ou de différences d'effectifs entre les groupes ; il est souvent rencontré dans la réalité, en particulier dans les sciences sociales et les statistiques médicales. Soient f < g deux fonctions mesurables bornées sur un espace de probabilités et supposons que sup (f) > inf (g). Alors on peut trouver deux mesures de probabilités P, Q telles que E(f) > E(g) où E et E désignent l'espérance selon la mesure de probabilités P, resp. Q. L'apparent paradoxe vient du fait que si on prenait l'espérance selon la même mesure de probabilités, par exemple P, on aurait l'inégalité intuitive E(f) < E(g). Considérons deux variables aléatoires, X et Y, et une variable de conditionnement, Z. Le paradoxe de Simpson se produit lorsque la relation entre X et Y est différente dans les sous-groupes de Z par rapport à l'ensemble des données combinées. Soit P(Y|X, Z) la probabilité conditionnelle de Y sachant X et Z. Le paradoxe apparaît lorsque, par exemple, pour un certain x : pour tous les z, mais : Ceci peut être expliqué par le fait que : Lorsque les probabilités varient beaucoup avec z, les pondérer avec ou peut inverser l'ordre des inégalités. Cette formulation met en évidence l'importance de la prise en compte des variables de confusion potentielles lors de l'analyse des données et sert de rappel que les corrélations observées ne doivent pas être interprétées comme des relations causales sans une analyse plus approfondie. C'est un exemple du paradoxe de Simpson. Oublier le conditionnement peut changer les conclusions d'une étude. Pour expliquer le paradoxe de Simpson, imaginons que l'on mesure la performance scolaire de différents élèves en fonction de la quantité de sport pratiqué.
Anthony Christopher Davison, Valérie Chavez
Mats Julius Stensrud, Aaron Leor Sarvet