Facteur de confusionEn statistique, un facteur de confusion, ou facteur confondant, ou encore variable confondante, est une variable aléatoire qui influence à la fois la variable dépendante et les variables explicatives. Ces facteurs sont notamment à l'origine de la différence entre corrélation et causalité (Cum hoc ergo propter hoc). En santé publique, c'est une variable liée à la fois au facteur de risque et à la maladie ou à un autre évènement de l'étude lié à la santé, ce qui est susceptible d'induire un biais dans l'analyse du lien (entre maladie et facteur de risque), produisant ainsi de fausses associations.
Validité interneLa validité interne et la validité externe sont des concepts proposés par Donald Campbell dans les années 1950 pour estimer le degré de confiance que l'on peut avoir dans le résultat d'une expérience scientifique. Assurer une bonne validité interne, c'est concevoir, mettre en œuvre et exploiter une expérience de façon à « [limiter] autant que faire se peut les biais imputables aux instruments de collecte ou de traitement des données ».
Causalité au sens de GrangerLa causalité a été introduite dans l'analyse économétrique par Wiener (1956) et Granger (1969). À l'origine, on retrouve la formalisation de la notion de causalité en physique, notamment dans les travaux d'Isaac Newton sur la force motrice (cause) et le changement de mouvement (effet). Dans ce cas, la notion de causalité traduit un principe d’après lequel si un phénomène est la cause d’un autre phénomène, nommé « effet », alors ce dernier ne peut pas précéder la cause.
Régression linéaireEn statistiques, en économétrie et en apprentissage automatique, un modèle de régression linéaire est un modèle de régression qui cherche à établir une relation linéaire entre une variable, dite expliquée, et une ou plusieurs variables, dites explicatives. On parle aussi de modèle linéaire ou de modèle de régression linéaire. Parmi les modèles de régression linéaire, le plus simple est l'ajustement affine. Celui-ci consiste à rechercher la droite permettant d'expliquer le comportement d'une variable statistique y comme étant une fonction affine d'une autre variable statistique x.
Omitted-variable biasIn statistics, omitted-variable bias (OVB) occurs when a statistical model leaves out one or more relevant variables. The bias results in the model attributing the effect of the missing variables to those that were included. More specifically, OVB is the bias that appears in the estimates of parameters in a regression analysis, when the assumed specification is incorrect in that it omits an independent variable that is a determinant of the dependent variable and correlated with one or more of the included independent variables.
Cum hoc ergo propter hocCum hoc ergo propter hoc (latin signifiant avec ceci, donc à cause de ceci) est un sophisme qui consiste à prétendre que si deux événements sont corrélés, alors, il y a un lien de cause à effet entre les deux. La confusion entre corrélation et causalité est appelée effet cigogne en zététique (en référence à la corrélation trompeuse entre le nombre de nids de cigognes et celui des naissances humaines) ; en science et particulièrement en statistique cette erreur est rappelée par la phrase « la corrélation n'implique pas la causalité », en latin : cum hoc sed non propter hoc (avec ceci, cependant pas à cause de ceci).
Inférence causaleL'inférence causale est le processus par lequel on peut établir une relation de causalité entre un élément et ses effets. C'est un champ de recherche à la croisée des statistiques, de l'économétrie, de l'épidémiologie, de la méthodologie politique et de l'intelligence artificielle. En 1920, Sewall Wright développe la première path analysis. Cette analyse graphique des relations de causalité entre les variables constitue selon Judea Pearl un travail pionnier dans l'inférence causale.
Causalitévignette|Exemple classique de la chute d'un domino causé par la chute d'un autre. En science, en philosophie et dans le langage courant, la causalité désigne la relation de cause à effet. la cause, corrélat de l'effet, c'est . C'est ce qui produit l'effet ; la causalité est le . Autrement dit, la causalité est l'influence par laquelle un événement, un processus, un état ou un objet (une cause) contribue à la production d'un autre événement, processus, état ou objet (un effet) considéré comme sa conséquence.
Régression (statistiques)En mathématiques, la régression recouvre plusieurs méthodes d’analyse statistique permettant d’approcher une variable à partir d’autres qui lui sont corrélées. Par extension, le terme est aussi utilisé pour certaines méthodes d’ajustement de courbe. En apprentissage automatique, on distingue les problèmes de régression des problèmes de classification. Ainsi, on considère que les problèmes de prédiction d'une variable quantitative sont des problèmes de régression tandis que les problèmes de prédiction d'une variable qualitative sont des problèmes de classification.
Corrélation (statistiques)En probabilités et en statistique, la corrélation entre plusieurs variables aléatoires ou statistiques est une notion de liaison qui contredit leur indépendance. Cette corrélation est très souvent réduite à la corrélation linéaire entre variables quantitatives, c’est-à-dire l’ajustement d’une variable par rapport à l’autre par une relation affine obtenue par régression linéaire. Pour cela, on calcule un coefficient de corrélation linéaire, quotient de leur covariance par le produit de leurs écarts types.