En probabilités et en statistique, la corrélation entre plusieurs variables aléatoires ou statistiques est une notion de liaison qui contredit leur indépendance.
Cette corrélation est très souvent réduite à la corrélation linéaire entre variables quantitatives, c’est-à-dire l’ajustement d’une variable par rapport à l’autre par une relation affine obtenue par régression linéaire. Pour cela, on calcule un coefficient de corrélation linéaire, quotient de leur covariance par le produit de leurs écarts types. Son signe indique si des valeurs plus hautes de l’une correspondent « en moyenne » à des valeurs plus hautes ou plus basses pour l’autre. La valeur absolue du coefficient, toujours comprise entre 0 et 1, ne mesure pas l’intensité de la liaison mais la prépondérance de la relation affine sur les variations internes des variables. Un coefficient nul n’implique pas l'indépendance, car d’autres types de corrélation sont possibles.
D’autres indicateurs permettent de calculer un coefficient de corrélation pour des variables ordinales.
Le fait que deux variables soient « fortement corrélées » ne démontre pas qu'il y ait une relation de causalité entre l'une et l'autre. Le contre-exemple le plus typique est celui où elles sont en fait liées par une causalité commune. Cette confusion est connue sous l'expression Cum hoc ergo propter hoc.
La corrélation est un concept issu de la biologie. C'est par le biais des travaux de Francis Galton que la corrélation devient un concept statistique. Toutefois pour Galton, la notion de corrélation n'est pas définie précisément et il l'assimile dans un premier temps à la droite de régression d'un modèle de régression linéaire.
C'est ensuite Karl Pearson qui propose en 1896 une formule mathématique pour la notion de corrélation et un estimateur de cette grandeur.
La corrélation est introduite en économie avec l'ouvrage de Bowley Elements of Statistics en 1902 et l'intervention de George Udny Yule en 1909. Yule introduit notamment la notion de corrélation partielle.
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
The algebra of random variables in statistics, provides rules for the symbolic manipulation of random variables, while avoiding delving too deeply into the mathematically sophisticated ideas of probability theory. Its symbolism allows the treatment of sums, products, ratios and general functions of random variables, as well as dealing with operations such as finding the probability distributions and the expectations (or expected values), variances and covariances of such combinations.
vignette|Dans cet arbre de probabilité, la probabilité de l'événement B s'obtient en sommant les probabilités des chemins conduisant à la réalisation de B. En théorie des probabilités, la formule des probabilités totales est un théorème qui permet de calculer la probabilité d'un événement en le décomposant suivant un système exhaustif d'événements. Ce corollaire permet de ramener le calcul de au calcul des parfois plus facile, car l'évènement Bi, étant plus petit que l'évènement B, fournit une information plus précise, et facilite ainsi le pronostic (pronostic = calcul de la probabilité conditionnelle).
Le théorème de l'espérance totale est une proposition de la théorie des probabilités affirmant que l'espérance de l'espérance conditionnelle de X sachant Y est la même que l'espérance de X. Précisément, si X est une variable aléatoire intégrable (c'est-à-dire, une variable aléatoire avec E( | X | ) < ), Y est une variable aléatoire quelconque (donc pas nécessairement intégrable), Et X et Y sont définies sur le même espace probabilisé, on a alors le résultat suivant : L'espérance conditionnelle E( X | Y ) est elle-même une variable aléatoire, dont la valeur dépend de la valeur de Y.
vignette|Une régression linéaire. Les statistiques, dans le sens populaire du terme, traitent à l'aide des mathématiques l'étude de groupe d'une population. En statistique descriptive, on se contente de décrire un échantillon à partir de grandeurs comme la moyenne, la médiane, l'écart type, la proportion, la corrélation, etc. C'est souvent la technique qui est utilisée dans les recensements. Dans un sens plus large, la théorie statistique est utilisée en recherche dans un but inférentiel.
La théorie des probabilités en mathématiques est l'étude des phénomènes caractérisés par le hasard et l'incertitude. Elle forme avec la statistique les deux sciences du hasard qui sont partie intégrante des mathématiques. Les débuts de l'étude des probabilités correspondent aux premières observations du hasard dans les jeux ou dans les phénomènes climatiques par exemple. Bien que le calcul de probabilités sur des questions liées au hasard existe depuis longtemps, la formalisation mathématique n'est que récente.
En mathématiques, la régression recouvre plusieurs méthodes d’analyse statistique permettant d’approcher une variable à partir d’autres qui lui sont corrélées. Par extension, le terme est aussi utilisé pour certaines méthodes d’ajustement de courbe. En apprentissage automatique, on distingue les problèmes de régression des problèmes de classification. Ainsi, on considère que les problèmes de prédiction d'une variable quantitative sont des problèmes de régression tandis que les problèmes de prédiction d'une variable qualitative sont des problèmes de classification.