Sample mean and covarianceThe sample mean (sample average) or empirical mean (empirical average), and the sample covariance or empirical covariance are statistics computed from a sample of data on one or more random variables. The sample mean is the average value (or mean value) of a sample of numbers taken from a larger population of numbers, where "population" indicates not number of people but the entirety of relevant data, whether collected or not. A sample of 40 companies' sales from the Fortune 500 might be used for convenience instead of looking at the population, all 500 companies' sales.
Donnée aberrantevignette|Ce graphique permet de visualiser la répartition de doyens selon leur âge de décès et l'âge de décès moyen des doyens de leur époque. Le record de longévité de Jeanne Calment constitue une anomalie statistique qui continue d'intriguer les gérontologues. En statistique, une donnée aberrante (anglais outlier) est une valeur ou une observation qui est « distante » des autres observations effectuées sur le même phénomène, c'est-à-dire qu'elle contraste grandement avec les valeurs « normalement » mesurées.
WinsorisationLa winsorisation (winsorizing en anglais) est un procédé en statistiques visant à limiter l'impact de données aberrantes dans l'estimation d'un paramètre. Le nom winsorisation a été donné par John Tukey en l'honneur du biostatisticien . Considérons un jeu de données numériques et une statistique (la moyenne ou l'écart-type de par exemple). Winsoriser cette statistique revient à la calculer non pas sur le jeu de données original , mais sur un jeu de données modifié où une proportion des valeurs les plus extrêmes sont "écrasées" sur les quantiles de niveaux et La proportion doit être choisie par le statisticien en fonction de la robustesse souhaitée (un choix courant est ).
Statistique (indicateur)Une statistique est, au premier abord, le résultat d'une suite d'opérations appliquées à un ensemble de nombres appelé échantillon. D'une façon générale, c'est le résultat de l'application d'une méthode statistique à un ensemble de données. Dans le calcul de la moyenne arithmétique, par exemple, l'algorithme consiste à calculer la somme de toutes les valeurs des données et à diviser par le nombre de données. La moyenne est ainsi une statistique.
Robust regressionIn robust statistics, robust regression seeks to overcome some limitations of traditional regression analysis. A regression analysis models the relationship between one or more independent variables and a dependent variable. Standard types of regression, such as ordinary least squares, have favourable properties if their underlying assumptions are true, but can give misleading results otherwise (i.e. are not robust to assumption violations).
Moyenne tronquéeUne moyenne tronquée, ou moyenne réduite, est une mesure statistique de centralité, similaire à la moyenne arithmétique et à la médiane, qui consiste à calculer une moyenne arithmétique en éliminant les valeurs extrêmes. Les , ont été inventées pour pallier la sensibilité des statistiques aux valeurs aberrantes, ce qu'on appelle la robustesse statistique.
Ancillary statisticAn ancillary statistic is a measure of a sample whose distribution (or whose pmf or pdf) does not depend on the parameters of the model. An ancillary statistic is a pivotal quantity that is also a statistic. Ancillary statistics can be used to construct prediction intervals. They are also used in connection with Basu's theorem to prove independence between statistics. This concept was first introduced by Ronald Fisher in the 1920s, but its formal definition was only provided in 1964 by Debabrata Basu.
Loi de mélangeEn probabilité et en statistiques, une loi de mélange est la loi de probabilité d'une variable aléatoire s'obtenant à partir d'une famille de variables aléatoires de la manière suivante : une variable aléatoire est choisie au hasard parmi la famille de variables aléatoires donnée, puis la valeur de la variable aléatoire sélectionnée est réalisée. Les variables aléatoires sous-jacentes peuvent être des nombres réels aléatoires, ou des vecteurs aléatoires (chacun ayant la même dimension), auquel cas la répartition du mélange est une répartition à plusieurs variables.
Efficacité (statistiques)En statistique, lefficacité est une mesure de la qualité d'un estimateur, d'une expérimentation ou d'un test statistique. Elle permet d'évaluer le nombre d'observations nécessaires pour atteindre un seuil : plus un estimateur est efficace, plus l'échantillon d'observations nécessaire pour atteindre un objectif de précision sera petit. Lefficacité relative de deux procédures est le rapport de leurs efficacités, bien que le concept soit plus utilisé pour le rapport de l'efficacité d'une procédure donnée et d'une procédure théorique optimale.
RANSACRANSAC, abréviation pour RANdom SAmple Consensus, est une méthode pour estimer les paramètres de certains modèles mathématiques. Plus précisément, c'est une méthode itérative utilisée lorsque l'ensemble de données observées peut contenir des valeurs aberrantes (outliers). Il s'agit d'un algorithme non-déterministe dans le sens où il produit un résultat correct avec une certaine probabilité seulement, celle-ci augmentant à mesure que le nombre d'itérations est grand. L'algorithme a été publié pour la première fois par Fischler et Bolles en 1981.