La winsorisation (winsorizing en anglais) est un procédé en statistiques visant à limiter l'impact de données aberrantes dans l'estimation d'un paramètre.
Le nom winsorisation a été donné par John Tukey en l'honneur du biostatisticien .
Considérons un jeu de données numériques et une statistique (la moyenne ou l'écart-type de par exemple). Winsoriser cette statistique revient à la calculer non pas sur le jeu de données original , mais sur un jeu de données modifié où une proportion des valeurs les plus extrêmes sont "écrasées" sur les quantiles de niveaux et
La proportion doit être choisie par le statisticien en fonction de la robustesse souhaitée (un choix courant est ).
Plus formellement, définissons par
où et désignent les quantiles des données de niveaux et .
Alors la statistique winsorisée de est .
Prenons et considérons le jeu de données suivant
le quantile de à 5% est et le quantile à 95% est .
Construisons le jeu de données :
en remplaçant les valeurs inférieures à par et celles supérieures à par .
Pour calculer des statistiques sur winsorisées à 90%, il suffit alors de les calculer sur :
la moyenne winsorisée à 90% de (c'est-à-dire la moyenne de ) est de , alors que la moyenne non winsorisée de est de .
la variance winsorisée à 90% de (c'est-à-dire la variance de ) est de , alors que la variance non winsorisée de est de .
la statistique T winsorisée à 90% pour effectuer un test de Student sur l'hypothèse est de et donne une p-value de . Non winsorisée, la statistique T donne et la p-value . On remarque que les conclusions du test sont différentes pour un niveau de 5% ou moins. Le test winsorisé est plus fiable dans ce cas, car il n'est pas souhaitable que deux observations seulement parmi les 20 puissent déterminer l'issue du test.
la médiane winsorisée à 90% de est de , de même que la médiane non winsorisée.
La statistique winsorisée est plus robuste que la statistique originale, au sens que sa valeur sera moins influencée par les valeurs extrêmes.
Il est aisé de voir que le d'une statistique winsorisée est de .
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
En statistiques, la robustesse d'un estimateur est sa capacité à ne pas être perturbé par une modification dans une petite partie des données ou dans les paramètres du modèle choisi pour l'estimation. Ricardo A. Maronna, R. Douglas Martin et Victor J. Yohai; Robust Statistics - Theory and Methods, Wiley Series in Probability and Statistics (2006). Dagnelie P.; Statistique théorique et appliquée. Tome 2 : Inférence statistique à une et à deux dimensions, Paris et Bruxelles (2006), De Boeck et Larcier.
In statistics, truncation results in values that are limited above or below, resulting in a truncated sample. A random variable is said to be truncated from below if, for some threshold value , the exact value of is known for all cases , but unknown for all cases . Similarly, truncation from above means the exact value of is known in cases where , but unknown when . Truncation is similar to but distinct from the concept of statistical censoring.
In statistics, a trimmed estimator is an estimator derived from another estimator by excluding some of the extreme values, a process called truncation. This is generally done to obtain a more robust statistic, and the extreme values are considered outliers. Trimmed estimators also often have higher efficiency for mixture distributions and heavy-tailed distributions than the corresponding untrimmed estimator, at the cost of lower efficiency for other distributions, such as the normal distribution.
Couvre les tableaux logiques, les tracés de surface 3D, les courbes paramétriques, l'interpolation et l'ajustement dans Matlab.
Couvre les méthodes d'identification et de traitement des valeurs extrêmes dans les données, y compris les procédures statistiques de détection aberrante.
Explore les régressions OLS pour les prix des maisons, couvrant les valeurs aberrantes, les observations influentes, les spécifications du modèle et les stratégies de sélection.