Règle 68-95-99,7vignette|Illustration de la règle 68-95-99.7 (à partir d'une expérience réelle, ce qui explique l'asymétrie par rapport à la loi normale). En statistique, la règle 68-95-99,7 (ou règle des trois sigmas ou règle empirique) indique que pour une loi normale, presque toutes les valeurs se situent dans un intervalle centré autour de la moyenne et dont les bornes se situent à trois écarts-types de part et d'autre de celle-ci. Environ 68,27 % des valeurs se situent à moins d'un écart-type de la moyenne.
Jeu de donnéesvignette|Représentation du jeu de données Iris sur ses quatre dimensions|420x420px Un jeu de données (en anglais dataset ou data set) est un ensemble de valeurs « organisées » ou « contextualisées » (alias « données »), où chaque valeur est associée à une variable (ou attribut) et à une observation. Une variable décrit l'ensemble des valeurs décrivant le même attribut et une observation contient l'ensemble des valeurs décrivant les attributs d'une unité (ou individu statistique).
Censure (statistiques)En fiabilité, la censure est le fait de prendre en compte des systèmes non-défaillants pour établir la loi de fiabilité. Plus généralement, le terme s'applique lorsque l'on ne connaît pas avec précision la date de défaillance, soit que la défaillance ne soit pas encore survenue, soit qu'elle n'ait pas été enregistrée avec précision. La censure est une information qui doit être intégrée dans le modèle de fiabilité, même si cette information est moins riche qu'un instant de défaillance défini.
Winsorized meanA winsorized mean is a winsorized statistical measure of central tendency, much like the mean and median, and even more similar to the truncated mean. It involves the calculation of the mean after winsorizing -- replacing given parts of a probability distribution or sample at the high and low end with the most extreme remaining values, typically doing so for an equal amount of both extremes; often 10 to 25 percent of the ends are replaced.
Trimmed estimatorIn statistics, a trimmed estimator is an estimator derived from another estimator by excluding some of the extreme values, a process called truncation. This is generally done to obtain a more robust statistic, and the extreme values are considered outliers. Trimmed estimators also often have higher efficiency for mixture distributions and heavy-tailed distributions than the corresponding untrimmed estimator, at the cost of lower efficiency for other distributions, such as the normal distribution.
Huber lossIn statistics, the Huber loss is a loss function used in robust regression, that is less sensitive to outliers in data than the squared error loss. A variant for classification is also sometimes used. The Huber loss function describes the penalty incurred by an estimation procedure f. Huber (1964) defines the loss function piecewise by This function is quadratic for small values of a, and linear for large values, with equal values and slopes of the different sections at the two points where .