vignette|Ce graphique permet de visualiser la répartition de doyens selon leur âge de décès et l'âge de décès moyen des doyens de leur époque. Le record de longévité de Jeanne Calment constitue une anomalie statistique qui continue d'intriguer les gérontologues.
En statistique, une donnée aberrante (anglais outlier) est une valeur ou une observation qui est « distante » des autres observations effectuées sur le même phénomène, c'est-à-dire qu'elle contraste grandement avec les valeurs « normalement » mesurées. Une donnée aberrante peut être due à la variabilité inhérente au phénomène observé, ou indiquer une erreur expérimentale. Dans ce dernier cas, elles sont parfois écartées.
Les données aberrantes peuvent apparaître par hasard dans n'importe quelle distribution, mais elles indiquent souvent soit une erreur de mesure, soit que la population est distribuée suivant une loi de probabilité à queue lourde. Dans le premier cas, il convient de se débarrasser de ces valeurs ou bien d'utiliser des indicateurs statistiques plus robustes face aux données aberrantes tandis que dans le second cas elles indiquent que la distribution est fortement asymétrique et qu'il faut donc se montrer très prudent dans l'utilisation d'outils ou de raisonnement conçus pour une distribution normale. Une cause fréquente de données aberrantes est le mélange de deux distributions, qui peuvent être issues de 2 sous-populations bien distinctes, ou qui peuvent indiquer « mesure correcte » contre « erreur de mesure » : ce phénomène peut être modélisé au travers d'un modèle de mélange.
Dans de plus grandes séries de données, quelques valeurs peuvent être éloignées de façon raisonnable de la moyenne. Cela peut être dû à une erreur systématique aussi appelée biais qui peut être inhérent au modèle utilisé pour décrire la distribution du phénomène, ou il peut s'agir de quelques valeurs qui sont loin du centre des données. Les données aberrantes peuvent également indiquer une donnée fausse, des calculs erronés ou bien les limites d'un modèle statistique.
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
Regression modelling is a fundamental tool of statistics, because it describes how the law of a random variable of interest may depend on other variables. This course aims to familiarize students with
Mettre en pratique les bases de la programmation vues au semestre précédent. Développer un logiciel structuré. Méthode de debug d'un logiciel. Introduction à la programmation scientifique. Introductio
This course teaches the basic techniques, methodologies, and practical skills required to draw meaningful insights from a variety of data, with the help of the most acclaimed software tools in the dat
En statistiques, la robustesse d'un estimateur est sa capacité à ne pas être perturbé par une modification dans une petite partie des données ou dans les paramètres du modèle choisi pour l'estimation. Ricardo A. Maronna, R. Douglas Martin et Victor J. Yohai; Robust Statistics - Theory and Methods, Wiley Series in Probability and Statistics (2006). Dagnelie P.; Statistique théorique et appliquée. Tome 2 : Inférence statistique à une et à deux dimensions, Paris et Bruxelles (2006), De Boeck et Larcier.
The sample mean (sample average) or empirical mean (empirical average), and the sample covariance or empirical covariance are statistics computed from a sample of data on one or more random variables. The sample mean is the average value (or mean value) of a sample of numbers taken from a larger population of numbers, where "population" indicates not number of people but the entirety of relevant data, whether collected or not. A sample of 40 companies' sales from the Fortune 500 might be used for convenience instead of looking at the population, all 500 companies' sales.
In ordinary language, an average is a single number taken as representative of a list of numbers, usually the sum of the numbers divided by how many numbers are in the list (the arithmetic mean). For example, the average of the numbers 2, 3, 4, 7, and 9 (summing to 25) is 5. Depending on the context, an average might be another statistic such as the median, or mode. For example, the average personal income is often given as the median—the number below which are 50% of personal incomes and above which are 50% of personal incomes—because the mean would be higher by including personal incomes from a few billionaires.
Explore les distributions de probabilité pour les variables aléatoires dans les études sur la pollution atmosphérique et le changement climatique, couvrant les statistiques descriptives et inférentielles.
Context. Gaia DR3 has offered the scientific community a remarkable dataset of approximately one million spectra acquired with the radial velocity spectrometer (RVS) in the calcium II triplet region, which is well suited to identify very metal-poor (VMP) s ...
Edp Sciences S A2024
, , , ,
Learning-based outlier (mismatched correspondence) rejection for robust 3D registration generally formulates the outlier removal as an inlier/outlier classification problem. The core for this to be successful is to learn the discriminative inlier/outlier f ...
Los Alamitos2023
Approaches for estimating the similarity between individual publications are an area of long -standing interest in the scientometrics and informetrics communities. Traditional techniques have generally relied on references and other metadata, while text mi ...