Sample mean and covarianceThe sample mean (sample average) or empirical mean (empirical average), and the sample covariance or empirical covariance are statistics computed from a sample of data on one or more random variables. The sample mean is the average value (or mean value) of a sample of numbers taken from a larger population of numbers, where "population" indicates not number of people but the entirety of relevant data, whether collected or not. A sample of 40 companies' sales from the Fortune 500 might be used for convenience instead of looking at the population, all 500 companies' sales.
Médecine fondée sur les faitsLa médecine fondée sur les faits (ou médecine fondée sur les données probantes ; voir les autres synonymes) se définit comme . On utilise plus couramment le terme anglais , et parfois les termes médecine fondée sur les preuves ou médecine factuelle. Ces preuves proviennent d'études cliniques systématiques, telles que des essais contrôlés randomisés en double aveugle, des méta-analyses, éventuellement des études transversales ou de suivi bien construites.
Quartet d'AnscombeLe quartet d'Anscombe est constitué de quatre ensembles de données qui ont les mêmes propriétés statistiques simples mais qui sont en réalité très différents, ce qui se voit facilement lorsqu'on les représente sous forme de graphiques. Ils ont été construits en 1973 par le statisticien Francis Anscombe dans le but de démontrer l'importance de tracer des graphiques avant d'analyser des données, car cela permet notamment d'estimer l'incidence des données aberrantes sur les différentes indices statistiques que l'on pourrait calculer.
Estimateur (statistique)En statistique, un estimateur est une fonction permettant d'estimer un moment d'une loi de probabilité (comme son espérance ou sa variance). Il peut par exemple servir à estimer certaines caractéristiques d'une population totale à partir de données obtenues sur un échantillon comme lors d'un sondage. La définition et l'utilisation de tels estimateurs constitue la statistique inférentielle. La qualité des estimateurs s'exprime par leur convergence, leur biais, leur efficacité et leur robustesse.
ProblématiqueLa problématique est la présentation d'un problème qui soulève une interrogation qu'il faut résoudre. La problématique d'une dissertation est la question à laquelle l'auteur doit répondre par une argumentation étayée. La problématique pose la question à laquelle la dissertation doit répondre. Incluse dans l'introduction, généralement vers sa fin, elle doit déterminer un cadre spatial et/ou temporel. Afin d'être correctement construite, la problématique requiert d'être extraite de l'énoncé, c'est-à-dire du sujet de l'épreuve.
Median absolute deviationIn statistics, the median absolute deviation (MAD) is a robust measure of the variability of a univariate sample of quantitative data. It can also refer to the population parameter that is estimated by the MAD calculated from a sample. For a univariate data set X1, X2, ..., Xn, the MAD is defined as the median of the absolute deviations from the data's median : that is, starting with the residuals (deviations) from the data's median, the MAD is the median of their absolute values. Consider the data (1, 1, 2, 2, 4, 6, 9).
Data transformation (statistics)In statistics, data transformation is the application of a deterministic mathematical function to each point in a data set—that is, each data point zi is replaced with the transformed value yi = f(zi), where f is a function. Transforms are usually applied so that the data appear to more closely meet the assumptions of a statistical inference procedure that is to be applied, or to improve the interpretability or appearance of graphs. Nearly always, the function that is used to transform the data is invertible, and generally is continuous.
Rank–size distributionRank–size distribution is the distribution of size by rank, in decreasing order of size. For example, if a data set consists of items of sizes 5, 100, 5, and 8, the rank-size distribution is 100, 8, 5, 5 (ranks 1 through 4). This is also known as the rank–frequency distribution, when the source data are from a frequency distribution. These are particularly of interest when the data vary significantly in scales, such as city size or word frequency.
Categorical distributionIn probability theory and statistics, a categorical distribution (also called a generalized Bernoulli distribution, multinoulli distribution) is a discrete probability distribution that describes the possible results of a random variable that can take on one of K possible categories, with the probability of each category separately specified. There is no innate underlying ordering of these outcomes, but numerical labels are often attached for convenience in describing the distribution, (e.g. 1 to K).
Order of integrationIn statistics, the order of integration, denoted I(d), of a time series is a summary statistic, which reports the minimum number of differences required to obtain a covariance-stationary series. A time series is integrated of order d if is a stationary process, where is the lag operator and is the first difference, i.e. In other words, a process is integrated to order d if taking repeated differences d times yields a stationary process. In particular, if a series is integrated of order 0, then is stationary.