Loi de mélangeEn probabilité et en statistiques, une loi de mélange est la loi de probabilité d'une variable aléatoire s'obtenant à partir d'une famille de variables aléatoires de la manière suivante : une variable aléatoire est choisie au hasard parmi la famille de variables aléatoires donnée, puis la valeur de la variable aléatoire sélectionnée est réalisée. Les variables aléatoires sous-jacentes peuvent être des nombres réels aléatoires, ou des vecteurs aléatoires (chacun ayant la même dimension), auquel cas la répartition du mélange est une répartition à plusieurs variables.
Invariant estimatorIn statistics, the concept of being an invariant estimator is a criterion that can be used to compare the properties of different estimators for the same quantity. It is a way of formalising the idea that an estimator should have certain intuitively appealing qualities. Strictly speaking, "invariant" would mean that the estimates themselves are unchanged when both the measurements and the parameters are transformed in a compatible way, but the meaning has been extended to allow the estimates to change in appropriate ways with such transformations.
Probabilité a prioriDans le théorème de Bayes, la probabilité a priori (ou prior) désigne une probabilité se fondant sur des données ou connaissances antérieures à une observation. Elle s'oppose à la probabilité a posteriori (ou posterior) correspondante qui s'appuie sur les connaissances postérieures à cette observation. Le théorème de Bayes s'énonce de la manière suivante : si . désigne ici la probabilité a priori de , tandis que désigne la probabilité a posteriori, c'est-à-dire la probabilité conditionnelle de sachant .
Estimateur (statistique)En statistique, un estimateur est une fonction permettant d'estimer un moment d'une loi de probabilité (comme son espérance ou sa variance). Il peut par exemple servir à estimer certaines caractéristiques d'une population totale à partir de données obtenues sur un échantillon comme lors d'un sondage. La définition et l'utilisation de tels estimateurs constitue la statistique inférentielle. La qualité des estimateurs s'exprime par leur convergence, leur biais, leur efficacité et leur robustesse.
Model selectionModel selection is the task of selecting a model from among various candidates on the basis of performance criterion to choose the best one. In the context of learning, this may be the selection of a statistical model from a set of candidate models, given data. In the simplest cases, a pre-existing set of data is considered. However, the task can also involve the design of experiments such that the data collected is well-suited to the problem of model selection.
Moyenne pondéréeLa moyenne pondérée est la moyenne d'un certain nombre de valeurs affectées de coefficients. En statistiques, considérant un ensemble de données et les coefficients, ou poids, correspondants, de somme non nulle, la moyenne pondérée est calculée suivant la formule : quotient de la somme pondérée des par la somme des poids soit Il s'agit donc du barycentre du système . Lorsque tous les poids sont égaux, la moyenne pondérée est identique à la moyenne arithmétique.
Sampling distributionIn statistics, a sampling distribution or finite-sample distribution is the probability distribution of a given random-sample-based statistic. If an arbitrarily large number of samples, each involving multiple observations (data points), were separately used in order to compute one value of a statistic (such as, for example, the sample mean or sample variance) for each sample, then the sampling distribution is the probability distribution of the values that the statistic takes on.
Régression non linéaireUne régression non linéaire consiste à ajuster un modèle, en général non linéaire, y = ƒa1, ..., am(x) pour un ensemble de valeurs (xi, yi)1 ≤ i ≤ n. Les variables xi et yi peuvent être des scalaires ou des vecteurs. Par « ajuster », il faut comprendre : déterminer les paramètres de la loi, (a1, ..., am), afin de minimiser S = ||ri||, avec : ri = yi - ƒa1, ..., am(xi). ||...|| est une norme. On utilise en général la norme euclidienne, ou norme l2 ; on parle alors de méthode des moindres carrés.
K-moyennesLe partitionnement en k-moyennes (ou k-means en anglais) est une méthode de partitionnement de données et un problème d'optimisation combinatoire. Étant donnés des points et un entier k, le problème est de diviser les points en k groupes, souvent appelés clusters, de façon à minimiser une certaine fonction. On considère la distance d'un point à la moyenne des points de son cluster ; la fonction à minimiser est la somme des carrés de ces distances.
Robust measures of scaleIn statistics, robust measures of scale are methods that quantify the statistical dispersion in a sample of numerical data while resisting outliers. The most common such robust statistics are the interquartile range (IQR) and the median absolute deviation (MAD). These are contrasted with conventional or non-robust measures of scale, such as sample standard deviation, which are greatly influenced by outliers.