Complex normal distributionIn probability theory, the family of complex normal distributions, denoted or , characterizes complex random variables whose real and imaginary parts are jointly normal. The complex normal family has three parameters: location parameter μ, covariance matrix , and the relation matrix . The standard complex normal is the univariate distribution with , , and . An important subclass of complex normal family is called the circularly-symmetric (central) complex normal and corresponds to the case of zero relation matrix and zero mean: and .
Loi gamma-normaleEn théorie des probabilités et en statistiques, la loi gamma-normale (ou Gamma- Gaussienne) est une distribution bivariée continue à quatre paramètres. Elle est la prieure conjuguée de la loi normale de moyenne et variance inconnues. Soit une paire de variable aléatoires (X,T). Si la distribution conditionnelle de X sachant T est normale de moyenne et variance et si la distribution marginale de T est une loi gamma alors (X,T) suit une loi gamma-normale, que l'on note La fonction de densité conjointe de (X,T) a la forme Par définition, la distribution marginale de est une loi gamma.
K-moyennesLe partitionnement en k-moyennes (ou k-means en anglais) est une méthode de partitionnement de données et un problème d'optimisation combinatoire. Étant donnés des points et un entier k, le problème est de diviser les points en k groupes, souvent appelés clusters, de façon à minimiser une certaine fonction. On considère la distance d'un point à la moyenne des points de son cluster ; la fonction à minimiser est la somme des carrés de ces distances.
Corrélation (statistiques)En probabilités et en statistique, la corrélation entre plusieurs variables aléatoires ou statistiques est une notion de liaison qui contredit leur indépendance. Cette corrélation est très souvent réduite à la corrélation linéaire entre variables quantitatives, c’est-à-dire l’ajustement d’une variable par rapport à l’autre par une relation affine obtenue par régression linéaire. Pour cela, on calcule un coefficient de corrélation linéaire, quotient de leur covariance par le produit de leurs écarts types.
Loi demi-normaleEn théorie des probabilités et en statistique, la loi demi-normale est un cas particulier de la loi normale repliée. Soit une variable aléatoire de loi normale centrée, , alors est de loi demi-normale. En particulier, la loi demi-normale est une loi normale repliée de paramètre 0 et . La densité de probabilité de la loi demi-normale est donnée par : L'espérance est : En faisant le changement de variable : , utile lorsque est proche de zéro, la densité prend la forme : L'espérance est alors : La fonction de répartition de la loi demi-normale est donnée par : En utilisant le changement de variable , la fonction de répartition peut s'écrire où erf est la fonction d'erreur.
Modèle génératifvignette|Schéma représentant la différence entre un modèle discriminatif et un modèle génératif. En classement automatique un modèle génératif est un modèle statistique défini par opposition à un modèle discriminatif. Étant donné une variable X à laquelle il doit associer une autre variable Y, le modèle génératif cherchera à décrire la probabilité conditionnelle ainsi que la probabilité puis d'utiliser la formule de Bayes pour calculer la probabilité .
Single-linkage clusteringIn statistics, single-linkage clustering is one of several methods of hierarchical clustering. It is based on grouping clusters in bottom-up fashion (agglomerative clustering), at each step combining two clusters that contain the closest pair of elements not yet belonging to the same cluster as each other. This method tends to produce long thin clusters in which nearby elements of the same cluster have small distances, but elements at opposite ends of a cluster may be much farther from each other than two elements of other clusters.
Big dataLe big data ( « grosses données » en anglais), les mégadonnées ou les données massives, désigne les ressources d’informations dont les caractéristiques en termes de volume, de vélocité et de variété imposent l’utilisation de technologies et de méthodes analytiques particulières pour créer de la valeur, et qui dépassent en général les capacités d'une seule et unique machine et nécessitent des traitements parallélisés. L’explosion quantitative (et souvent redondante) des données numériques permet une nouvelle approche pour analyser le monde.
Analyse des donnéesL’analyse des données (aussi appelée analyse exploratoire des données ou AED) est une famille de méthodes statistiques dont les principales caractéristiques sont d'être multidimensionnelles et descriptives. Dans l'acception française, la terminologie « analyse des données » désigne donc un sous-ensemble de ce qui est appelé plus généralement la statistique multivariée. Certaines méthodes, pour la plupart géométriques, aident à faire ressortir les relations pouvant exister entre les différentes données et à en tirer une information statistique qui permet de décrire de façon plus succincte les principales informations contenues dans ces données.
Errors-in-variables modelsIn statistics, errors-in-variables models or measurement error models are regression models that account for measurement errors in the independent variables. In contrast, standard regression models assume that those regressors have been measured exactly, or observed without error; as such, those models account only for errors in the dependent variables, or responses. In the case when some regressors have been measured with errors, estimation based on the standard assumption leads to inconsistent estimates, meaning that the parameter estimates do not tend to the true values even in very large samples.