Partitionnement de donnéesvignette|upright=1.2|Exemple de clustering hiérarchique. Le partitionnement de données (ou data clustering en anglais) est une méthode en analyse des données. Elle vise à diviser un ensemble de données en différents « paquets » homogènes, en ce sens que les données de chaque sous-ensemble partagent des caractéristiques communes, qui correspondent le plus souvent à des critères de proximité (similarité informatique) que l'on définit en introduisant des mesures et classes de distance entre objets.
Information mutuelleDans la théorie des probabilités et la théorie de l'information, l'information mutuelle de deux variables aléatoires est une quantité mesurant la dépendance statistique de ces variables. Elle se mesure souvent en bit. L'information mutuelle d'un couple de variables représente leur degré de dépendance au sens probabiliste. Ce concept de dépendance logique ne doit pas être confondu avec celui de causalité physique, bien qu'en pratique l'un implique souvent l'autre.
Reconnaissance de formesthumb|Reconnaissance de forme à partir de modélisation en 3D La reconnaissance de formes (ou parfois reconnaissance de motifs) est un ensemble de techniques et méthodes visant à identifier des régularités informatiques à partir de données brutes afin de prendre une décision dépendant de la catégorie attribuée à ce motif. On considère que c'est une branche de l'intelligence artificielle qui fait largement appel aux techniques d'apprentissage automatique et aux statistiques.
Regroupement hiérarchiqueDans le domaine de l'analyse et de la classification automatique de données, le regroupement hiérarchique est un partitionnement de données ou clustering, au moyen de diverses méthodes, dites « ascendantes » et « descendantes ». Les méthodes dites « descendantes » partent d’une solution générale vers une autre plus spécifique. Les méthodes de cette catégorie démarrent avec une seule classe contenant la totalité puis se divisent à chaque étape selon un critère jusqu’à l’obtention d’un ensemble de classes différentes.
K-moyennesLe partitionnement en k-moyennes (ou k-means en anglais) est une méthode de partitionnement de données et un problème d'optimisation combinatoire. Étant donnés des points et un entier k, le problème est de diviser les points en k groupes, souvent appelés clusters, de façon à minimiser une certaine fonction. On considère la distance d'un point à la moyenne des points de son cluster ; la fonction à minimiser est la somme des carrés de ces distances.
Algèbre de LieEn mathématiques, une algèbre de Lie, nommée en l'honneur du mathématicien Sophus Lie, est un espace vectoriel qui est muni d'un crochet de Lie, c'est-à-dire d'une loi de composition interne bilinéaire, alternée, et qui vérifie la relation de Jacobi. Une algèbre de Lie est un cas particulier d'algèbre sur un corps. Soit K un corps commutatif. Une algèbre de Lie sur K est un espace vectoriel sur K muni d'une application bilinéaire de dans qui vérifie les propriétés suivantes : Le produit est appelé crochet de Lie (ou simplement crochet) de et .
Groupe de LieEn mathématiques, un groupe de Lie est un groupe qui est aussi une variété différentielle. D'une part, un groupe est une structure algébrique munie d'une opération binaire, typiquement une multiplication et son inverse la division, ou alors une addition et son inverse la soustraction. D'autre part, une variété est un espace qui localement ressemble à un espace euclidien. Ici, on s'intéresse à un ensemble qui est à la fois un groupe et une variété : nous pouvons multiplier les éléments entre eux, calculer l'inverse d'un élément.
Matrice orthogonaleUne matrice carrée A (n lignes, n colonnes) à coefficients réels est dite orthogonale si A A = I, où A est la matrice transposée de A et I est la matrice identité. Des exemples de matrices orthogonales sont les matrices de rotation, comme la matrice de rotation plane d'angle θ ou les matrices de permutation, comme Une matrice réelle A est orthogonale si et seulement si elle est inversible et son inverse est égale à sa transposée : A = A. Une matrice carrée est orthogonale si et seulement si ses vecteurs colonnes sont orthogonaux deux à deux et de norme 1.
Determining the number of clusters in a data setDetermining the number of clusters in a data set, a quantity often labelled k as in the k-means algorithm, is a frequent problem in data clustering, and is a distinct issue from the process of actually solving the clustering problem. For a certain class of clustering algorithms (in particular k-means, k-medoids and expectation–maximization algorithm), there is a parameter commonly referred to as k that specifies the number of clusters to detect.
Clustering high-dimensional dataClustering high-dimensional data is the cluster analysis of data with anywhere from a few dozen to many thousands of dimensions. Such high-dimensional spaces of data are often encountered in areas such as medicine, where DNA microarray technology can produce many measurements at once, and the clustering of text documents, where, if a word-frequency vector is used, the number of dimensions equals the size of the vocabulary.