Partitionnement de donnéesvignette|upright=1.2|Exemple de clustering hiérarchique. Le partitionnement de données (ou data clustering en anglais) est une méthode en analyse des données. Elle vise à diviser un ensemble de données en différents « paquets » homogènes, en ce sens que les données de chaque sous-ensemble partagent des caractéristiques communes, qui correspondent le plus souvent à des critères de proximité (similarité informatique) que l'on définit en introduisant des mesures et classes de distance entre objets.
K-moyennesLe partitionnement en k-moyennes (ou k-means en anglais) est une méthode de partitionnement de données et un problème d'optimisation combinatoire. Étant donnés des points et un entier k, le problème est de diviser les points en k groupes, souvent appelés clusters, de façon à minimiser une certaine fonction. On considère la distance d'un point à la moyenne des points de son cluster ; la fonction à minimiser est la somme des carrés de ces distances.
Regroupement hiérarchiqueDans le domaine de l'analyse et de la classification automatique de données, le regroupement hiérarchique est un partitionnement de données ou clustering, au moyen de diverses méthodes, dites « ascendantes » et « descendantes ». Les méthodes dites « descendantes » partent d’une solution générale vers une autre plus spécifique. Les méthodes de cette catégorie démarrent avec une seule classe contenant la totalité puis se divisent à chaque étape selon un critère jusqu’à l’obtention d’un ensemble de classes différentes.
Single-linkage clusteringIn statistics, single-linkage clustering is one of several methods of hierarchical clustering. It is based on grouping clusters in bottom-up fashion (agglomerative clustering), at each step combining two clusters that contain the closest pair of elements not yet belonging to the same cluster as each other. This method tends to produce long thin clusters in which nearby elements of the same cluster have small distances, but elements at opposite ends of a cluster may be much farther from each other than two elements of other clusters.
Espace de SobolevEn analyse mathématique, les espaces de Sobolev sont des espaces fonctionnels particulièrement adaptés à la résolution des problèmes d'équation aux dérivées partielles. Ils doivent leur nom au mathématicien russe Sergueï Lvovitch Sobolev. Plus précisément, un espace de Sobolev est un espace vectoriel de fonctions muni de la norme obtenue par la combinaison de la norme L de la fonction elle-même et de ses dérivées jusqu'à un certain ordre. Les dérivées sont comprises dans un sens faible, au sens des distributions afin de rendre l'espace complet.
Correlation clusteringClustering is the problem of partitioning data points into groups based on their similarity. Correlation clustering provides a method for clustering a set of objects into the optimum number of clusters without specifying that number in advance. Cluster analysis In machine learning, correlation clustering or cluster editing operates in a scenario where the relationships between the objects are known instead of the actual representations of the objects.
Clustering high-dimensional dataClustering high-dimensional data is the cluster analysis of data with anywhere from a few dozen to many thousands of dimensions. Such high-dimensional spaces of data are often encountered in areas such as medicine, where DNA microarray technology can produce many measurements at once, and the clustering of text documents, where, if a word-frequency vector is used, the number of dimensions equals the size of the vocabulary.
Espace de Hilbertvignette|Une photographie de David Hilbert (1862 - 1943) qui a donné son nom aux espaces dont il est question dans cet article. En mathématiques, un espace de Hilbert est un espace vectoriel réel (resp. complexe) muni d'un produit scalaire euclidien (resp. hermitien), qui permet de mesurer des longueurs et des angles et de définir une orthogonalité. De plus, un espace de Hilbert est complet, ce qui permet d'y appliquer des techniques d'analyse. Ces espaces doivent leur nom au mathématicien allemand David Hilbert.
Classification doubleLa Classification double ou est une technique d'exploration de données non-supervisée permettant de segmenter simultanément les lignes et les colonnes d'une matrice. Plus formellement, la définition de la classification double peut s'exprimer de la manière suivante (pour le type de classification par colonne) : soit une matrice , soient , alors est appelé de lorsque pour tout Le a été utilisé massivement en biologie - par exemple dans l'analyse de l'expression génétique par Yizong Cheng et George M.
Trois dimensionsTrois dimensions, tridimensionnel ou 3D sont des expressions qui caractérisent l'espace qui nous entoure, tel que perçu par notre vision, en ce qui concerne la largeur, la hauteur et la profondeur. Le terme « 3D » est également (et improprement) utilisé (surtout en anglais) pour désigner la représentation en (numérique), le relief des images stéréoscopiques ou autres , et même parfois le simple effet stéréophonique, qui ne peut par construction rendre que de la 2D (il ne s'agit donc que du calcul des projections perspectives, des ombrages, des rendus de matières).