Partitionnement de donnéesvignette|upright=1.2|Exemple de clustering hiérarchique. Le partitionnement de données (ou data clustering en anglais) est une méthode en analyse des données. Elle vise à diviser un ensemble de données en différents « paquets » homogènes, en ce sens que les données de chaque sous-ensemble partagent des caractéristiques communes, qui correspondent le plus souvent à des critères de proximité (similarité informatique) que l'on définit en introduisant des mesures et classes de distance entre objets.
Système dynamique mesuréUn système dynamique mesuré est un objet mathématique, représentant un espace de phases muni d'une loi d'évolution, particulièrement étudié en théorie ergodique. Un système dynamique mesuré est la donnée d'un espace probabilisé et d'une application mesurable f : X → X. On exige que f préserve la mesure, ce qui veut dire que : Cette propriété très riche permet d'obtenir de puissants théorèmes. Par ailleurs, un théorème affirme qu'il existe, pour toute transformation continue X → X d'un espace topologique compact X, une mesure de probabilité, borélienne, préservant cette transformation.
Loi de probabilité à queue lourdevignette|Long tail. Dans la théorie des probabilités, une loi de probabilité à queue lourde est une loi de probabilité dont les queues ne sont pas exponentiellement bornées, ce qui signifie qu'elles ont des queues plus « lourdes » que la loi exponentielle. Dans de nombreuses applications, c'est la queue droite de la distribution qui est intéressante, mais une distribution peut avoir une queue lourde à gauche, ou les deux queues peuvent être lourdes.
Dynamique socialeLa dynamique sociale, renvoie, en sociologie, aux changements ou aux étapes successives dans l'évolution des faits sociaux. Elle permet d'envisager la société sous l'angle de son évolution. Elle complète la notion de statique socialeLa science sociale (1819-1822), introduction UQAC, A. Kremer-Marietti, 4 novembre 2006.. On retrouve le terme en chez Auguste Comte, dans son livre Système de politique positive, ou Traité de sociologie instituant la religion de l'humanité, dont le troisième tome s'appelle De la dynamique sociale.
Classification doubleLa Classification double ou est une technique d'exploration de données non-supervisée permettant de segmenter simultanément les lignes et les colonnes d'une matrice. Plus formellement, la définition de la classification double peut s'exprimer de la manière suivante (pour le type de classification par colonne) : soit une matrice , soient , alors est appelé de lorsque pour tout Le a été utilisé massivement en biologie - par exemple dans l'analyse de l'expression génétique par Yizong Cheng et George M.
Pearson correlation coefficientIn statistics, the Pearson correlation coefficient (PCC) is a correlation coefficient that measures linear correlation between two sets of data. It is the ratio between the covariance of two variables and the product of their standard deviations; thus, it is essentially a normalized measurement of the covariance, such that the result always has a value between −1 and 1. As with covariance itself, the measure can only reflect a linear correlation of variables, and ignores many other types of relationships or correlations.
Télémétrie laser sur satellitesLa télémétrie laser sur satellites (en anglais : Satellite Laser Ranging ou SLR) est un système de mesure de l'orbite des satellites utilisé pour des applications de géodésie, la détermination de la trajectoire de certains satellites et pour l'étude de la tectonique des plaques. Le système utilise un émetteur laser qui envoie des impulsions lumineuses vers le satellite artificiel équipé d'un rétroréflecteur. Le signal réfléchi est détecté par un télescope solidaire de l'émetteur laser.
Determining the number of clusters in a data setDetermining the number of clusters in a data set, a quantity often labelled k as in the k-means algorithm, is a frequent problem in data clustering, and is a distinct issue from the process of actually solving the clustering problem. For a certain class of clustering algorithms (in particular k-means, k-medoids and expectation–maximization algorithm), there is a parameter commonly referred to as k that specifies the number of clusters to detect.
Paysage adaptatifLe paysage adaptatif (ou paysage de fitness, fitness landscape en anglais) est un outil utilisé en biologie évolutive pour visualiser les relations entre des génotypes et le succès reproductif. Le paysage adaptatif est une représentation de la fitness d’organismes, d’espèces ou de populations sous forme d’une carte topographique. Cette fitness, ou valeur sélective, est une mesure relative de la survie et de la reproduction. vignette|Croquis d'un paysage de fitness.
Longue traîneEn statistique, la queue ou traîne d'une loi de probabilité correspond à la portion éloignée de la « tête » ou valeur centrale de la loi. Une loi de probabilité est dite à longue traîne si une plus grande partie de la loi est contenue dans sa traîne par rapport à celle de la loi normale. Une loi à longue traîne est un cas particulier de lois à queue lourde. Benoît Mandelbrot a été surnommé le « père des longues traînes » pour son article de 1951 dans ce domaine.