Single-linkage clusteringIn statistics, single-linkage clustering is one of several methods of hierarchical clustering. It is based on grouping clusters in bottom-up fashion (agglomerative clustering), at each step combining two clusters that contain the closest pair of elements not yet belonging to the same cluster as each other. This method tends to produce long thin clusters in which nearby elements of the same cluster have small distances, but elements at opposite ends of a cluster may be much farther from each other than two elements of other clusters.
Biosynthèse des protéinesvignette|Traduction de l'ARN messager en protéine par un ribosome. vignette|Structure générale d'un ARN de transfert. L'anticodon est en rouge. vignette|Appariement de l'anticodon d'ARNt d'alanine sur son codon d'ARNm. La biosynthèse des protéines est l'ensemble des processus biochimiques permettant aux cellules de produire leurs protéines à partir de leurs gènes afin de compenser les pertes en protéines par sécrétion ou par dégradation.
Domaine protéiqueredresse=1.15|vignette|Exemples de structures de protéines organisées en domaines distincts. Le domaine de couleur brique, appelé domaine PH, est commun aux deux protéines,. Sa fonction est de fixer le phosphatidylinositol-3,4,5-trisphosphate (PIP3) Un domaine protéique est une partie d'une protéine capable d'adopter une structure de manière autonome ou partiellement autonome du reste de la molécule. C'est un élément modulaire de la structure des protéines qui peuvent ainsi être composées de l'assemblage de plusieurs de ces domaines.
Sous-unité protéiqueUne sous-unité protéique est une chaîne polypeptidique qui entre dans la constitution d'un complexe protéique par auto-assemblage. De nombreuses protéines sont constituées de plus d'un seul peptide : les protéines oligomériques sont formées de quelques chaînes polypeptidiques, par exemple l'hémoglobine et l'ADN polymérase ; d'autres peuvent en contenir un très grand nombre et sont dites multimériques, par exemple les microtubules et les protéines constitutives du cytosquelette.
Correlation clusteringClustering is the problem of partitioning data points into groups based on their similarity. Correlation clustering provides a method for clustering a set of objects into the optimum number of clusters without specifying that number in advance. Cluster analysis In machine learning, correlation clustering or cluster editing operates in a scenario where the relationships between the objects are known instead of the actual representations of the objects.
Clustering high-dimensional dataClustering high-dimensional data is the cluster analysis of data with anywhere from a few dozen to many thousands of dimensions. Such high-dimensional spaces of data are often encountered in areas such as medicine, where DNA microarray technology can produce many measurements at once, and the clustering of text documents, where, if a word-frequency vector is used, the number of dimensions equals the size of the vocabulary.
Analyse des donnéesL’analyse des données (aussi appelée analyse exploratoire des données ou AED) est une famille de méthodes statistiques dont les principales caractéristiques sont d'être multidimensionnelles et descriptives. Dans l'acception française, la terminologie « analyse des données » désigne donc un sous-ensemble de ce qui est appelé plus généralement la statistique multivariée. Certaines méthodes, pour la plupart géométriques, aident à faire ressortir les relations pouvant exister entre les différentes données et à en tirer une information statistique qui permet de décrire de façon plus succincte les principales informations contenues dans ces données.
Big dataLe big data ( « grosses données » en anglais), les mégadonnées ou les données massives, désigne les ressources d’informations dont les caractéristiques en termes de volume, de vélocité et de variété imposent l’utilisation de technologies et de méthodes analytiques particulières pour créer de la valeur, et qui dépassent en général les capacités d'une seule et unique machine et nécessitent des traitements parallélisés. L’explosion quantitative (et souvent redondante) des données numériques permet une nouvelle approche pour analyser le monde.
Segment (mathématiques)vignette|Le segment . En géométrie, un segment de droite (souvent abrégé en « segment ») est une portion de droite délimitée par deux points, appelés extrémités du segment. Un segment reliant deux points et est noté ou et représente la partie de la droite qui se situe « entre » les points et . Intuitivement, un segment correspond à un fil tendu entre deux points, en négligeant l’épaisseur du fil et la déformation due à son poids.
DBSCANDBSCAN (density-based spatial clustering of applications with noise) est un algorithme de partitionnement de données proposé en 1996 par Martin Ester, Hans-Peter Kriegel, Jörg Sander et Xiaowei Xu. Il s'agit d'un algorithme fondé sur la densité dans la mesure qui s’appuie sur la densité estimée des clusters pour effectuer le partitionnement. thumb|400px|Les points A sont les points déjà dans le cluster. Les points B et C sont atteignables depuis A et appartiennent donc au même cluster.