Covariance matrixIn probability theory and statistics, a covariance matrix (also known as auto-covariance matrix, dispersion matrix, variance matrix, or variance–covariance matrix) is a square matrix giving the covariance between each pair of elements of a given random vector. Any covariance matrix is symmetric and positive semi-definite and its main diagonal contains variances (i.e., the covariance of each element with itself). Intuitively, the covariance matrix generalizes the notion of variance to multiple dimensions.
Universvignette|redresse=1.8|Représentation à l'échelle logarithmique de l'Univers observable. Au centre figure le Système solaire et, à mesure qu'on s'en éloigne, les étoiles proches, le bras de Persée, la Voie lactée, les galaxies proches, le réseau des structures à grande échelle, le fond diffus cosmologique et, à la périphérie, le plasma invisible du Big Bang. L'Univers, au sens cosmologique, est l'ensemble de tout ce qui existe, décrit à partir d'observations scientifiques et régi par des lois physiques.
Partitionnement de donnéesvignette|upright=1.2|Exemple de clustering hiérarchique. Le partitionnement de données (ou data clustering en anglais) est une méthode en analyse des données. Elle vise à diviser un ensemble de données en différents « paquets » homogènes, en ce sens que les données de chaque sous-ensemble partagent des caractéristiques communes, qui correspondent le plus souvent à des critères de proximité (similarité informatique) que l'on définit en introduisant des mesures et classes de distance entre objets.
Galaxy ZooGalaxy Zoo est un projet astronomique en ligne qui propose aux internautes de collaborer au projet de classifier plus d'un million de galaxies. Les internautes bénévoles doivent travailler sur des images prises par le programme Sloan Digital Sky Survey et décider si les galaxies sont elliptiques ou spirales et signaler si elles possèdent des particularités comme avoir des spirales en forme de barre ou bien avoir subi des transformations. Le but de ce recensement est de valider les différents modèles galactiques proposés par les scientifiques.
Fond diffus cosmologiqueLe fond diffus cosmologique (FDC, ou CMB pour l'anglais cosmic microwave background, « fond cosmique de micro-ondes ») est un rayonnement électromagnétique très homogène observé dans toutes les directions du ciel et dont le pic d'émission est situé dans le domaine des micro-ondes. On le qualifie de diffus parce qu'il ne provient pas d'une ou plusieurs sources localisées, et de cosmologique parce que, selon l'interprétation qu'on en fait, il est présent dans tout l'Univers (le cosmos).
Relevé du décalage vers le rougedroite|vignette|300x300px|Le rendu des données du relevé 2dFGRS En astronomie, un relevé du décalage vers le rouge (en anglais redshift survey) est un relevé astronomique d'une section du ciel pour mesurer le décalage vers le rouge (redshift) des objets célestes. Il s'agit habituellement de galaxies, mais parfois aussi d'autres objets tels que les amas de galaxies ou les quasars. À l'aide de la loi de Hubble, le décalage vers le rouge peut être utilisé pour estimer la distance entre un objet et la Terre.
Sample mean and covarianceThe sample mean (sample average) or empirical mean (empirical average), and the sample covariance or empirical covariance are statistics computed from a sample of data on one or more random variables. The sample mean is the average value (or mean value) of a sample of numbers taken from a larger population of numbers, where "population" indicates not number of people but the entirety of relevant data, whether collected or not. A sample of 40 companies' sales from the Fortune 500 might be used for convenience instead of looking at the population, all 500 companies' sales.
Galaxievignette|redresse=1.5|M51, la Galaxie du Tourbillon, un exemple typique de galaxie spirale. Une galaxie est une structure cosmique formée par le rassemblement d'étoiles et de leurs planètes éventuelles, de gaz, de poussière interstellaire, peut-être essentiellement de matière noire, et contenant souvent un trou noir supermassif en son centre. Les galaxies peuvent elles-mêmes se rassembler en groupes de galaxies, eux-mêmes pouvant se structurer en amas et superamas de galaxies.
Estimation of covariance matricesIn statistics, sometimes the covariance matrix of a multivariate random variable is not known but has to be estimated. Estimation of covariance matrices then deals with the question of how to approximate the actual covariance matrix on the basis of a sample from the multivariate distribution. Simple cases, where observations are complete, can be dealt with by using the sample covariance matrix.
K-moyennesLe partitionnement en k-moyennes (ou k-means en anglais) est une méthode de partitionnement de données et un problème d'optimisation combinatoire. Étant donnés des points et un entier k, le problème est de diviser les points en k groupes, souvent appelés clusters, de façon à minimiser une certaine fonction. On considère la distance d'un point à la moyenne des points de son cluster ; la fonction à minimiser est la somme des carrés de ces distances.