Partitionnement de donnéesvignette|upright=1.2|Exemple de clustering hiérarchique. Le partitionnement de données (ou data clustering en anglais) est une méthode en analyse des données. Elle vise à diviser un ensemble de données en différents « paquets » homogènes, en ce sens que les données de chaque sous-ensemble partagent des caractéristiques communes, qui correspondent le plus souvent à des critères de proximité (similarité informatique) que l'on définit en introduisant des mesures et classes de distance entre objets.
Sampling errorIn statistics, sampling errors are incurred when the statistical characteristics of a population are estimated from a subset, or sample, of that population. It can produced biased results. Since the sample does not include all members of the population, statistics of the sample (often known as estimators), such as means and quartiles, generally differ from the statistics of the entire population (known as parameters). The difference between the sample statistic and population parameter is considered the sampling error.
Sampling frameIn statistics, a sampling frame is the source material or device from which a sample is drawn. It is a list of all those within a population who can be sampled, and may include individuals, households or institutions. Importance of the sampling frame is stressed by Jessen and Salant and Dillman. In many practical situations the frame is a matter of choice to the survey planner, and sometimes a critical one. [...] Some very worthwhile investigations are not undertaken at all because of the lack of an apparent frame; others, because of faulty frames, have ended in a disaster or in cloud of doubt.
Échantillon biaiséEn statistiques, le mot biais a un sens précis qui n'est pas tout à fait le sens habituel du mot. Un échantillon biaisé est un ensemble d'individus d'une population, censé la représenter, mais dont la sélection des individus a introduit un biais qui ne permet alors plus de conclure directement pour l'ensemble de la population. Un échantillon biaisé n'est donc pas un échantillon de personnes biaisées (bien que ça puisse être le cas) mais avant tout un échantillon sélectionné de façon biaisée.
Statistique (indicateur)Une statistique est, au premier abord, le résultat d'une suite d'opérations appliquées à un ensemble de nombres appelé échantillon. D'une façon générale, c'est le résultat de l'application d'une méthode statistique à un ensemble de données. Dans le calcul de la moyenne arithmétique, par exemple, l'algorithme consiste à calculer la somme de toutes les valeurs des données et à diviser par le nombre de données. La moyenne est ainsi une statistique.
Regroupement hiérarchiqueDans le domaine de l'analyse et de la classification automatique de données, le regroupement hiérarchique est un partitionnement de données ou clustering, au moyen de diverses méthodes, dites « ascendantes » et « descendantes ». Les méthodes dites « descendantes » partent d’une solution générale vers une autre plus spécifique. Les méthodes de cette catégorie démarrent avec une seule classe contenant la totalité puis se divisent à chaque étape selon un critère jusqu’à l’obtention d’un ensemble de classes différentes.
Sampling (music)In sound and music, sampling is the reuse of a portion (or sample) of a sound recording in another recording. Samples may comprise elements such as rhythm, melody, speech, sound effects or longer portions of music, and may be layered, equalized, sped up or slowed down, repitched, looped, or otherwise manipulated. They are usually integrated using electronic music instruments (samplers) or software such as digital audio workstations. A process similar to sampling originated in the 1940s with musique concrète, experimental music created by splicing and looping tape.
Métagénomiquevignette|300px|À titre d'exemple : Indices comparés de biodiversité pour 19 métagénomes marins échantillonnés par l'expédition , tels qu'analysés avec GenGIS. La métagénomique ou génomique environnementale est une méthode d'étude du contenu génétique d'échantillons issus d'environnements complexes (ex : intestin, océan, sols, air, etc.) prélevés dans la nature (par opposition à des échantillons cultivés en laboratoire).
Robustesse (statistiques)En statistiques, la robustesse d'un estimateur est sa capacité à ne pas être perturbé par une modification dans une petite partie des données ou dans les paramètres du modèle choisi pour l'estimation. Ricardo A. Maronna, R. Douglas Martin et Victor J. Yohai; Robust Statistics - Theory and Methods, Wiley Series in Probability and Statistics (2006). Dagnelie P.; Statistique théorique et appliquée. Tome 2 : Inférence statistique à une et à deux dimensions, Paris et Bruxelles (2006), De Boeck et Larcier.
Sampling distributionIn statistics, a sampling distribution or finite-sample distribution is the probability distribution of a given random-sample-based statistic. If an arbitrarily large number of samples, each involving multiple observations (data points), were separately used in order to compute one value of a statistic (such as, for example, the sample mean or sample variance) for each sample, then the sampling distribution is the probability distribution of the values that the statistic takes on.