Inégalité de ChernoffEn théorie des probabilités, l'inégalité de Chernoff permet de majorer la queue d'une loi de probabilité, c'est-à-dire qu'elle donne une valeur maximale de la probabilité qu'une variable aléatoire dépasse une valeur fixée. On parle également de borne de Chernoff. Elle est nommée ainsi en l'honneur du mathématicien Herman Chernoff. Elle est comparable à l'inégalité de Markov mais donne une borne exponentielle. Il existe de nombreux énoncés, et de nombreux cas particuliers.
GéostatistiqueLa géostatistique est l'étude des variables régionalisées, à la frontière entre les mathématiques et les sciences de la Terre. Son principal domaine d'utilisation a historiquement été l'estimation des gisements miniers, mais son domaine d'application actuel est beaucoup plus large et tout phénomène spatialisé peut être étudié en utilisant la géostatistique. L'histoire de la géostatistique est liée à l'estimation des gisements exploités dans les mines. Dans les années 1950, un professeur de l'université du Witwatersrand en Afrique du Sud, Danie G.
Robust measures of scaleIn statistics, robust measures of scale are methods that quantify the statistical dispersion in a sample of numerical data while resisting outliers. The most common such robust statistics are the interquartile range (IQR) and the median absolute deviation (MAD). These are contrasted with conventional or non-robust measures of scale, such as sample standard deviation, which are greatly influenced by outliers.
Science des donnéesLa science des données est l'étude de l’extraction automatisée de connaissance à partir de grands ensembles de données. Plus précisément, la science des données est un domaine interdisciplinaire qui utilise des méthodes, des processus, des algorithmes et des systèmes scientifiques pour extraire des connaissances et des idées à partir de nombreuses données structurées ou non . Elle est souvent associée aux données massives et à l'analyse des données.
Traitement de donnéesEn informatique, le terme traitement de données ou traitement électronique des données renvoie à une série de processus qui permettent d'extraire de l'information ou de produire du savoir à partir de données brutes. Ces processus, une fois programmés, sont le plus souvent automatisés à l'aide d'ordinateurs. Si les résultats finaux produits par ces processus sont destinés à des humains, leur présentation est souvent essentielle pour en apprécier la valeur. Cette appréciation est cependant variable selon les personnes.
Modèle de donnéesEn informatique, un modèle de données est un modèle qui décrit la manière dont sont représentées les données dans une organisation métier, un système d'information ou une base de données. Le terme modèle de données peut avoir deux significations : Un modèle de données théorique, c'est-à-dire une description formelle ou un modèle mathématique. Voir aussi modèle de base de données Un modèle de données instance, c'est-à-dire qui applique un modèle de données théorique (modélisation des données) pour créer un modèle de données instance.
Boundary problem (spatial analysis)A boundary problem in analysis is a phenomenon in which geographical patterns are differentiated by the shape and arrangement of boundaries that are drawn for administrative or measurement purposes. The boundary problem occurs because of the loss of neighbors in analyses that depend on the values of the neighbors. While geographic phenomena are measured and analyzed within a specific unit, identical spatial data can appear either dispersed or clustered depending on the boundary placed around the data.
Efficacité (statistiques)En statistique, lefficacité est une mesure de la qualité d'un estimateur, d'une expérimentation ou d'un test statistique. Elle permet d'évaluer le nombre d'observations nécessaires pour atteindre un seuil : plus un estimateur est efficace, plus l'échantillon d'observations nécessaire pour atteindre un objectif de précision sera petit. Lefficacité relative de deux procédures est le rapport de leurs efficacités, bien que le concept soit plus utilisé pour le rapport de l'efficacité d'une procédure donnée et d'une procédure théorique optimale.
Robust regressionIn robust statistics, robust regression seeks to overcome some limitations of traditional regression analysis. A regression analysis models the relationship between one or more independent variables and a dependent variable. Standard types of regression, such as ordinary least squares, have favourable properties if their underlying assumptions are true, but can give misleading results otherwise (i.e. are not robust to assumption violations).
Visualisation de donnéesvignette|upright=2|Carte figurative des pertes successives en hommes de l'armée française dans la campagne de Russie 1812-1813, par Charles Minard, 1869. La visualisation des données (ou dataviz ou représentation graphique de données) est un ensemble de méthodes permettant de résumer de manière graphique des données statistiques qualitatives et surtout quantitatives afin de montrer les liens entre des ensembles de ces données. Cette fait partie de la science des données.