DonnéeUne donnée est ce qui est connu et qui sert de point de départ à un raisonnement ayant pour objet la détermination d'une solution à un problème en relation avec cette donnée. Cela peut être une description élémentaire qui vise à objectiver une réalité, le résultat d'une comparaison entre deux événements du même ordre (mesure) soit en d'autres termes une observation ou une mesure. La donnée brute est dépourvue de tout raisonnement, supposition, constatation, probabilité.
Errors-in-variables modelsIn statistics, errors-in-variables models or measurement error models are regression models that account for measurement errors in the independent variables. In contrast, standard regression models assume that those regressors have been measured exactly, or observed without error; as such, those models account only for errors in the dependent variables, or responses. In the case when some regressors have been measured with errors, estimation based on the standard assumption leads to inconsistent estimates, meaning that the parameter estimates do not tend to the true values even in very large samples.
Latent variable modelA latent variable model is a statistical model that relates a set of observable variables (also called manifest variables or indicators) to a set of latent variables. It is assumed that the responses on the indicators or manifest variables are the result of an individual's position on the latent variable(s), and that the manifest variables have nothing in common after controlling for the latent variable (local independence).
Big dataLe big data ( « grosses données » en anglais), les mégadonnées ou les données massives, désigne les ressources d’informations dont les caractéristiques en termes de volume, de vélocité et de variété imposent l’utilisation de technologies et de méthodes analytiques particulières pour créer de la valeur, et qui dépassent en général les capacités d'une seule et unique machine et nécessitent des traitements parallélisés. L’explosion quantitative (et souvent redondante) des données numériques permet une nouvelle approche pour analyser le monde.
IdentifiantUn identifiant est une sorte de nom qui sert à identifier un objet précis dans un ensemble d'objets ; ou plus largement toute suite de caractères qui joue ce rôle-là. En principe, un identifiant devrait être unique pour chaque objet. En pratique (comme pour les noms de personnes ou de lieux) ce n'est pas toujours le cas, sauf s'il s'agit d'un ensemble d'identifiants défini par une norme technique. Un identifiant de métadonnée est un signe, une étiquette ou un jeton indépendant du langage, qui identifie de manière unique un objet au sein d'un schéma d'identification.
Spurious relationshipIn statistics, a spurious relationship or spurious correlation is a mathematical relationship in which two or more events or variables are associated but not causally related, due to either coincidence or the presence of a certain third, unseen factor (referred to as a "common response variable", "confounding factor", or "lurking variable"). An example of a spurious relationship can be found in the time-series literature, where a spurious regression is a one that provides misleading statistical evidence of a linear relationship between independent non-stationary variables.
Propagation des convictionsLa propagation des convictions (Belief Propagation ou BP en anglais), aussi connu comme la transmission de message somme-produit, est un algorithme à passage de message pour effectuer des inférences sur des modèles graphiques, tels que les réseaux Bayésiens et les champs de Markov. Il calcule la distribution marginale de chaque nœud « non-observé » conditionnée sur les nœuds observés.
Modèle d'équations structurellesLa modélisation d'équations structurelles ou la modélisation par équations structurelles ou encore la modélisation par équations structurales (en anglais structural equation modeling ou SEM) désignent un ensemble diversifié de modèles mathématiques, algorithmes informatiques et méthodes statistiques qui font correspondre un réseau de concepts à des données. On parle alors de modèles par équations structurales, ou de modèles en équations structurales ou encore de modèles d’équations structurelles.
Réseau bayésienEn informatique et en statistique, un réseau bayésien est un modèle graphique probabiliste représentant un ensemble de variables aléatoires sous la forme d'un graphe orienté acyclique. Intuitivement, un réseau bayésien est à la fois : un modèle de représentation des connaissances ; une « machine à calculer » des probabilités conditionnelles une base pour des systèmes d'aide à la décision Pour un domaine donné (par exemple médical), on décrit les relations causales entre variables d'intérêt par un graphe.
Fonction gaussiennevignette|Fonction gaussienne pour μ = 0, σ = 1 ; courbe centrée en zéro. Une fonction gaussienne est une fonction en exponentielle de l'opposé du carré de l'abscisse (une fonction en exp(-x)). Elle a une forme caractéristique de courbe en cloche. L'exemple le plus connu est la densité de probabilité de la loi normale où μ est l'espérance mathématique et σ est l'écart type. Les fonctions gaussiennes sont analytiques, de limite nulle en l'infini. La largeur à mi-hauteur H vaut la demi-largeur à mi-hauteur vaut donc environ 1,177·σ.