Entropie conjointevignette|Entropie conjointe. En théorie de l'information, l'entropie conjointe est une mesure d'entropie utilisée en théorie de l'information, qui mesure la quantité d'information contenue dans un système de deux variables aléatoires (ou plus de deux). Comme les autres entropies, l'entropie conjointe est mesurée en bits ou en nats, selon la base du logarithme utilisée. Si chaque paire d'états possibles des variables aléatoires ont une probabilité alors l'entropie conjointe de et est définie par : où est la fonction logarithme en base 2.
Divergence de Kullback-LeiblerEn théorie des probabilités et en théorie de l'information, la divergence de Kullback-Leibler (ou divergence K-L ou encore entropie relative) est une mesure de dissimilarité entre deux distributions de probabilités. Elle doit son nom à Solomon Kullback et Richard Leibler, deux cryptanalystes américains. Selon la NSA, c'est durant les années 1950, alors qu'ils travaillaient pour cette agence, que Kullback et Leibler ont inventé cette mesure. Elle aurait d'ailleurs servi à la NSA dans son effort de cryptanalyse pour le projet Venona.
Redondance (théorie de l'information)En théorie de l’information, la redondance correspond au nombre de bits nécessaires pour transmettre un message auquel on soustrait le nombre de bits correspondant aux informations réellement contenues dans ce même message. Officieusement, la redondance correspond à l’« espace » utilisé mais non occupé pour transmettre certaines données. La compression de données permet de réduire ou d’éliminer la redondance que l’utilisateur ne désire pas conserver, alors que les sommes de contrôle permettent d’ajouter une redondance souhaitée pour les besoins du code correcteur lorsque l’utilisateur communique sur un canal bruyant à capacité limitée.
Information contentIn information theory, the information content, self-information, surprisal, or Shannon information is a basic quantity derived from the probability of a particular event occurring from a random variable. It can be thought of as an alternative way of expressing probability, much like odds or log-odds, but which has particular mathematical advantages in the setting of information theory. The Shannon information can be interpreted as quantifying the level of "surprise" of a particular outcome.
CovarianceEn théorie des probabilités et en statistique, la covariance entre deux variables aléatoires est un nombre permettant de quantifier leurs écarts conjoints par rapport à leurs espérances respectives. Elle s’utilise également pour deux séries de données numériques (écarts par rapport aux moyennes). La covariance de deux variables aléatoires indépendantes est nulle, bien que la réciproque ne soit pas toujours vraie. La covariance est une extension de la notion de variance.
Série temporellethumb|Exemple de visualisation de données montrant une tendances à moyen et long terme au réchauffement, à partir des séries temporelles de températures par pays (ici regroupés par continents, du nord au sud) pour les années 1901 à 2018. Une série temporelle, ou série chronologique, est une suite de valeurs numériques représentant l'évolution d'une quantité spécifique au cours du temps. De telles suites de variables aléatoires peuvent être exprimées mathématiquement afin d'en analyser le comportement, généralement pour comprendre son évolution passée et pour en prévoir le comportement futur.
Sélection de caractéristiqueLa sélection de caractéristique (ou sélection d'attribut ou de variable) est un processus utilisé en apprentissage automatique et en traitement de données. Il consiste, étant donné des données dans un espace de grande dimension, à trouver un sous-sensemble de variables pertinentes. C'est-à-dire que l'on cherche à minimiser la perte d'information venant de la suppression de toutes les autres variables. C'est une méthode de réduction de la dimensionnalité. Extraction de caractéristique Catégorie:Apprentissage
Corrélation (statistiques)En probabilités et en statistique, la corrélation entre plusieurs variables aléatoires ou statistiques est une notion de liaison qui contredit leur indépendance. Cette corrélation est très souvent réduite à la corrélation linéaire entre variables quantitatives, c’est-à-dire l’ajustement d’une variable par rapport à l’autre par une relation affine obtenue par régression linéaire. Pour cela, on calcule un coefficient de corrélation linéaire, quotient de leur covariance par le produit de leurs écarts types.
Unité de mesure en informatiqueLes unités de mesure suivantes sont utilisées en informatique pour quantifier la taille de la mémoire d'un dispositif numérique (ordinateur, Baladeur numérique), l'espace utilisable sur un disque dur, une clé USB, la taille d'un fichier, d'un répertoire ou autre.
Réseau bayésienEn informatique et en statistique, un réseau bayésien est un modèle graphique probabiliste représentant un ensemble de variables aléatoires sous la forme d'un graphe orienté acyclique. Intuitivement, un réseau bayésien est à la fois : un modèle de représentation des connaissances ; une « machine à calculer » des probabilités conditionnelles une base pour des systèmes d'aide à la décision Pour un domaine donné (par exemple médical), on décrit les relations causales entre variables d'intérêt par un graphe.