Longueur de description minimaleLa longueur de description minimale ou LDM (MDL pour Minimum Description Length en anglais) est un concept inventé par Jorma Rissanen en 1978 et utilisé en théorie de l'information et en compression de données. Le principe est basé sur l'affirmation suivante : toute régularité dans un ensemble de données peut être utilisée afin de compresser l'information, c'est-à-dire l'exprimer à l'aide d'un nombre réduit de symboles. Théorie de l'information Jorma Rissanen, « Modeling by shortest data description », Automatica, vol 14, No 5, pp.
Loi de BernoulliEn mathématiques et plus précisément en théorie des probabilités, la loi de Bernoulli, du nom du mathématicien suisse Jacques Bernoulli, désigne la loi de probabilité d'une variable aléatoire discrète qui prend la valeur 1 avec la probabilité p et 0 avec la probabilité q = 1 – p. gauche|vignette Par exemple, dans pile ou face, le lancer d'une pièce de monnaie bien équilibrée tombe sur pile avec une probabilité 1/2 et sur face avec une probabilité 1/2.
Probabilité algorithmiqueEn théorie algorithmique de l'information, la probabilité algorithmique, aussi connue comme probabilité de Solomonoff, est une méthode permettant d’assigner une probabilité à une observation donnée. Il a été inventé par Ray Solomonoff dans les années 1960. Elle est utilisée dans la théorie de l'inférence inductive et dans l'analyse des algorithmes. En particulier, dans sa thèorie de l'induction, Solomonoff utilise une telle formulation pour exprimer la probabilité a priori dans la formule de Bayes.
Information de FisherEn statistique, l'information de Fisher quantifie l'information relative à un paramètre contenue dans une distribution. Elle est définie comme l'espérance de l'information observée, ou encore comme la variance de la fonction de score. Dans le cas multi-paramétrique, on parle de matrice d'information de Fisher. Elle a été introduite par R.A. Fisher. Soit f(x ; θ) la distribution de vraisemblance d'une variable aléatoire X (qui peut être multidimensionnelle), paramétrée par θ.
Inférence bayésiennevignette|Illustration comparant les approches fréquentiste et bayésienne (Christophe Michel, 2018). L’inférence bayésienne est une méthode d'inférence statistique par laquelle on calcule les probabilités de diverses causes hypothétiques à partir de l'observation d'événements connus. Elle s'appuie principalement sur le théorème de Bayes. Le raisonnement bayésien construit, à partir d'observations, une probabilité de la cause d'un type d'événements.
Entropie croiséeEn théorie de l'information, l'entropie croisée entre deux lois de probabilité mesure le nombre de bits moyen nécessaires pour identifier un événement issu de l'« ensemble des événements » - encore appelé tribu en mathématiques - sur l'univers , si la distribution des événements est basée sur une loi de probabilité , relativement à une distribution de référence . L'entropie croisée pour deux distributions et sur le même espace probabilisé est définie de la façon suivante : où est l'entropie de , et est la divergence de Kullback-Leibler entre et .
Admissible decision ruleIn statistical decision theory, an admissible decision rule is a rule for making a decision such that there is no other rule that is always "better" than it (or at least sometimes better and never worse), in the precise sense of "better" defined below. This concept is analogous to Pareto efficiency. Define sets , and , where are the states of nature, the possible observations, and the actions that may be taken. An observation of is distributed as and therefore provides evidence about the state of nature .
Hartley (unit)The hartley (symbol Hart), also called a ban, or a dit (short for decimal digit), is a logarithmic unit that measures information or entropy, based on base 10 logarithms and powers of 10. One hartley is the information content of an event if the probability of that event occurring is . It is therefore equal to the information contained in one decimal digit (or dit), assuming a priori equiprobability of each possible value. It is named after Ralph Hartley.
Conjugate priorIn Bayesian probability theory, if the posterior distribution is in the same probability distribution family as the prior probability distribution , the prior and posterior are then called conjugate distributions, and the prior is called a conjugate prior for the likelihood function . A conjugate prior is an algebraic convenience, giving a closed-form expression for the posterior; otherwise, numerical integration may be necessary. Further, conjugate priors may give intuition by more transparently showing how a likelihood function updates a prior distribution.
Méthode de Monte-Carlo par chaînes de MarkovLes méthodes de Monte-Carlo par chaînes de Markov, ou méthodes MCMC pour Markov chain Monte Carlo en anglais, sont une classe de méthodes d'échantillonnage à partir de distributions de probabilité. Ces méthodes de Monte-Carlo se basent sur le parcours de chaînes de Markov qui ont pour lois stationnaires les distributions à échantillonner. Certaines méthodes utilisent des marches aléatoires sur les chaînes de Markov (algorithme de Metropolis-Hastings, échantillonnage de Gibbs), alors que d'autres algorithmes, plus complexes, introduisent des contraintes sur les parcours pour essayer d'accélérer la convergence (Monte Carlo Hybride, Surrelaxation successive).