In statistics, additive smoothing, also called Laplace smoothing or Lidstone smoothing, is a technique used to smooth categorical data. Given a set of observation counts from a -dimensional multinomial distribution with trials, a "smoothed" version of the counts gives the estimator: where the smoothed count and the "pseudocount" α > 0 is a smoothing parameter. α = 0 corresponds to no smoothing. (This parameter is explained in below.) Additive smoothing is a type of shrinkage estimator, as the resulting estimate will be between the empirical probability (relative frequency) , and the uniform probability . Invoking Laplace's rule of succession, some authors have argued that α should be 1 (in which case the term add-one smoothing is also used), though in practice a smaller value is typically chosen. From a Bayesian point of view, this corresponds to the expected value of the posterior distribution, using a symmetric Dirichlet distribution with parameter α as a prior distribution. In the special case where the number of categories is 2, this is equivalent to using a beta distribution as the conjugate prior for the parameters of the binomial distribution. Laplace came up with this smoothing technique when he tried to estimate the chance that the sun will rise tomorrow. His rationale was that even given a large sample of days with the rising sun, we still can not be completely sure that the sun will still rise tomorrow (known as the sunrise problem). A pseudocount is an amount (not generally an integer, despite its name) added to the number of observed cases in order to change the expected probability in a model of those data, when not known to be zero. It is so named because, roughly speaking, a pseudo-count of value weighs into the posterior distribution similarly to each category having an additional count of . If the frequency of each item is out of samples, the empirical probability of event is but the posterior probability when additively smoothed is as if to increase each count by a priori.

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
Publications associées (13)
Concepts associés (2)
Estimateur de Laplace–Bayes
En théorie des probabilités et en statistiques, l'estimateur de Laplace–Bayes (ou règle de succession de Laplace) est une formule permettant de donner une approximation du terme a posteriori de la formule de Bayes. Elle a été introduite au siècle pour répondre au problème : quelle la probabilité que le Soleil se lève demain ? Soit des variables aléatoires indépendantes à valeur binaire (0 ou 1). On suppose qu'elles suivent toutes une distribution de Bernouilli de même paramètre p.
Loi bêta
Dans la théorie des probabilités et en statistiques, la loi bêta est une famille de lois de probabilités continues, définies sur , paramétrée par deux paramètres de forme, typiquement notés (alpha) et (bêta). C'est un cas spécial de la loi de Dirichlet, avec seulement deux paramètres. Admettant une grande variété de formes, elle permet de modéliser de nombreuses distributions à support fini. Elle est par exemple utilisée dans la méthode PERT. Fixons les deux paramètres de forme α, β > 0.

Graph Chatbot

Chattez avec Graph Search

Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.

AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.