vignette|Représentation de la distance en variation totale (en gris) entre deux fonctions de densité En mathématiques, et plus précisément en théorie des probabilités et en statistique, la notion de distance statistique sert à mesurer l'écart entre deux lois de probabilité. Les distances statistiques sont notamment utilisées en théorie de l'information, en statistique, en apprentissage automatique, et en cryptologie. Lorsqu'aucune précision n'est donnée, la « distance statistique » entre deux lois fait généralement référence à la distance en variation totale. Il existe cependant d'autres notions de distance statistique, plus spécialisées, qui ne sont pas nécessairement équivalentes à la distance en variation totale. Comme il ne s'agit bien souvent pas de distances, au sens des espaces métriques, le terme de divergence est parfois utilisé. Soit P et Q des lois de probabilité, définies sur un espace , avec P absolument continue par rapport à Q. Pour toute fonction convexe f telle que f(1) = 0, on définit la « f-divergence » de P par rapport à Q par :Les choix possibles de la fonction f permettent d'obtenir plusieurs constructions classiques : la distance en variation totale correspond au choix . la divergence de Kullback-Leibler correspond au choix . la distance de Hellinger correspond au choix . Une autre construction est la « α-divergence » qui est plus adaptée aux lois discrètes, et est définie pour tout par Ici encore des choix particuliers de permettent d'obtenir des mesures de distance classiques : la distance de Bhattacharyya correspond (à un facteur multiplicatif près) au choix . la divergence de Kullback-Leibler correspond au choix . Il existe encore d'autres familles, notamment les β- et γ-divergences et les divergences de Bregman, qui recoupent en partie les deux familles discutées ci-dessus. D'autres distances statistiques n'appartiennent pas aux familles discutées ci-dessus, notamment : la distance de Kolmogorov-Smirnov ; la distance de Wasserstein ; la distance de Lévy-Prokhorov ; la distance de Mahalanobis ; la distance de Łukaszyk-Karmowski; la distance d'Itakura-Saito.

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
Publications associées (35)

A Wasserstein-based measure of conditional dependence

Negar Kiyavash, Seyed Jalal Etesami, Kun Zhang

Measuring conditional dependencies among the variables of a network is of great interest to many disciplines. This paper studies some shortcomings of the existing dependency measures in detecting direct causal influences or their lack of ability for group ...
2022
Afficher plus
Unités associées (1)
Concepts associés (4)
Divergence de Kullback-Leibler
En théorie des probabilités et en théorie de l'information, la divergence de Kullback-Leibler (ou divergence K-L ou encore entropie relative) est une mesure de dissimilarité entre deux distributions de probabilités. Elle doit son nom à Solomon Kullback et Richard Leibler, deux cryptanalystes américains. Selon la NSA, c'est durant les années 1950, alors qu'ils travaillaient pour cette agence, que Kullback et Leibler ont inventé cette mesure. Elle aurait d'ailleurs servi à la NSA dans son effort de cryptanalyse pour le projet Venona.
F-divergence
In probability theory, an -divergence is a function that measures the difference between two probability distributions and . Many common divergences, such as KL-divergence, Hellinger distance, and total variation distance, are special cases of -divergence. These divergences were introduced by Alfréd Rényi in the same paper where he introduced the well-known Rényi entropy. He proved that these divergences decrease in Markov processes.
Divergence (statistiques)
En statistiques, une divergence est une fonction ou une fonctionnelle qui mesure la dissimilarité d'une loi de probabilité par rapport à une autre. Selon le contexte, elles peuvent être définies pour des lois, des mesures positives (non-normalisées), des vecteurs (par exemple sur l'espace des paramètres si l'on considère un modèle paramétrique), ou encore des matrices. Les divergences sont analogues à des distances au carré et permettent de généraliser la notion de distance aux variétés statistiques, mais il s'agit d'une notion plus faible dans la mesure où elles ne sont en général pas symétriques et ne vérifient pas l'inégalité triangulaire.
Afficher plus

Graph Chatbot

Chattez avec Graph Search

Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.

AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.