Êtes-vous un étudiant de l'EPFL à la recherche d'un projet de semestre?
Travaillez avec nous sur des projets en science des données et en visualisation, et déployez votre projet sous forme d'application sur Graph Search.
vignette|Représentation de la distance en variation totale (en gris) entre deux fonctions de densité En mathématiques, et plus précisément en théorie des probabilités et en statistique, la notion de distance statistique sert à mesurer l'écart entre deux lois de probabilité. Les distances statistiques sont notamment utilisées en théorie de l'information, en statistique, en apprentissage automatique, et en cryptologie. Lorsqu'aucune précision n'est donnée, la « distance statistique » entre deux lois fait généralement référence à la distance en variation totale. Il existe cependant d'autres notions de distance statistique, plus spécialisées, qui ne sont pas nécessairement équivalentes à la distance en variation totale. Comme il ne s'agit bien souvent pas de distances, au sens des espaces métriques, le terme de divergence est parfois utilisé. Soit P et Q des lois de probabilité, définies sur un espace , avec P absolument continue par rapport à Q. Pour toute fonction convexe f telle que f(1) = 0, on définit la « f-divergence » de P par rapport à Q par :Les choix possibles de la fonction f permettent d'obtenir plusieurs constructions classiques : la distance en variation totale correspond au choix . la divergence de Kullback-Leibler correspond au choix . la distance de Hellinger correspond au choix . Une autre construction est la « α-divergence » qui est plus adaptée aux lois discrètes, et est définie pour tout par Ici encore des choix particuliers de permettent d'obtenir des mesures de distance classiques : la distance de Bhattacharyya correspond (à un facteur multiplicatif près) au choix . la divergence de Kullback-Leibler correspond au choix . Il existe encore d'autres familles, notamment les β- et γ-divergences et les divergences de Bregman, qui recoupent en partie les deux familles discutées ci-dessus. D'autres distances statistiques n'appartiennent pas aux familles discutées ci-dessus, notamment : la distance de Kolmogorov-Smirnov ; la distance de Wasserstein ; la distance de Lévy-Prokhorov ; la distance de Mahalanobis ; la distance de Łukaszyk-Karmowski; la distance d'Itakura-Saito.
Vinitra Swamy, Bahar Radmehr, Mirko Marras, Natasa Krco
Michael Christoph Gastpar, Adrien Vandenbroucque, Amedeo Roberto Esposito
, ,