Résumé
L'indice et la distance de Jaccard sont deux métriques utilisées en statistiques pour comparer la similarité et la entre des échantillons. Elles sont nommées d'après le botaniste suisse Paul Jaccard. L'indice de Jaccard (ou coefficient de Jaccard, appelé « coefficient de communauté » dans la publication d'origine) est le rapport entre le cardinal (la taille) de l'intersection des ensembles considérés et le cardinal de l'union des ensembles. Il permet d'évaluer la similarité entre les ensembles. Soit deux ensembles et , l'indice est : L'extension à ensembles est triviale : La distance de Jaccard mesure la dissimilarité entre les ensembles. Elle consiste simplement à soustraire l'indice de Jaccard à 1. où est la différence symétrique. De la même manière que pour l'indice, la généralisation devient : L'indice de Jaccard est utile pour étudier la similarité entre des objets constitués d'attributs binaires. Soit deux séquences et , chacune avec attributs binaires. Chaque attribut peut être à 0 ou 1. On a ainsi : On définit plusieurs quantités qui caractérisent les deux ensembles : représente le nombre d'attributs qui valent 1 dans A et 1 dans B ; représente le nombre d'attributs qui valent 0 dans A et 1 dans B ; représente le nombre d'attributs qui valent 1 dans A et 0 dans B ; représente le nombre d'attributs qui valent 0 dans A et 0 dans B. Chaque paire d'attributs doit nécessairement appartenir à l'une des quatre catégories, de telle sorte que : L'indice de Jaccard devient : En utilisant ces deux dernières expressions, on obtient : Il suffit donc de ne calculer que les nombres d'attributs : valant 1 dans tous les ensembles ; valant 0 dans tous les ensembles. La dernière écriture de cette formule, faisant intervenir , est généralisable pour l'étude de similarité de plusieurs ensembles binaires (en calculant et avec autant de 0 et de 1 que d'ensembles). La distance de Jaccard devient : En utilisant l'écriture de la formule faisant intervenir (plus rapide) : Similarité cosinus Distance de Levenshtein Pang-Ning Tan, Michael Steinbach and Vipin Kumar, Introduction to Data Mining, 2005 Tanimoto, T.
À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.