Êtes-vous un étudiant de l'EPFL à la recherche d'un projet de semestre?
Travaillez avec nous sur des projets en science des données et en visualisation, et déployez votre projet sous forme d'application sur Graph Search.
Lindice de Sørensen-Dice, connu aussi sous les noms dindice de Sørensen, coefficient de Dice et d'autres noms encore) est un indicateur statistique qui mesure la similarité de deux échantillons. Il a été développé indépendamment par les botanistes Thorvald Sørensen et Lee Raymond Dice dans des articles publiés en 1948 et 1945 respectivement. L'indice est connu sous divers autres noms : le plus souvent reviennent indice de Sørensen ou coefficient de Dice ; les deux noms se voient aussi avec le qualificatif « coefficient de similarité » ou « indice » ou autres variations, et le nom « Sørensen » est orthographié avec diverses variations, comme « Sorenson », « Soerenson » ou « Sörenson », et dans chaque cas le suffixe peut être remplacé par « –sen ». On trouve également le nom indice binaire de Czekanowski. L'indice mesure la présence ou l’absence d'espèces. On peut étendre l'expression à la mesure de l'abondance au sens écologique du terme. Des versions quantitatives sont connues sous divers noms : Indice quantitatif de Sørensen-Dice, de Sørensen, de Dice, Distance de Bray-Curtis (l'opposée de la dissimilarité de Bray-Curtis), Indice quantitatif de Czekanowski, de Steinhaus, Similarité en pourcentage de Pielou, L'opposée de la distance de Hellinger. Pour des ensembles finis quelconques X et Y, l'indice s'exprime par : Ici, |X| est le nombre d'éléments de X. L'indice peut varier de 0 (quand X et Y sont disjoints) à 1 (quand X et Y sont égaux). Comme pour l'indice de Jaccard, les opérations ensemblistes peuvent être exprimées en termes d'opérations vectorielles sur des vecteurs binaires X et Y : Dans le domaine de la recherche d'informations, le coefficient peut être vu comme le double de l'information partagée, rapportée à la somme des cardinalités. Le coefficient peut aussi être utilisé comme une mesure de similarité entre chaînes de caractères. Étant donnés deux chaînes x et y, on peut calculer le coefficient comme suit : où nt est le nombre de digrammes (formés de deux caractères consécutifs) communs aux deux chaînes, nx est le nombre de digrammes dans x et ny le nombre de digrammes dans y.
Tobias Kober, Tom Hilbert, Gian Franco Piredda
, , , , ,
Hubert Girault, Horst Pick, Natalia Gasilova, Andreas Stephan Lesch, Milica Jovic, Tzu-En Lin, Yingdi Zhu