Lindice de Sørensen-Dice, connu aussi sous les noms dindice de Sørensen, coefficient de Dice et d'autres noms encore) est un indicateur statistique qui mesure la similarité de deux échantillons. Il a été développé indépendamment par les botanistes Thorvald Sørensen et Lee Raymond Dice dans des articles publiés en 1948 et 1945 respectivement. L'indice est connu sous divers autres noms : le plus souvent reviennent indice de Sørensen ou coefficient de Dice ; les deux noms se voient aussi avec le qualificatif « coefficient de similarité » ou « indice » ou autres variations, et le nom « Sørensen » est orthographié avec diverses variations, comme « Sorenson », « Soerenson » ou « Sörenson », et dans chaque cas le suffixe peut être remplacé par « –sen ». On trouve également le nom indice binaire de Czekanowski. L'indice mesure la présence ou l’absence d'espèces. On peut étendre l'expression à la mesure de l'abondance au sens écologique du terme. Des versions quantitatives sont connues sous divers noms : Indice quantitatif de Sørensen-Dice, de Sørensen, de Dice, Distance de Bray-Curtis (l'opposée de la dissimilarité de Bray-Curtis), Indice quantitatif de Czekanowski, de Steinhaus, Similarité en pourcentage de Pielou, L'opposée de la distance de Hellinger. Pour des ensembles finis quelconques X et Y, l'indice s'exprime par : Ici, |X| est le nombre d'éléments de X. L'indice peut varier de 0 (quand X et Y sont disjoints) à 1 (quand X et Y sont égaux). Comme pour l'indice de Jaccard, les opérations ensemblistes peuvent être exprimées en termes d'opérations vectorielles sur des vecteurs binaires X et Y : Dans le domaine de la recherche d'informations, le coefficient peut être vu comme le double de l'information partagée, rapportée à la somme des cardinalités. Le coefficient peut aussi être utilisé comme une mesure de similarité entre chaînes de caractères. Étant donnés deux chaînes x et y, on peut calculer le coefficient comme suit : où nt est le nombre de digrammes (formés de deux caractères consécutifs) communs aux deux chaînes, nx est le nombre de digrammes dans x et ny le nombre de digrammes dans y.

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
Cours associés (1)
CS-422: Database systems
This course is intended for students who want to understand modern large-scale data analysis systems and database systems. It covers a wide range of topics and technologies, and will prepare students
Concepts associés (1)
Indice et distance de Jaccard
L'indice et la distance de Jaccard sont deux métriques utilisées en statistiques pour comparer la similarité et la entre des échantillons. Elles sont nommées d'après le botaniste suisse Paul Jaccard. L'indice de Jaccard (ou coefficient de Jaccard, appelé « coefficient de communauté » dans la publication d'origine) est le rapport entre le cardinal (la taille) de l'intersection des ensembles considérés et le cardinal de l'union des ensembles. Il permet d'évaluer la similarité entre les ensembles.