Résumé
Lindice de Sørensen-Dice, connu aussi sous les noms dindice de Sørensen, coefficient de Dice et d'autres noms encore) est un indicateur statistique qui mesure la similarité de deux échantillons. Il a été développé indépendamment par les botanistes Thorvald Sørensen et Lee Raymond Dice dans des articles publiés en 1948 et 1945 respectivement. L'indice est connu sous divers autres noms : le plus souvent reviennent indice de Sørensen ou coefficient de Dice ; les deux noms se voient aussi avec le qualificatif « coefficient de similarité » ou « indice » ou autres variations, et le nom « Sørensen » est orthographié avec diverses variations, comme « Sorenson », « Soerenson » ou « Sörenson », et dans chaque cas le suffixe peut être remplacé par « –sen ». On trouve également le nom indice binaire de Czekanowski. L'indice mesure la présence ou l’absence d'espèces. On peut étendre l'expression à la mesure de l'abondance au sens écologique du terme. Des versions quantitatives sont connues sous divers noms : Indice quantitatif de Sørensen-Dice, de Sørensen, de Dice, Distance de Bray-Curtis (l'opposée de la dissimilarité de Bray-Curtis), Indice quantitatif de Czekanowski, de Steinhaus, Similarité en pourcentage de Pielou, L'opposée de la distance de Hellinger. Pour des ensembles finis quelconques X et Y, l'indice s'exprime par : Ici, |X| est le nombre d'éléments de X. L'indice peut varier de 0 (quand X et Y sont disjoints) à 1 (quand X et Y sont égaux). Comme pour l'indice de Jaccard, les opérations ensemblistes peuvent être exprimées en termes d'opérations vectorielles sur des vecteurs binaires X et Y : Dans le domaine de la recherche d'informations, le coefficient peut être vu comme le double de l'information partagée, rapportée à la somme des cardinalités. Le coefficient peut aussi être utilisé comme une mesure de similarité entre chaînes de caractères. Étant donnés deux chaînes x et y, on peut calculer le coefficient comme suit : où nt est le nombre de digrammes (formés de deux caractères consécutifs) communs aux deux chaînes, nx est le nombre de digrammes dans x et ny le nombre de digrammes dans y.
À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.