Concept

Partitionnement de données diffus

Le partitionnement diffus ou souple (en anglais, fuzzy clustering) est une forme de partitionnement de données dans laquelle chaque observation peut appartenir à plusieurs groupes (ou clusters). Le partitionnement de données implique d'assigner des observations à des groupes de telle sorte que les éléments d'un même groupe soient aussi similaires que possible, tandis que les éléments appartenant à différents groupes sont aussi dissemblables que possible. Ces groupes, ou clusters, sont identifiés par des mesures de similarité, telles qu'une distance, connectivité ou intensité. Différentes mesures de similarité peuvent être choisies en fonction des données ou de l'application. Dans le partitionnement non-diffus (également appelé partitionnement fort), les données sont divisées en groupes distincts, où chaque observation ne peut appartenir qu'à un seul groupe. Dans le partitionnement diffus, les observations peuvent appartenir à plusieurs groupes. Par exemple, dans le partitionnement fort, une pomme peut être rouge ou verte ; alors que dans un partitionnement souple, une pomme peut aussi être rouge et verte. Chaque observation a un score ou degré d'appartenance à un groupe, pour chacun des groupes. Ces scores indiquent le degré d'appartenance des observations à chaque groupe. Ainsi, les points situés loin du centre d'un groupe pourront avoir des scores d'appartenance faibles et être considérés comme dans le groupe à un degré moindre que les points au centre du groupe. L'une des méthodes de partitionnement diffus les plus largement utilisés est l'algorithme des C-moyennes (en anglais Fuzzy C-means). Le partitionnement en C-moyennes a été développé par J. C. Dunn en 1973, et amélioré par James C. Bezdek en 1981. L'algorithme de partitionnement en C-moyennes est très similaire à celui des K-moyennes : Fixer un nombre de groupes ; Attribuer des coefficients au hasard à chaque observation pour être dans les groupes ; Répéter les étapes suivantes jusqu'à la convergence de l'algorithme (c'est-à-dire que la variation des coefficients entre deux itérations ne dépasse pas le seuil de sensibilité ) : Calculer le centroïde de chaque groupe ; Pour chaque observation, calculer ses coefficients d'appartenance aux différents groupes.

Source officielle

https://fr.wikipedia.org/wiki/Partitionnement_de_données_diffus

À propos de ce résultat

Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.

Partitionnement de données diffus

Graph Chatbot

Chattez avec Graph Search