Résumé
vignette|upright=1.2|Exemple de clustering hiérarchique. Le partitionnement de données (ou data clustering en anglais) est une méthode en analyse des données. Elle vise à diviser un ensemble de données en différents « paquets » homogènes, en ce sens que les données de chaque sous-ensemble partagent des caractéristiques communes, qui correspondent le plus souvent à des critères de proximité (similarité informatique) que l'on définit en introduisant des mesures et classes de distance entre objets. Pour obtenir un bon partitionnement, il convient d'à la fois : minimiser l'inertie intra-classe pour obtenir des grappes (cluster en anglais) les plus homogènes possibles ; maximiser l'inertie inter-classe afin d'obtenir des sous-ensembles bien différenciés. La communauté scientifique francophone utilise différents termes pour désigner cette technique. Le mot anglais clustering est communément employé. On parle également souvent de méthodes de regroupement. On distingue souvent les méthodes « hiérarchiques » et « de partition » Le « clustering non supervisé » aussi appelé classification non supervisée, est un processus qui permet de rassembler des données similaires. Le fait qu’il ne soit pas supervisé signifie que des techniques d'apprentissage machine vont permettre de trouver certaines similarités pour pouvoir classer les données et ce de manière plus ou moins autonome. Ce type d’analyse permet d’avoir un profil des différents groupes. Cela permet donc de simplifier l’analyse des données en faisant ressortir les points communs et les différences et en réduisant ainsi le nombre de variable des données. Cette technique n’est pas seulement utilisée dans le domaine génétique, mais permet aussi par exemple de lister de potentiels clients lors d’une action publicitaire. Le « clustering hiérarchique » est une autre technique de classification. Cette fois-ci, le paramètre comparé est décidé à l’avance. Ensuite, une fois le paramètre de comparaison choisi, la distance euclidienne est calculée [9].
À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.