Concept

Partitionnement de données

vignette|upright=1.2|Exemple de clustering hiérarchique. Le partitionnement de données (ou data clustering en anglais) est une méthode en analyse des données. Elle vise à diviser un ensemble de données en différents « paquets » homogènes, en ce sens que les données de chaque sous-ensemble partagent des caractéristiques communes, qui correspondent le plus souvent à des critères de proximité (similarité informatique) que l'on définit en introduisant des mesures et classes de distance entre objets. Pour obtenir un bon partitionnement, il convient d'à la fois : minimiser l'inertie intra-classe pour obtenir des grappes (cluster en anglais) les plus homogènes possibles ; maximiser l'inertie inter-classe afin d'obtenir des sous-ensembles bien différenciés. La communauté scientifique francophone utilise différents termes pour désigner cette technique. Le mot anglais clustering est communément employé. On parle également souvent de méthodes de regroupement. On distingue souvent les méthodes « hiérarchiques » et « de partition » Le « clustering non supervisé » aussi appelé classification non supervisée, est un processus qui permet de rassembler des données similaires. Le fait qu’il ne soit pas supervisé signifie que des techniques d'apprentissage machine vont permettre de trouver certaines similarités pour pouvoir classer les données et ce de manière plus ou moins autonome. Ce type d’analyse permet d’avoir un profil des différents groupes. Cela permet donc de simplifier l’analyse des données en faisant ressortir les points communs et les différences et en réduisant ainsi le nombre de variable des données. Cette technique n’est pas seulement utilisée dans le domaine génétique, mais permet aussi par exemple de lister de potentiels clients lors d’une action publicitaire. Le « clustering hiérarchique » est une autre technique de classification. Cette fois-ci, le paramètre comparé est décidé à l’avance. Ensuite, une fois le paramètre de comparaison choisi, la distance euclidienne est calculée [9].

Source officielle

https://fr.wikipedia.org/wiki/Partitionnement_de_données

À propos de ce résultat

Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.

Cours associés (32)

DH-406: Machine learning for DH

This course aims to introduce the basic principles of machine learning in the context of the digital humanities. We will cover both supervised and unsupervised learning techniques, and study and imple

FIN-525: Financial big data

The course introduces modern methods to acquire, clean, and analyze large quantities of financial data efficiently. The second part expands on how to apply these techniques and robust statistics to fi

PHYS-467: Machine learning for physicists

Machine learning and data analysis are becoming increasingly central in sciences including physics. In this course, fundamental principles and methods of machine learning will be introduced and practi

Afficher plus

Unités associées (11)

Laboratoire de l'IDIAP

DHI - Gestion

Laboratoire de traitement des signaux 5

Afficher plus

Source officielle

https://fr.wikipedia.org/wiki/Partitionnement_de_données

À propos de ce résultat

Cours associés (32)

DH-406: Machine learning for DH

FIN-525: Financial big data

PHYS-467: Machine learning for physicists

Afficher plus

Séances de cours associées (31)

Aperçu de l'apprentissage supervisé

Contient les CNN, les RNN, les SVM et les méthodes d'apprentissage supervisé, soulignant l'importance d'harmoniser la régularisation et de prendre des décisions éclairées dans le domaine de l'apprentissage automatique.

Apprentissage sans supervision : méthodes de regroupement

Couvre l'apprentissage non supervisé axé sur les méthodes de regroupement et les défis rencontrés dans les algorithmes de regroupement comme K-means et DBSCAN.

Coloration graphique II

Explore les concepts avancés de coloration graphique, y compris la coloration plantée, le seuil de rigidité, et les variables gelées en points fixes BP.

Afficher plus

Publications associées (27)

Planning urban proximities: An empirical analysis of how residential preferences conflict with the urban morphologies and residential practices

Vincent Kaufmann, Luca Giovanni Pattaroni, Marc-Edouard Baptiste Grégoire Schultheiss

Urban proximity planning is foreseen as a solution to foster a “sustainable” city, including economic viability, environmental soundness and social inclusivity. This paper focuses on the inclusivity aspects by questioning the adoption of urban proximities: ...

2024

Interpret3C: Interpretable Student Clustering Through Individualized Feature Selection

Vinitra Swamy, Paola Mejia Domenzain, Tanja Christina Käser Jacober, Julian Thomas Blackwell, Isadora Alves de Salles

Clustering in education, particularly in large-scale online environments like MOOCs, is essential for understanding and adapting to diverse student needs. However, the effectiveness of clustering depends on its interpretability, which becomes challenging w ...

2024

The multimodality cell segmentation challenge: toward universal solutions

Sahand Jamal Rahi, Vojislav Gligorovski, Marco Labagnara, Jun Ma, Maxime Emmanuel Scheder, Xin Yang, Yao Zhang, Bo Wang, Yixin Wang, Lin Han

Cell segmentation is a critical step for quantitative single-cell analysis in microscopy images. Existing cell segmentation methods are often tailored to specific modalities or require manual interventions to specify hyper-parameters in different experimen ...

Nature Portfolio2024

Afficher plus

Personnes associées (10)

Daniel Gatica-Perez

Ali H. Sayed

Ali H. Sayed est doyen de la Faculté des sciences et techniques de l’ingénieur (STI) de l'EPFL, en Suisse, où il dirige également le laboratoire de systèmes adaptatifs. Il a également été professeur émérite et président du département d'ingénierie électrique de l'UCLA. Il est reconnu comme un chercheur hautement cité et est membre de la US National Academy of Engineering. Il est également membre de l'Académie mondiale des sciences et a été président de l'IEEE Signal Processing Society en 2018 et 2019. Le professeur Sayed est auteur et co-auteur de plus de 570 publications et de six monographies. Ses recherches portent sur plusieurs domaines, dont les théories d'adaptation et d'apprentissage, les sciences des données et des réseaux, l'inférence statistique et les systèmes multi-agents, entre autres. Ses travaux ont été récompensés par plusieurs prix importants, notamment le prix Fourier de l'IEEE (2022), le prix de la société Norbert Wiener (2020) et le prix de l'éducation (2015) de la société de traitement des signaux de l'IEEE, le prix Papoulis (2014) de l'Association européenne de traitement des signaux, le Meritorious Service Award (2013) et le prix de la réalisation technique (2012) de la société de traitement des signaux de l'IEEE, le prix Terman (2005) de la société américaine de formation des ingénieurs, le prix de conférencier émérite (2005) de la société de traitement des signaux de l'IEEE, le prix Koweït (2003) et le prix Donald G. Fink (1996) de l'IEEE. Ses publications ont été récompensées par plusieurs prix du meilleur article de l'IEEE (2002, 2005, 2012, 2014) et de l'EURASIP (2015). Pour finir, Ali H. Sayed est aussi membre de l'IEEE, d'EURASIP et de l'American Association for the Advancement of Science (AAAS), l'éditeur de la revue Science.

Pierre Vandergheynst

Pierre Vandergheynst received the M.S. degree in physics and the Ph.D. degree in mathematical physics from the Université catholique de Louvain, Louvain-la-Neuve, Belgium, in 1995 and 1998, respectively. From 1998 to 2001, he was a Postdoctoral Researcher with the Signal Processing Laboratory, Swiss Federal Institute of Technology (EPFL), Lausanne, Switzerland. He was Assistant Professor at EPFL (2002-2007), where he is now a Full Professor of Electrical Engineering and, by courtesy, of Computer and Communication Sciences. As of 2015, Prof. Vandergheynst serves as EPFL’s Vice-Provost for Education. His research focuses on harmonic analysis, sparse approximations and mathematical data processing in general with applications covering signal, image and high dimensional data processing, computer vision, machine learning, data science and graph-based data processing. He was co-Editor-in-Chief of Signal Processing (2002-2006), Associate Editor of the IEEE Transactions on Signal Processing (2007-2011), the flagship journal of the signal processing community and currently serves as Associate Editor of Computer Vision and Image Understanding and SIAM Imaging Sciences. He has been on the Technical Committee of various conferences, serves on the steering committee of the SPARS workshop and was co-General Chairman of the EUSIPCO 2008 conference. Pierre Vandergheynst is the author or co-author of more than 70 journal papers, one monograph and several book chapters. He has received two IEEE best paper awards. Professor Vandergheynst is a laureate of the Apple 2007 ARTS award and of the 2009-2010 De Boelpaepe prize of the Royal Academy of Sciences of Belgium.

Jean-Philippe Thiran

Jean-Philippe Thiran was born in Namur, Belgium, in August 1970. He received the Electrical Engineering degree and the PhD degree from the Université catholique de Louvain (UCL), Louvain-la-Neuve, Belgium, in 1993 and 1997, respectively. From 1993 to 1997, he was the co-ordinator of the medical image analysis group of the Communications and Remote Sensing Laboratory at UCL, mainly working on medical image analysis. Dr Jean-Philippe Thiran joined the Signal Processing Institute (ITS) of the Swiss Federal Institute of Technology (EPFL), Lausanne, Switzerland, in February 1998 as a senior lecturer. He was promoted to Assistant Professor in 2004, to Associate Professor in 2011 and is now a Full Professor since 2020. He also holds a 20% position at the Department of Radiology of the University of Lausanne (UNIL) and of the Lausanne University Hospital (CHUV) as Associate Professor ad personam. Dr Thiran's current scientific interests include Computational medical imaging: acquisition, reconstruction and analysis of imaging data, with emphasis on regularized linear inverse problems (compressed sensing, convex optimization). Applications to medical imaging: diffusion MRI, ultrasound imaging, inverse planning in radiotherapy, etc.Computer vision & machine learning: image and video analysis, with application to facial expression recognition, eye tracking, lip reading, industrial inspection, medical image analysis, etc.

Prof. Nikolas Geroliminis is an Associate Professor at EPFL and the head of the Urban Transport Systems Laboratory (LUTS). Before joining EPFL he was an Assistant Professor on the faculty of the Department of Civil Engineering at the University of Minnesota. He has a diploma in Civil Engineering from the National Technical University of Athens (NTUA) and a MSc and Ph.D. in civil engineering from University of California, Berkeley. He is an Associate Editor for Transportation Research part C and he also serves in the editorial board of TR, part B, Transportation Letters, Journal of ITS and of many international conferences. He is a member of the Transportation Research Board's Traffic Flow Theory Committee. His research interests focus primarily on urban transportation systems, traffic flow theory and control, public transportation and logistics, Optimization and Large Scale Networks. He is a recent recipient of the ERC Starting Grant METAFERW: Modeling and controlling traffic congestion and propagation in large-scale urban multimodal networks Education Diploma, 2003, Civil Engineering, National Technical University of Athens, Greece M.S., 2004, Civil and Environmental Engineering, University of California at Berkeley Ph.D., 2007, Civil and Environmental Engineering, University of California at Berkeley

Giovanni De Micheli

Unités associées (11)

Laboratoire de l'IDIAP

DHI - Gestion

Laboratoire de traitement des signaux 5

Afficher plus

Concepts associés (31)

K-moyennes

Le partitionnement en k-moyennes (ou k-means en anglais) est une méthode de partitionnement de données et un problème d'optimisation combinatoire. Étant donnés des points et un entier k, le problème est de diviser les points en k groupes, souvent appelés clusters, de façon à minimiser une certaine fonction. On considère la distance d'un point à la moyenne des points de son cluster ; la fonction à minimiser est la somme des carrés de ces distances.

Apprentissage non supervisé

Dans le domaine informatique et de l'intelligence artificielle, l'apprentissage non supervisé désigne la situation d'apprentissage automatique où les données ne sont pas étiquetées (par exemple étiquetées comme « balle » ou « poisson »). Il s'agit donc de découvrir les structures sous-jacentes à ces données non étiquetées. Puisque les données ne sont pas étiquetées, il est impossible à l'algorithme de calculer de façon certaine un score de réussite.

Positionnement multidimensionnel

Le positionnement multidimensionnel est un ensemble de techniques statistiques utilisées dans le domaine de la visualisation d'information pour explorer les similarités dans les données. Le positionnement multidimentionnel est un cas particulier d'analyse multivariée. Typiquement, un algorithme de positionnement multidimensionnel part d'une matrice de similarité entre tous les points pour affecter à chaque point une position dans un espace à dimensions. Pour = 2 ou = 3, les positions peuvent être visualisées sur un plan ou dans un volume par un nuage de points.

Afficher plus

MOOCs associés (11)

Systèmes d’Information Géographique 1

Organisé en deux parties, ce cours présente les bases théoriques et pratiques des systèmes d’information géographique, ne nécessitant pas de connaissances préalables en informatique. En suivant cette

Geographical Information Systems 1

Systèmes d’Information Géographique 2

Ce cours constitue la seconde partie d'un enseignement consacré aux bases théoriques et pratiques des systèmes d’information géographique. Il propose une introduction aux systèmes d’information géogra

Afficher plus

Personnes associées (10)