Êtes-vous un étudiant de l'EPFL à la recherche d'un projet de semestre?
Travaillez avec nous sur des projets en science des données et en visualisation, et déployez votre projet sous forme d'application sur Graph Search.
Cette séance de cours couvre l'algorithme Kernel K-means, une procédure itérative impliquant l'initialisation des clusters, l'attribution des points de données aux centroids, et les étapes de mise à jour des clusters jusqu'à la stabilité. Il explore l'influence des termes sur le regroupement à l'aide du noyau RBF, l'interprétation de la fonction objective et l'impact de la distribution des points de données sur les résultats du regroupement. La séance de cours traite également de l'interprétation de la solution, de la densité par rapport au nombre de points, et de l'effet des noyaux polynômes sur les limites de regroupement. Diverses méthodes de traitement des données manquantes, d'encodage des valeurs catégoriques et de traitement des ensembles de données déséquilibrés sont présentées, ainsi que des techniques comme l'échantillonnage en aval et le suréchantillonnage. L'importance de la sélection, du prétraitement et de la visualisation des ensembles de données est soulignée, avec des exemples provenant de différents domaines comme l'expression des gènes, l'ARN-Seq du cancer et les ensembles de données en ligne sur la vente au détail.