Cette séance de cours se concentre sur l'apprentissage non supervisé, en particulier les méthodes de clustering dans l'apprentissage automatique. L'instructeur commence par contraster l'apprentissage supervisé avec l'apprentissage non supervisé, en soulignant que dans l'apprentissage non supervisé, seules les données d'entrée sont fournies sans étiquettes de sortie. La séance de cours présente le clustering, expliquant comment il regroupe les points de données en fonction de leur proximité dans une métrique de distance définie. Diverses méthodes de regroupement sont discutées, y compris K-Means et DBSCAN, soulignant leurs caractéristiques, leurs avantages et leurs limites. L'instructeur explique l'importance des mesures de distance, telles que la similarité euclidienne et cosinus, dans la détermination de la formation des grappes. La séance de cours couvre également les défis du regroupement dans les espaces de grande dimension, connus sous le nom de malédiction de la dimensionnalité, et la nécessité de méthodes robustes pour gérer le bruit et les valeurs aberrantes. Des applications pratiques du clustering dans l’exploration, le marketing et l’étiquetage des données sont présentées, ainsi que des techniques de sélection du nombre optimal de clusters. La session se termine par une discussion sur l'interprétabilité et la facilité d'utilisation des méthodes de regroupement, ouvrant la voie à de futures séance de courss sur la réduction de la dimensionnalité et l'analyse du texte.