Êtes-vous un étudiant de l'EPFL à la recherche d'un projet de semestre?
Travaillez avec nous sur des projets en science des données et en visualisation, et déployez votre projet sous forme d'application sur Graph Search.
Cette séance de cours porte sur les techniques avancées de prétraitement des données, y compris le traitement de l'encodage catégorique des données, les données manquantes et les ensembles de données déséquilibrés. Il explique des méthodes comme l'encodage à chaud, le remplacement des valeurs manquantes par la moyenne ou la régression, et l'échantillonnage descendant/suréchantillonnage pour les ensembles de données déséquilibrés. L'instructeur met l'accent sur l'importance des mesures du rendement et donne des indications sur la maximisation des attentes pour les valeurs manquantes. La séance de cours traite également de l'utilisation de matrices de confusion pour des ensembles de données déséquilibrés et compare les performances des classificateurs. Des documents supplémentaires sur la sélection et le regroupement des ensembles de données sont brièvement mentionnés.