Êtes-vous un étudiant de l'EPFL à la recherche d'un projet de semestre?
Travaillez avec nous sur des projets en science des données et en visualisation, et déployez votre projet sous forme d'application sur Graph Search.
Cette séance de cours couvre le processus de déanonymisation à l'aide de deux ensembles de données publics : l'un anonymisé et publié par Netflix, et l'autre non anonymisé. Les ensembles de données sont chargés et affichés, contenant des noms aléatoires et des évaluations. L'exercice consiste à faire correspondre les utilisateurs entre les ensembles de données, à trier par notation et à trouver des films manquants. La séance de cours progresse pour traiter des ensembles de données plus importants, évaluer les correspondances des utilisateurs et relever les défis des bases de données du monde réel. On discute des techniques telles que l'évaluation des fréquences et les corrélations probabilistes, en mettant l'accent sur la complexité de l'appariement précis et la nécessité d'approches probabilistes.