Êtes-vous un étudiant de l'EPFL à la recherche d'un projet de semestre?
Travaillez avec nous sur des projets en science des données et en visualisation, et déployez votre projet sous forme d'application sur Graph Search.
Cette séance de cours présente le concept de la génération de données synthétiques en tant que technique de protection de la vie privée pour la publication de données. Il couvre les défis de l'anonymisation, de l'inférence des attributs et de la divulgation de l'identité dans les ensembles de données bruts. La promesse des données synthétiques réside dans la possibilité d’analyser des données transfrontalières sans compromettre la confidentialité. Différents modèles génératifs et réseaux bayésiens sont discutés, soulignant l'importance de la protection des données sensibles des clients. La séance de cours évalue le gain de confidentialité de la publication d'ensembles de données synthétiques par rapport aux ensembles de données brutes, en se concentrant sur l'inférence d'appartenance et les menaces de divulgation d'attributs. Il conclut que si les données synthétiques offrent une certaine protection de la vie privée, ce n’est pas une solution infaillible contre les menaces à la vie privée.