Êtes-vous un étudiant de l'EPFL à la recherche d'un projet de semestre?
Travaillez avec nous sur des projets en science des données et en visualisation, et déployez votre projet sous forme d'application sur Graph Search.
Cette séance de cours couvre le concept de résolution d'entité (ER), qui implique l'identification et l'agrégation de différents profils d'entité qui se réfèrent à la même entité du monde réel à travers des ensembles de données. Les sujets incluent l'élimination des doublons, le couplage d'enregistrements, les mesures de similarité, la déduplication des données et les réparations possibles. L'instructeur discute également des défis liés au traitement des entités en double, tels que l'ambiguïté du nom / des attributs et les erreurs dues à la saisie de données. Diverses techniques telles que le clustering, le blocage, la jointure de q-grammes et l'algorithme ClusterJoin sont expliquées en détail pour gérer efficacement la détection des doublons et le clustering d'entités.