Êtes-vous un étudiant de l'EPFL à la recherche d'un projet de semestre?
Travaillez avec nous sur des projets en science des données et en visualisation, et déployez votre projet sous forme d'application sur Graph Search.
Cette séance de cours porte sur les techniques de résolution des entités, y compris le traitement des entités dupliquées, l'ambiguïté des noms/attributs, la déduplication des données et les mesures de similarité comme la distance d'édition et la similarité Jaccard. Il explique également l'élimination du double avec regroupement, les réparations possibles et le coût de calcul de la détection du double. On discute de l'utilisation des techniques de blocage, de la jonction q-gram set et de la similarité des chaînes avec la similarité q-gram, ainsi que d'exemples de blocage standard et de joint q-gram set en action. La séance de cours se termine par des idées sur l'élimination des similarités, la transformation des données, l'exactitude des données et les documents de lecture recommandés.
Cette vidéo est disponible exclusivement sur Mediaspace pour un public restreint. Veuillez vous connecter à Mediaspace pour y accéder si vous disposez des autorisations nécessaires.
Regarder sur Mediaspace