Séance de cours

Techniques de résolution des entités

Description

Cette séance de cours porte sur les techniques de résolution des entités, y compris le traitement des entités dupliquées, l'ambiguïté des noms/attributs, la déduplication des données et les mesures de similarité comme la distance d'édition et la similarité Jaccard. Il explique également l'élimination du double avec regroupement, les réparations possibles et le coût de calcul de la détection du double. On discute de l'utilisation des techniques de blocage, de la jonction q-gram set et de la similarité des chaînes avec la similarité q-gram, ainsi que d'exemples de blocage standard et de joint q-gram set en action. La séance de cours se termine par des idées sur l'élimination des similarités, la transformation des données, l'exactitude des données et les documents de lecture recommandés.

Cette vidéo est disponible exclusivement sur Mediaspace pour un public restreint. Veuillez vous connecter à Mediaspace pour y accéder si vous disposez des autorisations nécessaires.

Regarder sur Mediaspace
À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.