Résumé
Record linkage (also known as data matching, data linkage, entity resolution, and many other terms) is the task of finding records in a data set that refer to the same entity across different data sources (e.g., data files, books, websites, and databases). Record linkage is necessary when joining different data sets based on entities that may or may not share a common identifier (e.g., database key, URI, National identification number), which may be due to differences in record shape, storage location, or curator style or preference. A data set that has undergone RL-oriented reconciliation may be referred to as being cross-linked. "Record linkage" is the term used by statisticians, epidemiologists, and historians, among others, to describe the process of joining records from one data source with another that describe the same entity. However, many other terms are used for this process. Unfortunately, this profusion of terminology has led to few cross-references between these research communities. Computer scientists often refer to it as "data matching" or as the "object identity problem". Commercial mail and database applications refer to it as "merge/purge processing" or "list washing". Other names used to describe the same concept include: "coreference/entity/identity/name/record resolution", "entity disambiguation/linking", "fuzzy matching", "duplicate detection", "deduplication", "record matching", "(reference) reconciliation", "object identification", "data/information integration" and "conflation". While they share similar names, record linkage and Linked Data are two separate approaches to processing and structuring data. Although both involve identifying matching entities across different data sets, record linkage standardly equates "entities" with human individuals; by contrast, Linked Data is based on the possibility of interlinking any web resource across data sets, using a correspondingly broader concept of identifier, namely a URI. The initial idea of record linkage goes back to Halbert L.
À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
Publications associées

Aucun résultat

Personnes associées

Aucun résultat

Unités associées

Aucun résultat

Concepts associés

Chargement

Cours associés

Aucun résultat

Séances de cours associées (6)
Résolution d'entités : Techniques et applications
Explore les techniques de résolution d'entités pour identifier et agréger différents profils d'entités à travers des ensembles de données, couvrant les défis et les solutions.
Intégration et nettoyage des données: Compilation d'experts et reconnaissance des entités
Couvre l'intégration des données, l'appariement d'experts, la reconnaissance des entités, les performances, l'évolutivité, la gestion des données de flux, la décomposition des tenseurs et la détection de la dérive conceptuelle.
Techniques de résolution des entités
Explore les techniques de résolution d'entités, la déduplication des données, les métriques de similitude, le coût de calcul, les techniques de blocage et l'échelle des jointures de similarité.
Afficher plus
MOOCs associés

Chargement