La qualité des données, en informatique se réfère à la conformité des données aux usages prévus, dans les modes opératoires, les processus, les prises de décision, et la planification (J.M. Juran).
De même, les données sont jugées de grande qualité si elles représentent correctement la réalité à laquelle elles se réfèrent.
Ces deux points de vue peuvent souvent entrer en contradiction, y compris lorsqu'un même ensemble de données est utilisé avec un objectif commun.
La plupart des technologies sur les données informatiques sont nées du désir d'envoyer des informations par courrier. Avant l'émergence de serveurs bon marché, les ordinateurs centraux étaient utilisés pour mettre à jour les données (noms, adresses, et autres attributs) afin que les courriers électroniques arrivent correctement à leur destination. Les mainframes utilisaient des règles métiers pour corriger les défauts dans les données (fautes sur les champs nom et date, défauts de structuration), ainsi que pour suivre les clients qui avaient changé d'adresse, disparu, fusionné, ou expérimenté d'autres événements.
Aux États-Unis, les agences de gouvernement commencèrent à mettre à disposition des données postales à quelques sociétés de service pour gérer les entreprises selon le registre de changement d'adresse national (NCOA). Cette technique a fait économiser à de grandes entreprises de grandes sommes d'argent (millions de dollars) en comparaison de la gestion manuelle des données client. Les grandes entreprises ont réduit leurs frais postaux, les factures et courriers atteignant leurs destinataires plus précisément. Vendue à l'origine comme un service, la qualité des données s'est intégrée au sein des organisations grâce à la disponibilité de technologies serveurs abordables.
Bien que la plupart des entreprises pensent au nom et à l'adresse quand elles se préoccupent de qualité des données, on reconnaît aujourd'hui que la qualité des données est la façon d'améliorer tous les types de données, comme les données sur la chaîne logistique, les données des progiciels de gestion intégrée, les données transactionnelles, etc.
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
This course aims to introduce the basic principles of machine learning in the context of the digital humanities. We will cover both supervised and unsupervised learning techniques, and study and imple
This course teaches the basic techniques, methodologies, and practical skills required to draw meaningful insights from a variety of data, with the help of the most acclaimed software tools in the dat
This hands-on course teaches the tools & methods used by data scientists, from researching solutions to scaling up
prototypes to Spark clusters. It exposes the students to the entire data science pipe
Organisé en deux parties, ce cours présente les bases théoriques et pratiques des systèmes d’information géographique, ne nécessitant pas de connaissances préalables en informatique. En suivant cette
Organisé en deux parties, ce cours présente les bases théoriques et pratiques des systèmes d’information géographique, ne nécessitant pas de connaissances préalables en informatique. En suivant cette
The first MOOC about responsible use of technology for humanitarians. Learn about technology and identify risks and opportunities when designing digital solutions.
Le big data ( « grosses données » en anglais), les mégadonnées ou les données massives, désigne les ressources d’informations dont les caractéristiques en termes de volume, de vélocité et de variété imposent l’utilisation de technologies et de méthodes analytiques particulières pour créer de la valeur, et qui dépassent en général les capacités d'une seule et unique machine et nécessitent des traitements parallélisés. L’explosion quantitative (et souvent redondante) des données numériques permet une nouvelle approche pour analyser le monde.
Le nettoyage de données est l'opération de détection et de correction (ou suppression) d'erreurs présentes sur des données stockées dans des bases de données ou dans des fichiers. Le nettoyage de données est un des problèmes majeurs des entrepôts de données. Les données présentes dans les bases de données peuvent avoir plusieurs types d'erreurs comme des erreurs de frappe, des informations manquantes, des imprécisions etc. La partie impropre de la donnée traitée peut être remplacée, modifiée ou supprimée.
Le profiling est le processus qui consiste à récolter les données dans les différentes sources de données existantes (bases de données, fichiers,...) et à collecter des statistiques et des informations sur ces données. C'est ainsi très proche de l'analyse des données.
Couvre l'analyse en composantes principales pour la réduction dimensionnelle des données biologiques, en se concentrant sur la visualisation et l'identification des modèles.
As large, data-driven artificial intelligence models become ubiquitous, guaranteeing high data quality is imperative for constructing models. Crowdsourcing, community sensing, and data filtering have long been the standard approaches to guaranteeing or imp ...
EPFL2024
,
We propose a comparative study of three different methods aimed at optimizing existing groundwater monitoring networks. Monitoring piezometric heads in subsurface porous formations is crucial at regional scales to properly characterize the relevant subsurf ...
Elsevier2024
Purpose Recent archiving and curatorial practices took advantage of the advancement in digital technologies, creating immersive and interactive experiences to emphasize the plurality of memory materials, encourage personalized sense-making and extract, man ...