Concept

Nettoyage de données

Le nettoyage de données est l'opération de détection et de correction (ou suppression) d'erreurs présentes sur des données stockées dans des bases de données ou dans des fichiers. Le nettoyage de données est un des problèmes majeurs des entrepôts de données. Les données présentes dans les bases de données peuvent avoir plusieurs types d'erreurs comme des erreurs de frappe, des informations manquantes, des imprécisions etc. La partie impropre de la donnée traitée peut être remplacée, modifiée ou supprimée. Le processus de nettoyage identifie les données erronées et les corrige automatiquement avec un programme informatique ou les propose à un humain pour qu'il effectue les modifications. Le nettoyage de données est différent de la validation de données. La validation de données est l'étape qui consiste à vérifier et rejeter les données qui ne respectent pas certaines règles avant l'ajout en base de données, alors que le nettoyage intervient après (sur des données déjà présentes en base de données). Les approches classiques de nettoyage utilisent les contraintes d'intégrité, les statistiques ou l'apprentissage automatique pour nettoyer les données. Les problèmes liés au nettoyage de données sont apparus au début des années 2000 avec l'explosion d'Internet et des entrepôts de données. Les entrepôts de données sont utilisés pour la prise de décision. Ceci implique que les données doivent être fiables. Des données incorrectes ou incohérentes peuvent conduire à de fausses conclusions et à de mauvaises prises de décision. Par exemple, le gouvernement peut vouloir analyser les chiffres du recensement de la population pour décider quelles régions exigent davantage de dépenses et d'investissements en infrastructures et services. Dans ce cas, il est important d'avoir accès à des données fiables pour éviter des décisions budgétaires erronées. Les erreurs dans les données coûtent aux entreprises l'équivalent de 10 à 20 % de leur budget d’implémentation. De plus, on estime que 40 à 50 % du budget temps d'un projet est dépensé dans la correction d'erreurs dans les données.

Source officielle

https://fr.wikipedia.org/wiki/Nettoyage_de_données

À propos de ce résultat

Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.

Cours associés (16)

FIN-525: Financial big data

The course introduces modern methods to acquire, clean, and analyze large quantities of financial data efficiently. The second part expands on how to apply these techniques and robust statistics to fi

CS-401: Applied data analysis

This course teaches the basic techniques, methodologies, and practical skills required to draw meaningful insights from a variety of data, with the help of the most acclaimed software tools in the dat

COM-490: Large-scale data science for real-world data

This hands-on course teaches the tools & methods used by data scientists, from researching solutions to scaling up prototypes to Spark clusters. It exposes the students to the entire data science pipe

Afficher plus

Publications associées (30)

Extensions of Peer Prediction Incentive Mechanisms

Adam Julian Richardson

As large, data-driven artificial intelligence models become ubiquitous, guaranteeing high data quality is imperative for constructing models. Crowdsourcing, community sensing, and data filtering have long been the standard approaches to guaranteeing or imp ...

EPFL2024

Continuous corrected particle number concentration data in 10 sec resolution measured in the Swiss aerosol container using a whole air inlet during MOSAiC 2019/2020

Julia Schmale, Ivo Fabio Beck

This dataset contains corrected particle number concentration data measured during the year-long MOSAiC expedition from October 2019 to September 2020. Some periods of the measurements were affected by repeated step changes in the particle number concentra ...

Zenodo2023

Genetic features and genomic targets of human KRAB-zinc finger proteins

Didier Trono, Jacques Fellay, Priscilla Turelli, Christian Axel Wandall Thorball, Sandra Eloise Kjeldsen, Evaristo Jose Planet Letschert, Julien Léonard Duc, Cyril David Son-Tuyên Pulver, Romain Forey, Bara Khubieh, Alexandre Coudray, Michaël Imbeault, Jonas Caspar De Tribolet-Hardy

Krüppel-associated box (KRAB) domain-containing zinc finger proteins (KZFPs) are one of the largest groups of transcription factors encoded by tetrapods, with 378 members in human alone. KZFP genes are often grouped in clusters reflecting amplification by ...

2023

Afficher plus

Concepts associés (4)

Data Preprocessing

Data preprocessing can refer to manipulation or dropping of data before it is used in order to ensure or enhance performance, and is an important step in the data mining process. The phrase "garbage in, garbage out" is particularly applicable to data mining and machine learning projects. Data collection methods are often loosely controlled, resulting in out-of-range values, impossible data combinations, and missing values, amongst other issues. Analyzing data that has not been carefully screened for such problems can produce misleading results.

Qualité des données

La qualité des données, en informatique se réfère à la conformité des données aux usages prévus, dans les modes opératoires, les processus, les prises de décision, et la planification (J.M. Juran). De même, les données sont jugées de grande qualité si elles représentent correctement la réalité à laquelle elles se réfèrent. Ces deux points de vue peuvent souvent entrer en contradiction, y compris lorsqu'un même ensemble de données est utilisé avec un objectif commun.

Data transformation (computing)

In computing, data transformation is the process of converting data from one format or structure into another format or structure. It is a fundamental aspect of most data integration and data management tasks such as data wrangling, data warehousing, data integration and application integration. Data transformation can be simple or complex based on the required changes to the data between the source (initial) data and the target (final) data. Data transformation is typically performed via a mixture of manual and automated steps.

Afficher plus