Êtes-vous un étudiant de l'EPFL à la recherche d'un projet de semestre?
Travaillez avec nous sur des projets en science des données et en visualisation, et déployez votre projet sous forme d'application sur Graph Search.
Le nettoyage de données est l'opération de détection et de correction (ou suppression) d'erreurs présentes sur des données stockées dans des bases de données ou dans des fichiers. Le nettoyage de données est un des problèmes majeurs des entrepôts de données. Les données présentes dans les bases de données peuvent avoir plusieurs types d'erreurs comme des erreurs de frappe, des informations manquantes, des imprécisions etc. La partie impropre de la donnée traitée peut être remplacée, modifiée ou supprimée. Le processus de nettoyage identifie les données erronées et les corrige automatiquement avec un programme informatique ou les propose à un humain pour qu'il effectue les modifications. Le nettoyage de données est différent de la validation de données. La validation de données est l'étape qui consiste à vérifier et rejeter les données qui ne respectent pas certaines règles avant l'ajout en base de données, alors que le nettoyage intervient après (sur des données déjà présentes en base de données). Les approches classiques de nettoyage utilisent les contraintes d'intégrité, les statistiques ou l'apprentissage automatique pour nettoyer les données. Les problèmes liés au nettoyage de données sont apparus au début des années 2000 avec l'explosion d'Internet et des entrepôts de données. Les entrepôts de données sont utilisés pour la prise de décision. Ceci implique que les données doivent être fiables. Des données incorrectes ou incohérentes peuvent conduire à de fausses conclusions et à de mauvaises prises de décision. Par exemple, le gouvernement peut vouloir analyser les chiffres du recensement de la population pour décider quelles régions exigent davantage de dépenses et d'investissements en infrastructures et services. Dans ce cas, il est important d'avoir accès à des données fiables pour éviter des décisions budgétaires erronées. Les erreurs dans les données coûtent aux entreprises l'équivalent de 10 à 20 % de leur budget d’implémentation. De plus, on estime que 40 à 50 % du budget temps d'un projet est dépensé dans la correction d'erreurs dans les données.
Didier Trono, Jacques Fellay, Priscilla Turelli, Christian Axel Wandall Thorball, Evaristo Jose Planet Letschert, Julien Léonard Duc, Romain Forey, Bara Khubieh, Sandra Eloise Kjeldsen, Alexandre Coudray, Michaël Imbeault, Cyril David Son-Tuyên Pulver, Jonas Caspar De Tribolet-Hardy