Data preprocessing can refer to manipulation or dropping of data before it is used in order to ensure or enhance performance, and is an important step in the data mining process. The phrase "garbage in, garbage out" is particularly applicable to data mining and machine learning projects. Data collection methods are often loosely controlled, resulting in out-of-range values, impossible data combinations, and missing values, amongst other issues. Analyzing data that has not been carefully screened for such problems can produce misleading results. Thus, representation and quality of data is necessary before running any analysis. Often, data preprocessing is the most important phase of a machine learning project, especially in computational biology. If there is a high proportion of irrelevant and redundant information present or noisy and unreliable data, then knowledge discovery during the training phase may be more difficult. Data preparation and filtering steps can take a considerable amount of processing time. Examples of methods used in data preprocessing include cleaning, instance selection, normalization, one-hot encoding, data transformation, feature extraction and feature selection. The origins of data preprocessing are located in data mining. The idea is to aggregate existing information and search in the content. Later it was recognized, that for machine learning and neural networks a data preprocessing step is needed too. So it has become to a universal technique which is used in computing in general. Data preprocessing allows for the removal of unwanted data with the use of data cleaning, this allows the user to have a dataset to contain more valuable information after the preprocessing stage for data manipulation later in the data mining process. Editing such dataset to either correct data corruption or human error is a crucial step to get accurate quantifiers like true positives, true negatives, false positives and false negatives found in a confusion matrix that are commonly used for a medical diagnosis.

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
Cours associés (32)
EE-451: Image analysis and pattern recognition
This course gives an introduction to the main methods of image analysis and pattern recognition.
ENV-542: Advanced satellite positioning
All fundamental principles behind modern satellite positioning to acquire, track and evaluate direct and indirect satellite signals and process them in relation to example applications: Earth monito
CS-421: Machine learning for behavioral data
Computer environments such as educational games, interactive simulations, and web services provide large amounts of data, which can be analyzed and serve as a basis for adaptation. This course will co
Afficher plus
Séances de cours associées (122)
Traitement de données et graphiques: exemples pratiques
Couvre l'application des concepts dans la mesure et l'analyse quantitative.
Algorithmes de streaming
Couvre les algorithmes de streaming, la puissance de deux choix, l'estimateur Misra-Gries et l'esquisse AMS pour l'estimation de la fréquence.
Bots: Wikipédia Wikification
Plonge dans le rôle des bots dans Wikipedia, leur wikification du contenu du domaine public et les controverses entourant leur utilisation.
Afficher plus
Publications associées (303)

Data and scripts for "Unraveling secondary ice production in winter orographic clouds through a synergy of in-situ observations, remote sensing and modeling"

Athanasios Nenes, Alexis Berne, Satoshi Takahama, Georgia Sotiropoulou, Paraskevi Georgakaki, Romanos Foskinis, Kunfeng Gao, Anne-Claire Marie Billault--Roux

This repository contains field observations and processed data from the Weather Research and Forecasting (WRF) model simulations and the Cloud Resolving Model Radar Simulator (CR-SIM), alongside scripts designed to reproduce the figures presented in the pa ...
Zenodo2024

Data and scripts for the RaFSIP scheme

Athanasios Nenes, Paraskevi Georgakaki

This repository contains microphysics routines, scripts, and processed data from the Weather Research and Forecasting (WRF) model simulations presented in the paper "RaFSIP: Parameterizing ice multiplication in models using a machine learning approach", by ...
Zenodo2024

Robust machine learning for neuroscientific inference

Steffen Schneider

Modern neuroscience research is generating increasingly large datasets, from recording thousands of neurons over long timescales to behavioral recordings of animals spanning weeks, months, or even years. Despite a great variety in recording setups and expe ...
EPFL2024
Afficher plus
Concepts associés (5)
Data wrangling
Data wrangling, sometimes referred to as data munging, is the process of transforming and mapping data from one "raw" data form into another format with the intent of making it more appropriate and valuable for a variety of downstream purposes such as analytics. The goal of data wrangling is to assure quality and useful data. Data analysts typically spend the majority of their time in the process of data wrangling compared to the actual analysis of the data.
Nettoyage de données
Le nettoyage de données est l'opération de détection et de correction (ou suppression) d'erreurs présentes sur des données stockées dans des bases de données ou dans des fichiers. Le nettoyage de données est un des problèmes majeurs des entrepôts de données. Les données présentes dans les bases de données peuvent avoir plusieurs types d'erreurs comme des erreurs de frappe, des informations manquantes, des imprécisions etc. La partie impropre de la donnée traitée peut être remplacée, modifiée ou supprimée.
Apprentissage supervisé
L'apprentissage supervisé (supervised learning en anglais) est une tâche d'apprentissage automatique consistant à apprendre une fonction de prédiction à partir d'exemples annotés, au contraire de l'apprentissage non supervisé. On distingue les problèmes de régression des problèmes de classement. Ainsi, on considère que les problèmes de prédiction d'une variable quantitative sont des problèmes de régression tandis que les problèmes de prédiction d'une variable qualitative sont des problèmes de classification.
Afficher plus

Graph Chatbot

Chattez avec Graph Search

Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.

AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.