In statistics, exploratory data analysis (EDA) is an approach of analyzing data sets to summarize their main characteristics, often using statistical graphics and other data visualization methods. A statistical model can be used or not, but primarily EDA is for seeing what the data can tell us beyond the formal modeling and thereby contrasts traditional hypothesis testing. Exploratory data analysis has been promoted by John Tukey since 1970 to encourage statisticians to explore the data, and possibly formulate hypotheses that could lead to new data collection and experiments. EDA is different from initial data analysis (IDA), which focuses more narrowly on checking assumptions required for model fitting and hypothesis testing, and handling missing values and making transformations of variables as needed. EDA encompasses IDA. Tukey defined data analysis in 1961 as: "Procedures for analyzing data, techniques for interpreting the results of such procedures, ways of planning the gathering of data to make its analysis easier, more precise or more accurate, and all the machinery and results of (mathematical) statistics which apply to analyzing data." Tukey's championing of EDA encouraged the development of statistical computing packages, especially S at Bell Labs. The S programming language inspired the systems S-PLUS and R. This family of statistical-computing environments featured vastly improved dynamic visualization capabilities, which allowed statisticians to identify outliers, trends and patterns in data that merited further study. Tukey's EDA was related to two other developments in statistical theory: robust statistics and nonparametric statistics, both of which tried to reduce the sensitivity of statistical inferences to errors in formulating statistical models. Tukey promoted the use of five number summary of numerical data—the two extremes (maximum and minimum), the median, and the quartiles—because these median and quartiles, being functions of the empirical distribution are defined for all distributions, unlike the mean and standard deviation; moreover, the quartiles and median are more robust to skewed or heavy-tailed distributions than traditional summaries (the mean and standard deviation).

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
Cours associés (32)
MATH-493: Applied biostatistics
This course covers topics in applied biostatistics, with an emphasis on practical aspects of data analysis using R statistical software. Topics include types of studies and their design and analysis,
ENV-444: Exploratory data analysis in environmental health
This course teaches how to apply exploratory spatial data analysis to health information. Teaching focuses on the role of GIS and spatial statistics in spatial epidemiology. It proposes a context to i
BIO-603(LG): Practical - LaManno Lab
Give students a feel for how single-cell genomics datasets are analyzed from raw data to data interpretation. Different steps of the analysis will be demonstrated and the most common statistical and b
Afficher plus
Séances de cours associées (188)
Techniques d'assemblage musculaire
Couvre les techniques d'assemblage, les étalonnages, l'analyse des données et l'enregistrement continu pour les muscles.
Méthodes de recherche qualitatives : Préparation à l’entrevue
Offre des conseils pratiques sur la conduite d'entretiens qualitatifs, en mettant l'accent sur l'établissement de la confiance et une communication efficace.
Démonstration expérimentale
Démontre le contrôle logiciel pour les mesures et l'analyse des résultats.
Afficher plus
Publications associées (280)

Unlabeled Principal Component Analysis and Matrix Completion

Yunzhen Yao, Liangzu Peng

We introduce robust principal component analysis from a data matrix in which the entries of its columns have been corrupted by permutations, termed Unlabeled Principal Component Analysis (UPCA). Using algebraic geometry, we establish that UPCA is a well-de ...
Microtome Publ2024

Autorepression of yeast Hsp70 cochaperones by intramolecular interactions involving their J-domains

Paolo De Los Rios, Pierre Goloubinoff, Satyam Tiwari, Mathieu Rebeaud, Bruno Claude Daniel Fauvet, Adélaïde Alice Mohr

The 70 kDa heat shock protein (Hsp70) chaperones control protein homeostasis in all ATP-containing cellular compartments. J-domain proteins (JDPs) coevolved with Hsp70s to trigger ATP hydrolysis and catalytically upload various substrate polypeptides in ne ...
Elsevier Science Inc2024

Post-correction of Historical Text Transcripts with Large Language Models: An Exploratory Study

Frédéric Kaplan, Maud Ehrmann, Matteo Romanello, Sven-Nicolas Yoann Najem, Emanuela Boros

The quality of automatic transcription of heritage documents, whether from printed, manuscripts or audio sources, has a decisive impact on the ability to search and process historical texts. Although significant progress has been made in text recognition ( ...
The Association for Computational Linguistics2024
Afficher plus
Concepts associés (17)
Visualisation de données
vignette|upright=2|Carte figurative des pertes successives en hommes de l'armée française dans la campagne de Russie 1812-1813, par Charles Minard, 1869. La visualisation des données (ou dataviz ou représentation graphique de données) est un ensemble de méthodes permettant de résumer de manière graphique des données statistiques qualitatives et surtout quantitatives afin de montrer les liens entre des ensembles de ces données. Cette fait partie de la science des données.
Positionnement multidimensionnel
Le positionnement multidimensionnel est un ensemble de techniques statistiques utilisées dans le domaine de la visualisation d'information pour explorer les similarités dans les données. Le positionnement multidimentionnel est un cas particulier d'analyse multivariée. Typiquement, un algorithme de positionnement multidimensionnel part d'une matrice de similarité entre tous les points pour affecter à chaque point une position dans un espace à dimensions. Pour = 2 ou = 3, les positions peuvent être visualisées sur un plan ou dans un volume par un nuage de points.
Boîte à moustaches
Dans les représentations graphiques de données statistiques, la boîte à moustaches, aussi appelée diagramme en boîte, boîtes à pattes, boîte de Tukey (en anglais, box-and-whisker plot, plus simplement box plot) est un moyen rapide de figurer le profil essentiel d'une série statistique quantitative. Elle a été inventée en 1977 par John Tukey, mais peut faire l'objet de certains aménagements selon les utilisateurs. La boîte à moustaches résume seulement quelques indicateurs de position du caractère étudié (médiane, quartiles, minimum, maximum ou déciles).
Afficher plus

Graph Chatbot

Chattez avec Graph Search

Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.

AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.