Concept

Science des données

La science des données est l'étude de l’extraction automatisée de connaissance à partir de grands ensembles de données. Plus précisément, la science des données est un domaine interdisciplinaire qui utilise des méthodes, des processus, des algorithmes et des systèmes scientifiques pour extraire des connaissances et des idées à partir de nombreuses données structurées ou non . Elle est souvent associée aux données massives et à l'analyse des données. Elle utilise des techniques et des théories tirées de nombreux domaines dans le contexte des mathématiques, des statistiques, de l'informatique, de la théorie et des technologies de l'information, parmi lesquelles : l’apprentissage automatique, la compression de données et le calcul à haute performance. La science des données produit des méthodes de tri et d’analyse de données de masse afin d’en extraire des informations utiles. Pour cela, elle se met en œuvre selon quatre étapes : La fouille, Le nettoyage/formatage, Le traitement : Traitements classiques, Apprentissage automatique, Visualisation de données, L'exploitation des résultats sous forme de tableaux de bord et d'outils d'aide à la décision, de la publication de résultats (interne à l'entreprise, ou publics) Le spécialiste de science de données est donc souvent appelé à faire appel aux statistiques et au traitement du signal. Il s'attelle donc à la classification, au nettoyage, à l'exploration et à l'analyse de bases de données plus ou moins interopérables. Cette discipline est issue de l'apparition et du développement des bases de données et de l'Internet et répond aussi à la complexité croissante et au volume en croissance exponentielle du nombre de données numériques disponibles dans le monde (infobésité). Elle a reçu beaucoup d'attention dernièrement grâce à l’intérêt grandissant pour les "données massives". Cependant, la science des données ne se limite pas à l’étude de bases de données pouvant être qualifiées de "données massives".

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
Cours associés (46)
COM-412: Semester research project in Data Science
Individual research during the semester under the guidance of a professor or an assistant.
COM-508: Optional research project in Data Science
Individual research during the semester under the guidance of a professor or an assistant.
CS-439: Optimization for machine learning
This course teaches an overview of modern optimization methods, for applications in machine learning and data science. In particular, scalability of algorithms to large datasets will be discussed in t
Afficher plus
Séances de cours associées (884)
Fonctions avancées des pandas
Couvre les fonctions avancées de Pandas, en se concentrant sur le filtrage, l'étiquetage et la manipulation des trames de données.
Classement multiclasses
Couvre le concept de classification multiclasse et les défis de la séparation linéaire des données avec les classes multiples.
Visualisation de la science des données avec Pandas
Couvre la manipulation et l'exploration de données à l'aide de Python en mettant l'accent sur les techniques de visualisation.
Afficher plus
Publications associées (1 000)

Changes in spatial self-consciousness elicit grid cell–like representation in the entorhinal cortex

Olaf Blanke, Emanuela De Falco, Louis Philippe Albert, Hyeongdong Park, Baptiste Gauthier, Hyukjun Moon, Corentin Marie Hervé Robert Tasu

Grid cells in the entorhinal cortex (EC) encode an individual’s location in space, integrating both environmental and multisensory bodily cues. Notably, body-derived signals are also primary signals for the sense of self. While studies have demonstrated th ...
2024

Hybrid Simulator for Capturing Dynamics of Synthetic Populations

Michel Bierlaire, Marija Kukic

This paper presents a novel hybrid framework for generating and updating a synthetic population. We call it hybrid because it combines model-based and data-driven approaches. Existing generators produce a snapshot of synthetic data that becomes outdated ov ...
IEEE2024

Data-driven statistical optimization of a groundwater monitoring network

Andrea Rinaldo, Gianluca Botter

We propose a comparative study of three different methods aimed at optimizing existing groundwater monitoring networks. Monitoring piezometric heads in subsurface porous formations is crucial at regional scales to properly characterize the relevant subsurf ...
Elsevier2024
Afficher plus
Concepts associés (18)
Data wrangling
Data wrangling, sometimes referred to as data munging, is the process of transforming and mapping data from one "raw" data form into another format with the intent of making it more appropriate and valuable for a variety of downstream purposes such as analytics. The goal of data wrangling is to assure quality and useful data. Data analysts typically spend the majority of their time in the process of data wrangling compared to the actual analysis of the data.
Computational statistics
Computational statistics, or statistical computing, is the bond between statistics and computer science. It means statistical methods that are enabled by using computational methods. It is the area of computational science (or scientific computing) specific to the mathematical science of statistics. This area is also developing rapidly, leading to calls that a broader concept of computing should be taught as part of general statistical education.
Big data
Le big data ( « grosses données » en anglais), les mégadonnées ou les données massives, désigne les ressources d’informations dont les caractéristiques en termes de volume, de vélocité et de variété imposent l’utilisation de technologies et de méthodes analytiques particulières pour créer de la valeur, et qui dépassent en général les capacités d'une seule et unique machine et nécessitent des traitements parallélisés. L’explosion quantitative (et souvent redondante) des données numériques permet une nouvelle approche pour analyser le monde.
Afficher plus
MOOCs associés (32)
Humanitarian Action in the Digital Age
The first MOOC about responsible use of technology for humanitarians. Learn about technology and identify risks and opportunities when designing digital solutions.
Systèmes d’Information Géographique 1
Organisé en deux parties, ce cours présente les bases théoriques et pratiques des systèmes d’information géographique, ne nécessitant pas de connaissances préalables en informatique. En suivant cette
Systèmes d’Information Géographique 1
Organisé en deux parties, ce cours présente les bases théoriques et pratiques des systèmes d’information géographique, ne nécessitant pas de connaissances préalables en informatique. En suivant cette
Afficher plus

Graph Chatbot

Chattez avec Graph Search

Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.

AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.