Catégorie

Science des données

Résumé
La science des données est l'étude de l’extraction automatisée de connaissance à partir de grands ensembles de données. Plus précisément, la science des données est un domaine interdisciplinaire qui utilise des méthodes, des processus, des algorithmes et des systèmes scientifiques pour extraire des connaissances et des idées à partir de nombreuses données structurées ou non . Elle est souvent associée aux données massives et à l'analyse des données. Elle utilise des techniques et des théories tirées de nombreux domaines dans le contexte des mathématiques, des statistiques, de l'informatique, de la théorie et des technologies de l'information, parmi lesquelles : l’apprentissage automatique, la compression de données et le calcul à haute performance. La science des données produit des méthodes de tri et d’analyse de données de masse afin d’en extraire des informations utiles. Pour cela, elle se met en œuvre selon quatre étapes : La fouille, Le nettoyage/formatage, Le traitement : Traitements classiques, Apprentissage automatique, Visualisation de données, L'exploitation des résultats sous forme de tableaux de bord et d'outils d'aide à la décision, de la publication de résultats (interne à l'entreprise, ou publics) Le spécialiste de science de données est donc souvent appelé à faire appel aux statistiques et au traitement du signal. Il s'attelle donc à la classification, au nettoyage, à l'exploration et à l'analyse de bases de données plus ou moins interopérables. Cette discipline est issue de l'apparition et du développement des bases de données et de l'Internet et répond aussi à la complexité croissante et au volume en croissance exponentielle du nombre de données numériques disponibles dans le monde (infobésité). Elle a reçu beaucoup d'attention dernièrement grâce à l’intérêt grandissant pour les "données massives". Cependant, la science des données ne se limite pas à l’étude de bases de données pouvant être qualifiées de "données massives".
À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
Catégories associées (29)
Modèle graphique
Un modèle graphique est une représentation d'objets probabilistes. C'est un graphe qui représente les dépendances de variables aléatoires. Ces modèles sont notamment utilisés en apprentissage automatique. Un modèle graphique est un graphe orienté ou non orienté, c'est-à-dire un ensemble, les « sommets », et des liens entre les sommets, les « arêtes ». Chaque sommet représente une variable aléatoire et chaque arête représente une dépendance de ces variables. Dans l'exemple ci-contre, il y a 4 variables aléatoires A, B, C et D.
Réduction de la dimensionnalité
vignette|320x320px|Animation présentant la projection de points en deux dimensions sur les axes obtenus par analyse en composantes principales, une méthode populaire de réduction de la dimensionnalité La réduction de la dimensionnalité (ou réduction de (la) dimension) est un processus étudié en mathématiques et en informatique, qui consiste à prendre des données dans un espace de grande dimension, et à les remplacer par des données dans un espace de plus petite dimension.
Science des données
La science des données est l'étude de l’extraction automatisée de connaissance à partir de grands ensembles de données. Plus précisément, la science des données est un domaine interdisciplinaire qui utilise des méthodes, des processus, des algorithmes et des systèmes scientifiques pour extraire des connaissances et des idées à partir de nombreuses données structurées ou non . Elle est souvent associée aux données massives et à l'analyse des données.
Afficher plus
Concepts associés (54)
Confirmatory factor analysis
In statistics, confirmatory factor analysis (CFA) is a special form of factor analysis, most commonly used in social science research. It is used to test whether measures of a construct are consistent with a researcher's understanding of the nature of that construct (or factor). As such, the objective of confirmatory factor analysis is to test whether the data fit a hypothesized measurement model. This hypothesized model is based on theory and/or previous analytic research.
Locality sensitive hashing
Locality sensitive hashing (LSH) est une méthode de recherche approximative dans des espaces de grande dimension. C'est une solution au problème de la malédiction de la dimension qui apparait lors d'une recherche des plus proches voisins en grande dimension. L'idée principale est d'utiliser une famille de fonction de hachage choisies telles que des points proches dans l'espace d'origine aient une forte probabilité d'avoir la même valeur de hachage. La méthode a de nombreuses applications en vision artificielle, traitement automatique de la langue, bio-informatique.
Partitionnement de graphe
En théorie des graphes et en algorithmique, le partitionnement de graphe est la tâche qui consiste à diviser un graphe orienté ou non orienté en plusieurs parties. Plusieurs propriétés peuvent être recherchées pour ce découpage, par exemple on peut minimiser le nombre d'arêtes liant deux parties différentes. Coupe maximum et Coupe minimum sont deux exemples communs de partitionnement de graphe. Une partition d'un graphe est une partition de ses nœuds, ou plus rarement de ses arêtes.
Afficher plus
Cours associés (181)
DH-406: Machine learning for DH
This course aims to introduce the basic principles of machine learning in the context of the digital humanities. We will cover both supervised and unsupervised learning techniques, and study and imple
PHYS-467: Machine learning for physicists
Machine learning and data analysis are becoming increasingly central in sciences including physics. In this course, fundamental principles and methods of machine learning will be introduced and practi
CS-401: Applied data analysis
This course teaches the basic techniques, methodologies, and practical skills required to draw meaningful insights from a variety of data, with the help of the most acclaimed software tools in the dat
Afficher plus
Séances de cours associées (1 000)
Gaussian Naive Bayes & K-NN
Couvre les bayes naïfs gaussiens, les voisins les plus proches du K et le réglage hyperparamétrique dans l'apprentissage automatique.
Analyse des documents : Modélisation des sujets
Explore l'analyse documentaire, la modélisation thématique et les modèles génériques pour la production de données dans l'apprentissage automatique.
Analyse des composantes principales : réduction de la dimensionnalité
Couvre l'analyse des composantes principales pour la réduction de dimensionnalité, en explorant ses applications, ses limites et l'importance de choisir les composantes appropriées.
Afficher plus
MOOCs associés (35)
Neuronal Dynamics - Computational Neuroscience of Single Neurons
The activity of neurons in the brain and the code used by these neurons is described by mathematical neuron models at different levels of detail.
Neuronal Dynamics - Computational Neuroscience of Single Neurons
The activity of neurons in the brain and the code used by these neurons is described by mathematical neuron models at different levels of detail.
IoT Systems and Industrial Applications with Design Thinking
The first MOOC to provide a comprehensive introduction to Internet of Things (IoT) including the fundamental business aspects needed to define IoT related products.
Afficher plus
Publications associées (1 000)

Robust machine learning for neuroscientific inference

Steffen Schneider

Modern neuroscience research is generating increasingly large datasets, from recording thousands of neurons over long timescales to behavioral recordings of animals spanning weeks, months, or even years. Despite a great variety in recording setups and expe ...
EPFL2024

Spectral Estimators for High-Dimensional Matrix Inference

Farzad Pourkamali

A key challenge across many disciplines is to extract meaningful information from data which is often obscured by noise. These datasets are typically represented as large matrices. Given the current trend of ever-increasing data volumes, with datasets grow ...
EPFL2024

Data and scripts for the RaFSIP scheme

Athanasios Nenes, Paraskevi Georgakaki

This repository contains microphysics routines, scripts, and processed data from the Weather Research and Forecasting (WRF) model simulations presented in the paper "RaFSIP: Parameterizing ice multiplication in models using a machine learning approach", by ...
Zenodo2024
Afficher plus
Start-ups associées (3)
Cyberhaven / CodeTickler
Active dans la protection des données, les menaces d'initiés et la technologie d'IA. Cyberhaven propose des solutions de protection des données alimentées par l'IA pour détecter et prévenir les menaces d'initiés, protégeant ainsi le flux de données dans l'économie numérique.
Ecointesys
Actif dans les domaines de l'environnement, de l'analyse d'impact et de la durabilité. Ecointesys propose des solutions innovantes d'analyse d'impact environnemental à l'aide de technologies avancées et d'analyses de données.
Thinkee
Active dans l'automatisation, la gestion des données et l'IdO. Thinkee fournit une plate-forme logicielle complète pour automatiser le suivi des processus, l'analyse des données et le suivi des interventions.