Data wranglingData wrangling, sometimes referred to as data munging, is the process of transforming and mapping data from one "raw" data form into another format with the intent of making it more appropriate and valuable for a variety of downstream purposes such as analytics. The goal of data wrangling is to assure quality and useful data. Data analysts typically spend the majority of their time in the process of data wrangling compared to the actual analysis of the data.
LexicographieLa lexicographie est la science qui consiste à recenser les mots, les classer, les définir et les illustrer, par des exemples ou des expressions, pour rendre compte de l'ensemble de leurs significations et de leurs acceptions au sein d'une langue, afin de constituer un dictionnaire. Elle se distingue de la lexicologie, de la sémantique et de l'étymologie. Pierre Larousse (1817-1875) mourut avant même de voir son dictionnaire achevé. Alain Rey (1928-2020) dirigea et fut aussi le rédacteur de plusieurs types de dictionnaires dont le Dictionnaire historique de la langue française.
Jeux d'entrainement, de validation et de testEn apprentissage automatique, une tâche courante est l'étude et la construction d'algorithmes qui peuvent apprendre et faire des prédictions sur les données. De tels algorithmes fonctionnent en faisant des prédictions ou des décisions basées sur les données, en construisant un modèle mathématique à partir des données d'entrée. Ces données d'entrée utilisées pour construire le modèle sont généralement divisées en plusieurs jeux de données .
Pearson correlation coefficientIn statistics, the Pearson correlation coefficient (PCC) is a correlation coefficient that measures linear correlation between two sets of data. It is the ratio between the covariance of two variables and the product of their standard deviations; thus, it is essentially a normalized measurement of the covariance, such that the result always has a value between −1 and 1. As with covariance itself, the measure can only reflect a linear correlation of variables, and ignores many other types of relationships or correlations.
Data PreprocessingData preprocessing can refer to manipulation or dropping of data before it is used in order to ensure or enhance performance, and is an important step in the data mining process. The phrase "garbage in, garbage out" is particularly applicable to data mining and machine learning projects. Data collection methods are often loosely controlled, resulting in out-of-range values, impossible data combinations, and missing values, amongst other issues. Analyzing data that has not been carefully screened for such problems can produce misleading results.
Calcul distribuéUn calcul distribué, ou réparti ou encore partagé, est un calcul ou un traitement réparti sur plusieurs microprocesseurs et plus généralement sur plusieurs unités centrales informatiques, et on parle alors d'architecture distribuée ou de système distribué. Le calcul distribué est souvent réalisé sur des clusters de calcul spécialisés, mais peut aussi être réalisé sur des stations informatiques individuelles à plusieurs cœurs. La distribution d'un calcul est un domaine de recherche des sciences mathématiques et informatiques.
Production décentralisée (énergie)Aussi appelé production distribuée (calque de l'anglais), la production décentralisée est la production d'énergie électrique à l'aide d'installations de petite capacité raccordées au réseau électrique à des niveaux de tension peu élevée : basse ou moyenne tension. thumb|upright=1.2|Éolienne urbaine de 2 m de diamètre, puissance 1,75 kW à 14 m/s, Saint-Sébastien (Espagne), 2010. Spécialement développée pour obtenir un très faible niveau sonore. Hauteur du mât : 5,5 m, vitesse de démarrage : 2,5 m/s, durée de vie : 20 ans, conforme au code de l'urbanisme espagnol.
Empirical risk minimizationEmpirical risk minimization (ERM) is a principle in statistical learning theory which defines a family of learning algorithms and is used to give theoretical bounds on their performance. The core idea is that we cannot know exactly how well an algorithm will work in practice (the true "risk") because we don't know the true distribution of data that the algorithm will work on, but we can instead measure its performance on a known set of training data (the "empirical" risk).
Efficacité énergétique (économie)En économie, l’efficacité énergétique ou efficience énergétique désigne l'état de fonctionnement d'un système pour lequel la consommation d’énergie est minimisée pour un service rendu identique. C'est un cas particulier de la notion d’efficience. Elle concerne notamment les transports motorisés, les métiers du bâtiment et l'industrie (ces derniers étant responsables respectivement d'environ 40 % et 25 % de la consommation énergétique totale de l'Union européenne).