Jeu de donnéesvignette|Représentation du jeu de données Iris sur ses quatre dimensions|420x420px Un jeu de données (en anglais dataset ou data set) est un ensemble de valeurs « organisées » ou « contextualisées » (alias « données »), où chaque valeur est associée à une variable (ou attribut) et à une observation. Une variable décrit l'ensemble des valeurs décrivant le même attribut et une observation contient l'ensemble des valeurs décrivant les attributs d'une unité (ou individu statistique).
Modèle mixteUn modèle mixte est un modèle statistique qui comporte à la fois des effets fixes et des effets aléatoires. Ce type de modèle est utile dans une grande variété de domaines, tels que la physique, la biologie ou encore les sciences sociales. Les modèles mixtes sont particulièrement utiles dans les situations où des mesures répétées sont effectuées sur les mêmes variables (étude longitudinale). Ils sont souvent préférés à d'autres approches telle que rANOVA, dans la mesure où ils peuvent être utilisés dans le cas où le jeu de données présente des valeurs manquantes.
Indicateur de dispersionEn statistique, un indicateur de dispersion mesure la variabilité des valeurs d’une série statistique. Il est toujours positif et d’autant plus grand que les valeurs de la série sont étalées. Les plus courants sont la variance, l'écart-type et l'écart interquartile. Ces indicateurs complètent l’information apportée par les indicateurs de position ou de tendance centrale, mesurés par la moyenne ou la médiane. Dans la pratique, c'est-à-dire dans l'industrie, les laboratoires ou en métrologie, où s'effectuent des mesurages, cette dispersion est estimée par l'écart type.
TensorFlowTensorFlow est un outil open source d'apprentissage automatique développé par Google. Le code source a été ouvert le par Google et publié sous licence Apache. Il est fondé sur l'infrastructure DistBelief, initiée par Google en 2011, et est doté d'une interface pour Python, Julia et R TensorFlow est l'un des outils les plus utilisés en IA dans le domaine de l'apprentissage machine. À partir de 2011, Google Brain a développé un outil propriétaire d'apprentissage automatique fondé sur l'apprentissage profond.
Data transformation (computing)In computing, data transformation is the process of converting data from one format or structure into another format or structure. It is a fundamental aspect of most data integration and data management tasks such as data wrangling, data warehousing, data integration and application integration. Data transformation can be simple or complex based on the required changes to the data between the source (initial) data and the target (final) data. Data transformation is typically performed via a mixture of manual and automated steps.
Adversarial machine learningAdversarial machine learning is the study of the attacks on machine learning algorithms, and of the defenses against such attacks. A survey from May 2020 exposes the fact that practitioners report a dire need for better protecting machine learning systems in industrial applications. To understand, note that most machine learning techniques are mostly designed to work on specific problem sets, under the assumption that the training and test data are generated from the same statistical distribution (IID).
Processus stochastiqueUn processus ou processus aléatoire (voir Calcul stochastique) ou fonction aléatoire (voir Probabilité) représente une évolution, discrète ou à temps continu, d'une variable aléatoire. Celle-ci intervient dans le calcul classique des probabilités, où elle mesure chaque résultat possible (ou réalisation) d'une épreuve. Cette notion se généralise à plusieurs dimensions. Un cas particulier important, le champ aléatoire de Markov, est utilisé en analyse spatiale.
Multilevel modelMultilevel models (also known as hierarchical linear models, linear mixed-effect model, mixed models, nested data models, random coefficient, random-effects models, random parameter models, or split-plot designs) are statistical models of parameters that vary at more than one level. An example could be a model of student performance that contains measures for individual students as well as measures for classrooms within which the students are grouped.
Problème du sac à dosEn algorithmique, le problème du sac à dos, parfois noté (KP) (de l'anglais Knapsack Problem) est un problème d'optimisation combinatoire. Ce problème classique en informatique et en mathématiques modélise une situation analogue au remplissage d'un sac à dos. Il consiste à trouver la combinaison d'éléments la plus précieuse à inclure dans un sac à dos, étant donné un ensemble d'éléments décrits par leurs poids et valeurs.
Algorithme d'apprentissage incrémentalEn informatique, un algorithme d'apprentissage incrémental ou incrémentiel est un algorithme d'apprentissage qui a la particularité d'être online, c'est-à-dire qui apprend à partir de données reçues au fur et à mesure du temps. À chaque incrément il reçoit des données d'entrées et un résultat, l'algorithme calcule alors une amélioration du calcul fait pour prédire le résultat à partir des données d'entrées.