Statistique multivariéeEn statistique, les analyses multivariées ont pour caractéristique de s'intéresser à des lois de probabilité à plusieurs variables. Les analyses bivariées sont des cas particuliers à deux variables. Les analyses multivariées sont très diverses selon l'objectif recherché, la nature des variables et la mise en œuvre formelle. On peut identifier deux grandes familles : celle des méthodes descriptives (visant à structurer et résumer l'information) et celle des méthodes explicatives visant à expliquer une ou des variables dites « dépendantes » (variables à expliquer) par un ensemble de variables dites « indépendantes » (variables explicatives).
Apprentissage superviséL'apprentissage supervisé (supervised learning en anglais) est une tâche d'apprentissage automatique consistant à apprendre une fonction de prédiction à partir d'exemples annotés, au contraire de l'apprentissage non supervisé. On distingue les problèmes de régression des problèmes de classement. Ainsi, on considère que les problèmes de prédiction d'une variable quantitative sont des problèmes de régression tandis que les problèmes de prédiction d'une variable qualitative sont des problèmes de classification.
Données brutesLes données brutes (aussi connu comme données primaires) sont les données non interprétées émanant d'une source primaire, ayant des caractéristiques liées à celle-ci et qui n'ont été soumises à aucun traitement ou toute autre manipulation. Les données brutes peuvent être entrées dans un programme informatique ou utilisées dans des procédures manuelles telles que l'analyse statistique d'une enquête. Il peut s'agir des données binaires des périphériques de stockage électroniques comme les lecteurs de disque dur.
Edge-localized modeAn edge-localized mode (ELM) is a plasma instability occurring in the edge region of a tokamak plasma due to periodic relaxations of the edge transport barrier in high-confinement mode. Each ELM burst is associated with expulsion of particles and energy from the confined plasma into the scrape-off layer. This phenomenon was first observed in the ASDEX tokamak in 1981. Diamagnetic effects in the model equations expand the size of the parameter space in which solutions of repeated sawteeth can be recovered compared to a resistive MHD model.
AnalyticsAnalytics is the systematic computational analysis of data or statistics. It is used for the discovery, interpretation, and communication of meaningful patterns in data. It also entails applying data patterns toward effective decision-making. It can be valuable in areas rich with recorded information; analytics relies on the simultaneous application of statistics, computer programming, and operations research to quantify performance. Organizations may apply analytics to business data to describe, predict, and improve business performance.
Biais algorithmiquevignette|Organigramme représentant l'algorithme derrière un moteur de recommandation. Un biais algorithmique est le fait que le résultat d'un algorithme d'apprentissage ne soit pas neutre, loyal ou équitable. Le biais algorithmique peut se produire lorsque les données utilisées pour entraîner un algorithme d'apprentissage automatique reflètent les valeurs implicites des humains impliqués dans la collecte, la sélection, ou l'utilisation de ces données.
Analyse de variance multivariéeL'analyse de variance multivariée (ou MANOVA pour ) est un test statistique qui vise à déterminer si des facteurs qualitatifs ont des effets significatifs sur plusieurs variables dépendantes quantitatives prises collectivement. En cela, la MANOVA est donc une généralisation de l'analyse de la variance (ANOVA), qui est univariée, c'est-à-dire qui ne porte que sur une seule variable dépendante. La MANOVA est aussi utilisée pour identifier des interactions entre les variables dépendantes et entre les variables indépendantes.
Théorie de l'apprentissage statistiqueLa théorie de l'apprentissage statistique est un système d'apprentissage automatique à partir des domaines de la statistique et de l'analyse fonctionnelle. La théorie de l'apprentissage statistique traite du problème de la recherche d'une fonction prédictive basée sur des données. La théorie de l'apprentissage statistique a conduit à des applications dans des domaines tels que la vision par ordinateur, la reconnaissance de la parole, la bioinformatique. Les objectifs de l'apprentissage sont la prédiction et la compréhension.
Jeux d'entrainement, de validation et de testEn apprentissage automatique, une tâche courante est l'étude et la construction d'algorithmes qui peuvent apprendre et faire des prédictions sur les données. De tels algorithmes fonctionnent en faisant des prédictions ou des décisions basées sur les données, en construisant un modèle mathématique à partir des données d'entrée. Ces données d'entrée utilisées pour construire le modèle sont généralement divisées en plusieurs jeux de données .
Visualisation de donnéesvignette|upright=2|Carte figurative des pertes successives en hommes de l'armée française dans la campagne de Russie 1812-1813, par Charles Minard, 1869. La visualisation des données (ou dataviz ou représentation graphique de données) est un ensemble de méthodes permettant de résumer de manière graphique des données statistiques qualitatives et surtout quantitatives afin de montrer les liens entre des ensembles de ces données. Cette fait partie de la science des données.