Imputation (statistique)En statistique, l’imputation désigne le processus de remplacement des données manquantes avec des valeurs substituées. Quand un point de données est substitué, on parle d’imputation unitaire ; quand une composante de point de données est substituée, on parle d’imputation d'items. Des données manquantes peuvent être à l'origine de trois types de problèmes : elles peuvent introduire une quantité importante de biais statistiques ; elles peuvent rendre le traitement et l'analyse des données plus laborieux ; elles peuvent réduire l'efficacité des méthodes statistiques.
Plate notationIn Bayesian inference, plate notation is a method of representing variables that repeat in a graphical model. Instead of drawing each repeated variable individually, a plate or rectangle is used to group variables into a subgraph that repeat together, and a number is drawn on the plate to represent the number of repetitions of the subgraph in the plate. The assumptions are that the subgraph is duplicated that many times, the variables in the subgraph are indexed by the repetition number, and any links that cross a plate boundary are replicated once for each subgraph repetition.
Topic modelvignette|Visualisation du résumé d'un article scientifique traité par topic model. L'intensité de la couleur varie selon la probabilité d'appartenir au topic en question. En apprentissage automatique et en traitement automatique du langage naturel, un topic model (modèle thématique ou « modèle de sujet ») est un modèle probabiliste permettant de déterminer des sujets ou thèmes abstraits dans un document. Analyse sémantique latente (LSA) Allocation de Dirichlet latente (LDA) Analyse sémantique latente probab
Variable latenteIn statistics, latent variables (from Latin: present participle of lateo, “lie hidden”) are variables that can only be inferred indirectly through a mathematical model from other observable variables that can be directly observed or measured. Such latent variable models are used in many disciplines, including political science, demography, engineering, medicine, ecology, physics, machine learning/artificial intelligence, bioinformatics, chemometrics, natural language processing, management, psychology and the social sciences.
Jeu de donnéesvignette|Représentation du jeu de données Iris sur ses quatre dimensions|420x420px Un jeu de données (en anglais dataset ou data set) est un ensemble de valeurs « organisées » ou « contextualisées » (alias « données »), où chaque valeur est associée à une variable (ou attribut) et à une observation. Une variable décrit l'ensemble des valeurs décrivant le même attribut et une observation contient l'ensemble des valeurs décrivant les attributs d'une unité (ou individu statistique).
Location-based serviceA location-based service (LBS) is a general term denoting software services which use geographic data and information to provide services or information to users. LBS can be used in a variety of contexts, such as health, indoor object search, entertainment, work, personal life, etc. Commonly used examples of location based services include navigation software, social networking services, location-based advertising, and tracking systems. LBS can also include mobile commerce when taking the form of coupons or advertising directed at customers based on their current location.
Apprentissage actifL’apprentissage actif est un modèle d’apprentissage semi-supervisé où un oracle intervient au cours du processus. Plus précisément, contrairement au cadre classique où les données sont connues et imposées, en apprentissage actif, c'est l'algorithme d'apprentissage qui demande des informations pour des données précises. Cette technique repose sur l'hypothèse que l’acquisition de données non étiquetées est beaucoup moins coûteuse que celle de données étiquetées.
Predictive codingIn neuroscience, predictive coding (also known as predictive processing) is a theory of brain function which postulates that the brain is constantly generating and updating a "mental model" of the environment. According to the theory, such a mental model is used to predict input signals from the senses that are then compared with the actual input signals from those senses. With the rising popularity of representation learning, the theory is being actively pursued and applied in machine learning and related fields.
Predictive modellingPredictive modelling uses statistics to predict outcomes. Most often the event one wants to predict is in the future, but predictive modelling can be applied to any type of unknown event, regardless of when it occurred. For example, predictive models are often used to detect crimes and identify suspects, after the crime has taken place. In many cases, the model is chosen on the basis of detection theory to try to guess the probability of an outcome given a set amount of input data, for example given an email determining how likely that it is spam.
Partitionnement de donnéesvignette|upright=1.2|Exemple de clustering hiérarchique. Le partitionnement de données (ou data clustering en anglais) est une méthode en analyse des données. Elle vise à diviser un ensemble de données en différents « paquets » homogènes, en ce sens que les données de chaque sous-ensemble partagent des caractéristiques communes, qui correspondent le plus souvent à des critères de proximité (similarité informatique) que l'on définit en introduisant des mesures et classes de distance entre objets.