Confirmatory factor analysisIn statistics, confirmatory factor analysis (CFA) is a special form of factor analysis, most commonly used in social science research. It is used to test whether measures of a construct are consistent with a researcher's understanding of the nature of that construct (or factor). As such, the objective of confirmatory factor analysis is to test whether the data fit a hypothesized measurement model. This hypothesized model is based on theory and/or previous analytic research.
Locality sensitive hashingLocality sensitive hashing (LSH) est une méthode de recherche approximative dans des espaces de grande dimension. C'est une solution au problème de la malédiction de la dimension qui apparait lors d'une recherche des plus proches voisins en grande dimension. L'idée principale est d'utiliser une famille de fonction de hachage choisies telles que des points proches dans l'espace d'origine aient une forte probabilité d'avoir la même valeur de hachage. La méthode a de nombreuses applications en vision artificielle, traitement automatique de la langue, bio-informatique.
Partitionnement de grapheEn théorie des graphes et en algorithmique, le partitionnement de graphe est la tâche qui consiste à diviser un graphe orienté ou non orienté en plusieurs parties. Plusieurs propriétés peuvent être recherchées pour ce découpage, par exemple on peut minimiser le nombre d'arêtes liant deux parties différentes. Coupe maximum et Coupe minimum sont deux exemples communs de partitionnement de graphe. Une partition d'un graphe est une partition de ses nœuds, ou plus rarement de ses arêtes.
Data extractionData extraction is the act or process of retrieving data out of (usually unstructured or poorly structured) data sources for further data processing or data storage (data migration). The import into the intermediate extracting system is thus usually followed by data transformation and possibly the addition of metadata prior to export to another stage in the data workflow. Usually, the term data extraction is applied when (experimental) data is first imported into a computer from primary sources, like measuring or recording devices.
Modèle discriminatifDiscriminative models, also referred to as conditional models, are a class of logistical models used for classification or regression. They distinguish decision boundaries through observed data, such as pass/fail, win/lose, alive/dead or healthy/sick. Typical discriminative models include logistic regression (LR), conditional random fields (CRFs) (specified over an undirected graph), decision trees, and many others. Typical generative model approaches include naive Bayes classifiers, Gaussian mixture models, variational autoencoders, generative adversarial networks and others.
Modèle génératifvignette|Schéma représentant la différence entre un modèle discriminatif et un modèle génératif. En classement automatique un modèle génératif est un modèle statistique défini par opposition à un modèle discriminatif. Étant donné une variable X à laquelle il doit associer une autre variable Y, le modèle génératif cherchera à décrire la probabilité conditionnelle ainsi que la probabilité puis d'utiliser la formule de Bayes pour calculer la probabilité .
Data PreprocessingData preprocessing can refer to manipulation or dropping of data before it is used in order to ensure or enhance performance, and is an important step in the data mining process. The phrase "garbage in, garbage out" is particularly applicable to data mining and machine learning projects. Data collection methods are often loosely controlled, resulting in out-of-range values, impossible data combinations, and missing values, amongst other issues. Analyzing data that has not been carefully screened for such problems can produce misleading results.
Réseau bayésien dynamiquealt=Réseau bayésien dynamique composé de 3 variables chacune dédoublé dans les temps t et t-1. Soit un graphe de 6 noeuds.|vignette|575x575px|Réseau bayésien dynamique de 3 variables. Un réseau bayésien dynamique ou temporel (souvent noté RBD, ou DBN pour Dynamic Bayesian Network) est un modèle statistique et stochastique qui étend la notion de réseau bayésien. À la différence de ces derniers, un réseau bayésien dynamique permet de représenter l'évolution des variables aléatoires en fonction d'une séquence discrète, par exemple des pas temporels.
Champ aléatoire de MarkovUn champ aléatoire de Markov est un ensemble de variables aléatoires vérifiant une propriété de Markov relativement à un graphe non orienté. C'est un modèle graphique. Soit un graphe non orienté et un ensemble de variables aléatoires indexé par les sommets de . On dit que est un champ aléatoire de Markov relativement à si une des trois propriétés suivantes est vérifiée c'est-à-dire que deux variables aléatoires dont les sommets associés ne sont pas voisins dans le graphe sont indépendantes conditionnellement à toutes les autres variables.
Partitionnement spectralEn informatique théorique, le partitionnement spectral ou spectral clustering en anglais, est un type de partitionnement de données prenant en compte les propriétés spectrales de l'entrée. Le partitionnement spectral utilise le plus souvent les vecteurs propres d'une matrice de similarités. Par rapport à des algorithmes classiques comme celui des k-moyennes, cette technique offre l'avantage de classer des ensembles de données de structure « non-globulaire », dans un espace de représentation adéquat.