Topic modelvignette|Visualisation du résumé d'un article scientifique traité par topic model. L'intensité de la couleur varie selon la probabilité d'appartenir au topic en question. En apprentissage automatique et en traitement automatique du langage naturel, un topic model (modèle thématique ou « modèle de sujet ») est un modèle probabiliste permettant de déterminer des sujets ou thèmes abstraits dans un document. Analyse sémantique latente (LSA) Allocation de Dirichlet latente (LDA) Analyse sémantique latente probab
Generalization errorFor supervised learning applications in machine learning and statistical learning theory, generalization error (also known as the out-of-sample error or the risk) is a measure of how accurately an algorithm is able to predict outcome values for previously unseen data. Because learning algorithms are evaluated on finite samples, the evaluation of a learning algorithm may be sensitive to sampling error. As a result, measurements of prediction error on the current data may not provide much information about predictive ability on new data.
Champ aléatoire conditionnelLes champs aléatoires conditionnels (conditional random fields ou CRFs) sont une classe de modèles statistiques utilisés en reconnaissance des formes et plus généralement en apprentissage statistique. Les CRFs permettent de prendre en compte l'interaction de variables « voisines ». Ils sont souvent utilisés pour des données séquentielles (langage naturel, séquences biologiques, vision par ordinateur). Les CRFs sont un exemple de réseau probabiliste non orienté.
Inférence bayésiennevignette|Illustration comparant les approches fréquentiste et bayésienne (Christophe Michel, 2018). L’inférence bayésienne est une méthode d'inférence statistique par laquelle on calcule les probabilités de diverses causes hypothétiques à partir de l'observation d'événements connus. Elle s'appuie principalement sur le théorème de Bayes. Le raisonnement bayésien construit, à partir d'observations, une probabilité de la cause d'un type d'événements.
Modèle d'équations structurellesLa modélisation d'équations structurelles ou la modélisation par équations structurelles ou encore la modélisation par équations structurales (en anglais structural equation modeling ou SEM) désignent un ensemble diversifié de modèles mathématiques, algorithmes informatiques et méthodes statistiques qui font correspondre un réseau de concepts à des données. On parle alors de modèles par équations structurales, ou de modèles en équations structurales ou encore de modèles d’équations structurelles.
Acquisition compriméeL'acquisition comprimée (en anglais compressed sensing) est une technique permettant de trouver la solution la plus parcimonieuse d'un système linéaire sous-déterminé. Elle englobe non seulement les moyens pour trouver cette solution mais aussi les systèmes linéaires qui sont admissibles. En anglais, elle porte le nom de Compressive sensing, Compressed Sampling ou Sparse Sampling.
Sequential pattern miningSequential pattern mining is a topic of data mining concerned with finding statistically relevant patterns between data examples where the values are delivered in a sequence. It is usually presumed that the values are discrete, and thus time series mining is closely related, but usually considered a different activity. Sequential pattern mining is a special case of structured data mining. There are several key traditional computational problems addressed within this field.
Causal graphIn statistics, econometrics, epidemiology, genetics and related disciplines, causal graphs (also known as path diagrams, causal Bayesian networks or DAGs) are probabilistic graphical models used to encode assumptions about the data-generating process. Causal graphs can be used for communication and for inference. They are complementary to other forms of causal reasoning, for instance using causal equality notation. As communication devices, the graphs provide formal and transparent representation of the causal assumptions that researchers may wish to convey and defend.
Inférence causaleL'inférence causale est le processus par lequel on peut établir une relation de causalité entre un élément et ses effets. C'est un champ de recherche à la croisée des statistiques, de l'économétrie, de l'épidémiologie, de la méthodologie politique et de l'intelligence artificielle. En 1920, Sewall Wright développe la première path analysis. Cette analyse graphique des relations de causalité entre les variables constitue selon Judea Pearl un travail pionnier dans l'inférence causale.
Analyse sémantique latente probabilisteL’analyse sémantique latente probabiliste (de l'anglais, Probabilistic latent semantic analysis : PLSA), aussi appelée indexation sémantique latente probabiliste (PLSI), est une méthode de traitement automatique des langues inspirée de l'analyse sémantique latente. Elle améliore cette dernière en incluant un modèle statistique particulier. La PLSA possède des applications dans le filtrage et la recherche d'information, le traitement des langues naturelles, l'apprentissage automatique et les domaines associés.