Dans le domaine du traitement automatique des langues, l’allocation de Dirichlet latente (de l’anglais Latent Dirichlet Allocation) ou LDA est un modèle génératif probabiliste permettant d’expliquer des ensembles d’observations, par le moyen de groupes non observés, eux-mêmes définis par des similarités de données.
Par exemple, si les observations () sont les mots collectés dans un ensemble de documents textuels (), le modèle LDA suppose que chaque document () est un mélange () d’un petit nombre de sujets ou thèmes ( topics), et que la génération de chaque occurrence d’un mot () est attribuable (probabilité) à l’un des thèmes () du document. Le modèle LDA est un exemple de « modèle de sujet » . Il a d'abord été présenté comme un modèle graphique pour la détection de thématiques d’un document, par David Blei, Andrew Ng et Michael Jordan en . Les applications de la LDA sont nombreuses, notamment en fouille de données et en traitement automatique des langues.
On fixe un nombre K de thèmes et on cherche à apprendre les thèmes représentés dans chaque document et les mots associés à ces thèmes.
On attribue un thème à chaque mot de chaque document, selon une distribution de Dirichlet sur un ensemble de K thèmes.
avec et
est une distribution de Dirichlet avec un paramètre symétrique creux ()
Ceci génère un premier « modèle de sujet » : des thèmes présents dans les documents et les mots définissant les thèmes. Ce modèle de sujet est très peu vraisemblable car généré aléatoirement.
On cherche à améliorer le modèle de sujet généré aléatoirement en initialisation.
Pour cela, dans chaque document, on prend chaque mot et on met à jour le thème auquel il est lié. Ce nouveau thème est celui qui aurait la plus forte probabilité de le générer dans ce document. On fait donc l’hypothèse que tous les thèmes sont corrects, sauf pour le mot en question.
Plus précisément : pour chaque mot () de chaque document (), on calcule deux quantités pour chaque thème () :
la probabilité que le document soit assigné au thème
la probabilité que le thème dans le corpus soit assigné au mot
On choisit alors le nouveau thème t avec la probabilité .
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
In probability theory and statistics, a categorical distribution (also called a generalized Bernoulli distribution, multinoulli distribution) is a discrete probability distribution that describes the possible results of a random variable that can take on one of K possible categories, with the probability of each category separately specified. There is no innate underlying ordering of these outcomes, but numerical labels are often attached for convenience in describing the distribution, (e.g. 1 to K).
Variational Bayesian methods are a family of techniques for approximating intractable integrals arising in Bayesian inference and machine learning. They are typically used in complex statistical models consisting of observed variables (usually termed "data") as well as unknown parameters and latent variables, with various sorts of relationships among the three types of random variables, as might be described by a graphical model. As typical in Bayesian inference, the parameters and latent variables are grouped together as "unobserved variables".
L’analyse sémantique latente probabiliste (de l'anglais, Probabilistic latent semantic analysis : PLSA), aussi appelée indexation sémantique latente probabiliste (PLSI), est une méthode de traitement automatique des langues inspirée de l'analyse sémantique latente. Elle améliore cette dernière en incluant un modèle statistique particulier. La PLSA possède des applications dans le filtrage et la recherche d'information, le traitement des langues naturelles, l'apprentissage automatique et les domaines associés.
This course aims to introduce the basic principles of machine learning in the context of the digital humanities. We will cover both supervised and unsupervised learning techniques, and study and imple
This course introduces the foundations of information retrieval, data mining and knowledge bases, which constitute the foundations of today's Web-based distributed information systems.
Présente l'attribution des dirichlets latents pour la modélisation des sujets dans les documents, en discutant de son processus, de ses demandes et de ses limites.
In practice, most operational activity-based models have focused on single-day analyses. This common simplifying assumption significantly limits the models' behavioural realism, as they cannot adequately capture the dynamics and processes involved in the s ...
2024
Measuring the intensity of events is crucial for monitoring and tracking armed conflict. Advances in automated event extraction have yielded massive data sets of '' who did what to whom '' micro-records that enable datadriven approaches to monitoring confl ...
Assoc Computational Linguistics-Acl2023
,
In this work, we present, analyze, and implement a class of multilevel Markov chain Monte Carlo(ML-MCMC) algorithms based on independent Metropolis--Hastings proposals for Bayesian inverse problems. In this context, the likelihood function involves solving ...