Dans le domaine du traitement automatique des langues, l’allocation de Dirichlet latente (de l’anglais Latent Dirichlet Allocation) ou LDA est un modèle génératif probabiliste permettant d’expliquer des ensembles d’observations, par le moyen de groupes non observés, eux-mêmes définis par des similarités de données. Par exemple, si les observations () sont les mots collectés dans un ensemble de documents textuels (), le modèle LDA suppose que chaque document () est un mélange () d’un petit nombre de sujets ou thèmes ( topics), et que la génération de chaque occurrence d’un mot () est attribuable (probabilité) à l’un des thèmes () du document. Le modèle LDA est un exemple de « modèle de sujet » . Il a d'abord été présenté comme un modèle graphique pour la détection de thématiques d’un document, par David Blei, Andrew Ng et Michael Jordan en . Les applications de la LDA sont nombreuses, notamment en fouille de données et en traitement automatique des langues. On fixe un nombre K de thèmes et on cherche à apprendre les thèmes représentés dans chaque document et les mots associés à ces thèmes. On attribue un thème à chaque mot de chaque document, selon une distribution de Dirichlet sur un ensemble de K thèmes. avec et est une distribution de Dirichlet avec un paramètre symétrique creux () Ceci génère un premier « modèle de sujet » : des thèmes présents dans les documents et les mots définissant les thèmes. Ce modèle de sujet est très peu vraisemblable car généré aléatoirement. On cherche à améliorer le modèle de sujet généré aléatoirement en initialisation. Pour cela, dans chaque document, on prend chaque mot et on met à jour le thème auquel il est lié. Ce nouveau thème est celui qui aurait la plus forte probabilité de le générer dans ce document. On fait donc l’hypothèse que tous les thèmes sont corrects, sauf pour le mot en question. Plus précisément : pour chaque mot () de chaque document (), on calcule deux quantités pour chaque thème () : la probabilité que le document soit assigné au thème la probabilité que le thème dans le corpus soit assigné au mot On choisit alors le nouveau thème t avec la probabilité .

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
Cours associés (8)
DH-406: Machine learning for DH
This course aims to introduce the basic principles of machine learning in the context of the digital humanities. We will cover both supervised and unsupervised learning techniques, and study and imple
CS-423: Distributed information systems
This course introduces the foundations of information retrieval, data mining and knowledge bases, which constitute the foundations of today's Web-based distributed information systems.
FIN-616: Financial Econometrics II (2020 -2024)
This course has 3 parts
  • We understand how to use moment based estimations to obtain the parameters for explicit or implicit models.
  • We learn how to estimate latent parameters in a time series cont
Afficher plus
Séances de cours associées (46)
Modèles du sujet: Allocation de dirichlet latent
Présente l'attribution des dirichlets latents pour la modélisation des sujets dans les documents, en discutant de son processus, de ses demandes et de ses limites.
Indexation sémantique latente : fichiers inversés
Explore les indices de décalage terminologique dans les fichiers inversés et les solutions de rétroaction de pertinence.
Modèles du sujet: Comprendre les structures latentes
Explore les modèles thématiques, les modèles de mélange gaussien, la répartition des dirichlets latents et l'inférence variationnelle dans la compréhension des structures latentes à l'intérieur des données.
Afficher plus
Publications associées (143)

Investigating latent behaviour in multiday activity scheduling

In practice, most operational activity-based models have focused on single-day analyses. This common simplifying assumption significantly limits the models' behavioural realism, as they cannot adequately capture the dynamics and processes involved in the s ...
2024

Analysis of a Class of Multilevel Markov Chain Monte Carlo Algorithms Based on Independent Metropolis–Hastings

Fabio Nobile, Juan Pablo Madrigal Cianci

In this work, we present, analyze, and implement a class of multilevel Markov chain Monte Carlo(ML-MCMC) algorithms based on independent Metropolis--Hastings proposals for Bayesian inverse problems. In this context, the likelihood function involves solving ...
2023

An Ordinal Latent Variable Model of Conflict Intensity

Robert West

Measuring the intensity of events is crucial for monitoring and tracking armed conflict. Advances in automated event extraction have yielded massive data sets of '' who did what to whom '' micro-records that enable datadriven approaches to monitoring confl ...
Assoc Computational Linguistics-Acl2023
Afficher plus
Concepts associés (12)
Categorical distribution
In probability theory and statistics, a categorical distribution (also called a generalized Bernoulli distribution, multinoulli distribution) is a discrete probability distribution that describes the possible results of a random variable that can take on one of K possible categories, with the probability of each category separately specified. There is no innate underlying ordering of these outcomes, but numerical labels are often attached for convenience in describing the distribution, (e.g. 1 to K).
Variational Bayesian methods
Variational Bayesian methods are a family of techniques for approximating intractable integrals arising in Bayesian inference and machine learning. They are typically used in complex statistical models consisting of observed variables (usually termed "data") as well as unknown parameters and latent variables, with various sorts of relationships among the three types of random variables, as might be described by a graphical model. As typical in Bayesian inference, the parameters and latent variables are grouped together as "unobserved variables".
Analyse sémantique latente probabiliste
L’analyse sémantique latente probabiliste (de l'anglais, Probabilistic latent semantic analysis : PLSA), aussi appelée indexation sémantique latente probabiliste (PLSI), est une méthode de traitement automatique des langues inspirée de l'analyse sémantique latente. Elle améliore cette dernière en incluant un modèle statistique particulier. La PLSA possède des applications dans le filtrage et la recherche d'information, le traitement des langues naturelles, l'apprentissage automatique et les domaines associés.
Afficher plus

Graph Chatbot

Chattez avec Graph Search

Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.

AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.