Publication

Explicit Suggestion of Query Terms for News Search using Topic Models and Word Embeddings

Andrei Popescu-Belis, Parvaz Mahdabi
2016
Rapport ou document de travail
Résumé

This report presents a study on assisting users in building queries to perform real-time searches in a news and social media monitoring system. The system accepts complex queries, and we assist the user by suggesting related keywords or entities. We do this by leveraging two different word representations: (1) probabilistic topic models, and (2) unsupervised word embeddings. We compare the vector representations obtained by these two approaches to find related keywords (i.e. suggestions) with respect to specific queries, taken from the query log of a commercial system. Through crowdsourcing we solicited relevance judgments and compared the two methods. Our results show that word embeddings outperform topic models for keyword suggestion.

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
Concepts associés (21)
Plongement lexical
Le plongement lexical (« word embedding » en anglais) est une méthode d'apprentissage d'une représentation de mots utilisée notamment en traitement automatique des langues. Le terme devrait plutôt être rendu par vectorisation de mots pour correspondre plus proprement à cette méthode. Cette technique permet de représenter chaque mot d'un dictionnaire par un vecteur de nombres réels. Cette nouvelle représentation a ceci de particulier que les mots apparaissant dans des contextes similaires possèdent des vecteurs correspondants qui sont relativement proches.
Word2vec
En intelligence artificielle et en apprentissage machine, Word2vec est un groupe de modèles utilisé pour le plongement lexical (word embedding). Ces modèles ont été développés par une équipe de recherche chez Google sous la direction de . Ce sont des réseaux de neurones artificiels à deux couches entraînés pour reconstruire le contexte linguistique des mots. La méthode est implémentée dans la bibliothèque Python Gensim. Deux architectures ont été initialement proposées pour apprendre les Word2vec, le modèle de sacs de mots continus (CBOW: continuous bag of words) et le modèle skip-gram.
Désambiguïsation lexicale
La désambiguïsation lexicale ou désambigüisation lexicale est la détermination du sens d'un mot dans une phrase lorsque ce mot peut avoir plusieurs sens possibles. Dans la linguistique informatique, la désambiguïsation lexicale est un problème non résolu dans le traitement des langues naturelles et de l'ontologie informatique. La résolution de ce problème permettrait des avancées importantes dans d'autres champs de la linguistique informatique comme l'analyse du discours, l'amélioration de la pertinence des résultats des moteurs de recherche, la résolution des anaphores, la cohérence, l'inférence, etc.
Afficher plus
Publications associées (44)

Examining European Press Coverage of the Covid-19 No-Vax Movement: An NLP Framework

Daniel Gatica-Perez

This paper examines how the European press dealt with the no-vax reactions against the Covid-19 vaccine and the dis- and misinformation associated with this movement. Using a curated dataset of 1786 articles from 19 European newspapers on the anti-vaccine ...
ASSOC COMPUTING MACHINERY2023

Natural Language Processing (NLP) driven categorisation and detection of discourse in historical US patents

Jérôme Baudry, Nicolas Christophe Chachereau, Bhargav Srinivasa Desikan, Prakhar Gupta

Patents have traditionally been used in the history of technology as an indication of the thinking process of the inventors, of the challenges or “reverse salients” they faced, or of the social groups influencing the construction of technology. More recent ...
2022

Robustness, replicability and scalability in topic modelling

Orion B Penner

Approaches for estimating the similarity between individual publications are an area of long -standing interest in the scientometrics and informetrics communities. Traditional techniques have generally relied on references and other metadata, while text mi ...
ELSEVIER2022
Afficher plus

Graph Chatbot

Chattez avec Graph Search

Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.

AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.