Concept

Analyse sémantique latente

L’analyse sémantique latente (LSA, de l'anglais : Latent semantic analysis) ou indexation sémantique latente (ou LSI, de l'anglais : Latent semantic indexation) est un procédé de traitement des langues naturelles, dans le cadre de la sémantique vectorielle. La LSA fut brevetée en 1988 et publiée en 1990. Elle permet d'établir des relations entre un ensemble de documents et les termes qu'ils contiennent, en construisant des « concepts » liés aux documents et aux termes. La LSA utilise une matrice qui décrit l'occurrence de certains termes dans les documents. C'est une matrice creuse dont les lignes correspondent aux « termes » et dont les colonnes correspondent aux « documents ». Les « termes » sont généralement des mots tronqués ou ramenés à leur radical, issus de l'ensemble du corpus. On a donc le nombre d'apparition d'un mot dans chaque document, et pour tous les mots. Ce nombre est normalisé en utilisant la pondération tf-idf (de l'anglais : term frequency ), combinaison de deux techniques : un coefficient de la matrice est d'autant plus grand qu'il apparaît beaucoup dans un document, et qu'il est rare . Cette matrice est courante dans les modèles sémantiques standards, comme le modèle vectoriel, quoique sa forme matricielle ne soit pas systématique, étant donné qu'on ne se sert que rarement des propriétés mathématiques des matrices. La LSA transforme la matrice des occurrences en une « relation » entre les termes et des « concepts », et une relation entre ces concepts et les documents. On peut donc relier des documents entre eux. Cette organisation entre termes et concepts est généralement employée pour : la comparaison de documents dans l'espace des concepts (classification et catégorisation de documents, partitionnement de données) ; la recherche de documents similaires entre différentes langues, en ayant accès à un dictionnaire de documents multilingues ; la recherche de relations entre les termes (résolution de synonymie et de polysémie) ; étant donné une requête, traduire les termes de la requête dans l'espace des concepts, pour retrouver des documents liés sémantiquement (recherche d'information) ; trouver la meilleure similarité entre petits groupes de termes, de façon sémantique (c'est-à-dire dans le contexte d'un corpus de connaissance), comme dans la modélisation de la réponse aux questionnaires à choix multiples (QCM).

Source officielle

https://fr.wikipedia.org/wiki/Analyse_sémantique_latente

À propos de ce résultat

Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.

Cours associés (6)

CS-423: Distributed information systems

This course introduces the foundations of information retrieval, data mining and knowledge bases, which constitute the foundations of today's Web-based distributed information systems.

CS-401: Applied data analysis

This course teaches the basic techniques, methodologies, and practical skills required to draw meaningful insights from a variety of data, with the help of the most acclaimed software tools in the dat

EE-724: Human language technology: applications to information access

The Human Language Technology (HLT) course introduces methods and applications for language processing and generation, using statistical learning and neural networks.

Afficher plus

Séances de cours associées (32)

Indexation sémantique latente : concepts et applications

Explore l'indexation sémantique latente, une technique de cartographie des documents dans un espace conceptuel pour la recherche et la classification.

Texte de manipulation : Récupération de documents, classification, analyse des sentiments

Explore la recherche de documents, la classification, l'analyse des sentiments, les matrices TF-IDF, les méthodes de voisinage les plus proches, la factorisation matricielle, la régularisation, LDA, les vecteurs de mots contextualisés et BERT.

Indexation sémantique latente

Couvre l'indexation sémantique latente, une méthode pour améliorer la récupération d'informations en cartographiant des documents et des requêtes dans un espace conceptuel de dimension inférieure.

Afficher plus

Personnes associées (4)

Daniel Gatica-Perez

Karl Aberer

Co-Founder of LinkAlong Sarl, 2017.Vice-president EPFL for Information Systems, 2012 –2016.Director of the Swiss National Centre for Mobile Information and Communication Systems NCCR MICS (mics.ch), 2005 -2012.Member of the Swiss Research and Technology Council SWTR, consulting the Swiss Federal government, 2004 - 2011.

Jean-Marc Odobez

Afficher plus

Source officielle

https://fr.wikipedia.org/wiki/Analyse_sémantique_latente

À propos de ce résultat

Proximité ontologique

Information engineering

Traitement automatique du langage naturel: Traitement automatique du langage naturel

Cours associés (6)

CS-423: Distributed information systems

This course introduces the foundations of information retrieval, data mining and knowledge bases, which constitute the foundations of today's Web-based distributed information systems.

CS-401: Applied data analysis

EE-724: Human language technology: applications to information access

The Human Language Technology (HLT) course introduces methods and applications for language processing and generation, using statistical learning and neural networks.

Afficher plus

Séances de cours associées (32)

Indexation sémantique latente : concepts et applications

Explore l'indexation sémantique latente, une technique de cartographie des documents dans un espace conceptuel pour la recherche et la classification.

Texte de manipulation : Récupération de documents, classification, analyse des sentiments

Indexation sémantique latente

Afficher plus

Publications associées (29)

Randomized low-rank approximation and its applications

Ulf David Persson

In this thesis we will present and analyze randomized algorithms for numerical linear algebra problems. An important theme in this thesis is randomized low-rank approximation. In particular, we will study randomized low-rank approximation of matrix functio ...

EPFL2024

Whole-heart electromechanical simulations using Latent Neural Ordinary Differential Equations

Alfio Quarteroni, Francesco Regazzoni, Luca Dede'

Cardiac digital twins provide a physics and physiology informed framework to deliver personalized medicine. However, high-fidelity multi-scale cardiac models remain a barrier to adoption due to their extensive computational costs. Artificial Intelligence-b ...

Nature Portfolio2024

DiffAirfoil: An Efficient Novel Airfoil Sampler Based on Latent Space Diffusion Model for Aerodynamic Shape Optimization

Pascal Fua, Zhen Wei

Surrogate-based optimization is widely used for aerodynamic shape optimization, and its effectiveness depends on representative sampling of the design space. However, traditional sampling methods are hard-pressed to effectively sample high-dimensional desi ...

2024

Afficher plus

Personnes associées (4)

Unités associées (3)

Laboratoire de l'IDIAP

DHI - Gestion

Laboratoire de systèmes d'information répartis

Concepts associés (22)

Similarité sémantique

La similarité sémantique est une notion définie entre deux concepts soit au sein d'une même hiérarchie conceptuelle, soit - dans le cas d'alignement d'ontologies - entre deux concepts appartenant respectivement à deux hiérarchies conceptuelles distinctes. La similarité sémantique indique que ces deux concepts possèdent un grand nombre d'éléments en commun (propriétés, termes, instances). D’un point de vue psychologie cognitive, les notions de proximité et de similarité sont bien distinctes.

TF-IDF

Le TF-IDF (de l'anglais term frequency-inverse document frequency) est une méthode de pondération souvent utilisée en recherche d'information et en particulier dans la fouille de textes. Cette mesure statistique permet d'évaluer l'importance d'un terme contenu dans un document, relativement à une collection ou un corpus. Le poids augmente proportionnellement au nombre d'occurrences du mot dans le document. Il varie également en fonction de la fréquence du mot dans le corpus.

Gensim

Gensim is an open-source library for unsupervised topic modeling, document indexing, retrieval by similarity, and other natural language processing functionalities, using modern statistical machine learning. Gensim is implemented in Python and Cython for performance. Gensim is designed to handle large text collections using data streaming and incremental online algorithms, which differentiates it from most other machine learning software packages that target only in-memory processing.

Afficher plus