Êtes-vous un étudiant de l'EPFL à la recherche d'un projet de semestre?
Travaillez avec nous sur des projets en science des données et en visualisation, et déployez votre projet sous forme d'application sur GraphSearch.
Cette séance de cours présente des modèles d'intégration pour la récupération de documents, en se concentrant sur les défis de la récupération d'espace vectoriel et le concept d'indexation sémantique latente. Il couvre lidée clé de cartographier les documents et les requêtes dans un espace de dimension inférieure composé de concepts de niveau supérieur, illustrant le processus avec des exemples. La séance de cours traite également de l'application de la décomposition des valeurs singulières (SVD) pour identifier les principaux concepts et la mise en œuvre de ces concepts en Python. Des techniques alternatives telles que l'analyse sémantique latente probabiliste et l'allocation de dirichlets latents sont présentées, soulignant leurs avantages dans l'extraction de concepts. La séance de cours se termine par une discussion sur l'utilisation de modèles thématiques pour l'apprentissage non supervisé, la récupération de documents et la classification de documents.