Êtes-vous un étudiant de l'EPFL à la recherche d'un projet de semestre?
Travaillez avec nous sur des projets en science des données et en visualisation, et déployez votre projet sous forme d'application sur Graph Search.
Cette séance de cours porte sur le traitement des données textuelles, en mettant l'accent sur la recherche de documents, la classification et l'analyse des sentiments. Les sujets abordés comprennent l'utilisation de matrices TF-IDF, les méthodes de voisinage les plus proches et les défis de la capacité de modèle élevée. Il explore également l'utilisation de la factorisation matricielle pour la détection des sujets et le concept d'analyse sémantique latente. La séance de cours se penche sur l'importance de la régularisation dans les modèles d'apprentissage automatique et introduit le concept de modélisation probabiliste du sujet avec Latent Dirichlet Allocation (LDA). De plus, il traite de la transition des vecteurs de mots vers les vecteurs de mots contextualisés et du rôle des modèles comme le BERT dans les pipelines de traitement du langage naturel.