Êtes-vous un étudiant de l'EPFL à la recherche d'un projet de semestre?
Travaillez avec nous sur des projets en science des données et en visualisation, et déployez votre projet sous forme d'application sur Graph Search.
Cette séance de cours couvre les principes fondamentaux de la gestion des données textuelles, y compris la récupération de documents, la classification des documents, l'analyse des sentiments et la détection des sujets. Il explique comment formuler ces tâches sous forme de problèmes d'apprentissage automatique et de texte de prétraitement pour les algorithmes d'apprentissage automatique. La séance de cours explore également les défis liés au travail avec des données textuelles non structurées, telles que l'encodage de caractères, l'identification de la langue, la tokenisation, la suppression de mots d'arrêt et la normalisation des mots. Différentes techniques telles que le sac de mots, les n-grammes, la matrice TF-IDF et les méthodes de normalisation sont discutées pour préparer des données textuelles pour des applications d'apprentissage automatique.