Êtes-vous un étudiant de l'EPFL à la recherche d'un projet de semestre?
Travaillez avec nous sur des projets en science des données et en visualisation, et déployez votre projet sous forme d'application sur Graph Search.
Cette séance de cours couvre la tâche de classification des documents, où un classificateur est construit pour attribuer des étiquettes à des documents non étiquetés basés sur un ensemble de formation. Les sujets incluent des caractéristiques de document comme un sac de mots, des phrases et des fragments de mots, traitant de la dimensionnalité élevée, des algorithmes de classification comme k-Nearest-Neighbors et Naïve Bayes, et l'utilisation de mots incorporés pour la classification. L'instructeur discute également des défis de la classification des documents, tels que la taille du vocabulaire et la sélection des fonctionnalités. Différentes méthodes de classification et leurs caractéristiques sont explorées, dont le classificateur Naïve Bayes et Fasttext. La séance de cours se termine par un résumé des méthodes de classification des documents et de leurs applications.