Séance de cours

Traitement de données texte: bases et techniques

Description

Cette séance de cours couvre les principes fondamentaux de la gestion des données textuelles, y compris la récupération de documents, la classification des documents, l'analyse des sentiments et la détection des sujets. Il explique comment formuler ces tâches sous forme de problèmes d'apprentissage automatique et de texte de prétraitement pour les algorithmes d'apprentissage automatique. La séance de cours explore également les défis liés au travail avec des données textuelles non structurées, telles que l'encodage de caractères, l'identification de la langue, la tokenisation, la suppression de mots d'arrêt et la normalisation des mots. Différentes techniques telles que le sac de mots, les n-grammes, la matrice TF-IDF et les méthodes de normalisation sont discutées pour préparer des données textuelles pour des applications d'apprentissage automatique.

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.