Séance de cours

Classification des documents

Dans cours

This course introduces the foundations of information retrieval, data mining and knowledge bases, which constitute the foundations of today's Web-based distributed information systems.

Description

Cette séance de cours couvre la tâche de classification des documents, où un classificateur est construit pour attribuer des étiquettes à des documents non étiquetés basés sur un ensemble de formation. Les sujets incluent des caractéristiques de document comme un sac de mots, des phrases et des fragments de mots, traitant de la dimensionnalité élevée, des algorithmes de classification comme k-Nearest-Neighbors et Naïve Bayes, et l'utilisation de mots incorporés pour la classification. L'instructeur discute également des défis de la classification des documents, tels que la taille du vocabulaire et la sélection des fonctionnalités. Différentes méthodes de classification et leurs caractéristiques sont explorées, dont le classificateur Naïve Bayes et Fasttext. La séance de cours se termine par un résumé des méthodes de classification des documents et de leurs applications.

Enseignant

Karl Aberer

Co-Founder of LinkAlong Sarl, 2017.Vice-president EPFL for Information Systems, 2012 –2016.Director of the Swiss National Centre for Mobile Information and Communication Systems NCCR MICS (mics.ch), 2005 -2012.Member of the Swiss Research and Technology Council SWTR, consulting the Swiss Federal government, 2004 - 2011.

Source officielle

Proximité ontologique

Information engineering

Traitement automatique du langage naturel: Traitement automatique du langage naturel

Séances de cours associées (30)

Analyse des données textuelles: réduction de la classification et de la dimensionnalité

Explore la classification des données textuelles, en se concentrant sur des méthodes telles que les bayes naïques et les techniques de réduction de la dimensionnalité telles que l'analyse des composantes principales.

Classification des documents: Caractéristiques et modèles

Introduit la classification des documents en utilisant des fonctionnalités telles que les mots et les métadonnées, et des modèles tels que k-Nearest-Neighbors et word embeddings.

Règles de voisinage les plus près: Partie 2

Explore les règles de voisinage les plus proches, les défis de l'algorithme k-NN, le classificateur Bayes et l'algorithme k-means pour le regroupement.

Gaussian Naive Bayes & K-NN

Couvre les bayes naïfs gaussiens, les voisins les plus proches du K et le réglage hyperparamétrique dans l'apprentissage automatique.

Traitement du langage naturel : un amorceur

Introduit le traitement du langage naturel (NLP) et ses applications, couvrant la tokenisation, l'apprentissage automatique, l'analyse du sentiment et les applications NLP suisses.

Afficher plus