Séance de cours

Traitement de texte : Analyse de grandes collections de texte numérique

Dans cours

DH-405: Foundations of digital humanities

This course gives an introduction to the fundamental concepts and methods of the Digital Humanities, both from a theoretical and applied point of view. The course introduces the Digital Humanities cir

Description

Cette séance de cours explore le traitement de grandes collections de textes numériques dans le domaine des humanités numériques. Il couvre l'extraction de régularités et de structures cachées à partir d'objets textuels massifs, la distinction entre l'informatique humaine et la linguistique computationnelle, les défis posés par de très grands objets textuels et l'utilisation de pipelines de traitement de texte. La séance de cours explore l'importance de projets tels que le projet Gutenberg et Wikisource, le concept de réutilisation du texte et l'application de TF-IDF, l'analyse sémantique latente et la modélisation des sujets dans l'analyse des données textuelles.

Enseignant

Frédéric Kaplan

Source officielle

Proximité ontologique

Information engineering

Traitement automatique du langage naturel: Traitement automatique du langage naturel

Séances de cours associées (31)

Sémantique spatiale vectorielle (et récupération d'information)

Explore le modèle Vector Space, le sac de mots, tf-idf, cosine similarité, Okapi BM25, et la précision et le rappel dans la récupération d'information.

Texte de manipulation : Récupération de documents, classification, analyse des sentiments

Explore la recherche de documents, la classification, l'analyse des sentiments, les matrices TF-IDF, les méthodes de voisinage les plus proches, la factorisation matricielle, la régularisation, LDA, les vecteurs de mots contextualisés et BERT.

Recherche et classification de documents

Couvre la récupération de documents, la classification, l'analyse des sentiments et la détection de sujets à l'aide de matrices TF-IDF et de vecteurs de mots contextualisés tels que BERT.

Traitement de texte: Matrice, Documents, Sujets

Explore la gestion du texte, en se concentrant sur les matrices, les documents et les sujets, y compris les défis de la classification des documents et des modèles avancés comme BERT.

Modèles de texte: Word Embeddings et modèles de sujet

Explore les intégrations de mots, les modèles de sujet, Word2vec, les réseaux bayésiens et les méthodes d'inférence telles que l'échantillonnage Gibbs.

Afficher plus