Êtes-vous un étudiant de l'EPFL à la recherche d'un projet de semestre?
Travaillez avec nous sur des projets en science des données et en visualisation, et déployez votre projet sous forme d'application sur Graph Search.
Cette séance de cours explore le domaine des humanités numériques, en se concentrant sur le traitement de grandes collections de textes numériques. Il se penche sur l’extraction de régularités et de structures cachées à partir d’objets textuels massifs, de modèles diachroniques et synchroniques et sur la reconstruction d’espaces de sens complexes. La séance de cours traite des origines et de la convergence de l'informatique en sciences humaines et de la linguistique computationnelle, en mettant l'accent sur les fondements formels des sciences humaines numériques. Il couvre également les défis posés par de très grands objets textuels, l'importance des pipelines de traitement de texte et la croissance des bases de données numériques de textes historiques. Divers projets et initiatives dans le domaine, tels que le projet Gutenberg et Wikisource, sont mis en évidence, ainsi que l'importance de la réutilisation du texte et de l'utilisation d'expressions régulières et de n-grammes dans l'analyse du texte.