Couvre le calcul TF-IDF, les vecteurs de documents, la similarité cosinus et les formules de précision.
Couvre l'indexation sémantique latente, l'intégration de mots, et le modèle de skipgram avec un échantillonnage négatif.
Couvre l'extraction de phrases clés, une méthode pour extraire des phrases importantes du texte pour la synthèse, l'indexation et la recherche de documents.
Couvre l'allocation de Dirichlet latente, une méthode de pointe pour l'extraction de concepts à l'aide d'un modèle génératif probabiliste.
Explore l'indexation sémantique latente, la construction de vocabulaire, la création de matrices de documents, la transformation de requêtes et la récupération de documents en utilisant la similarité cosinus.
Couvre les bases de la récupération d'informations à l'aide de modèles d'espace vectoriel et d'exercices pratiques sur la rétroaction de pertinence et la numérisation de la liste de publication.
Explore les techniques d'indexation, les fichiers inversés, les modèles map-reduce et l'utilisation de trie pour une récupération d'informations efficace.
Explore la pertinence pratique de la rétroaction dans la recherche probabiliste et l'optimisation des requêtes.
Explore l'indexation sémantique latente, une technique de cartographie des documents dans un espace conceptuel pour la recherche et la classification.
Introduit le cours sur les systèmes d'information distribués, en mettant l'accent sur les concepts clés et les outils pratiques pour le traitement des données.