Couvre la récupération d'informations probabilistes, la pertinence de la modélisation en tant que probabilité, l'expansion des requêtes et la génération automatique de thésaurus.
Couvre les concepts de base de la récupération d'informations textuelles et la façon dont les documents sont indexés et récupérés en fonction des requêtes des utilisateurs.
Introduit des modèles Booléen et Vector Space pour la recherche d'informations, couvrant la syntaxe, le calcul de similarité, la fréquence des termes et les poids des requêtes.
Couvre les bases de la récupération d'informations à l'aide de modèles d'espace vectoriel et d'exercices pratiques sur la rétroaction de pertinence et la numérisation de la liste de publication.
Explore les techniques d'indexation, les fichiers inversés, les algorithmes de réduction de carte et les méthodes de récupération de documents haut de gamme dans les systèmes de récupération de texte.
Couvre l'indexation sémantique latente, une méthode pour améliorer la récupération d'informations en cartographiant des documents et des requêtes dans un espace conceptuel de dimension inférieure.
Explore l'indexation sémantique latente, la construction de vocabulaire, la création de matrices de documents, la transformation de requêtes et la récupération de documents en utilisant la similarité cosinus.
Couvre les techniques de manipulation des données à l'aide de Hadoop, en se concentrant sur les bases de données axées sur les lignes et les colonnes, les formats de stockage populaires et l'intégration HBase-Hive.