Plongez dans les défis et les processus de numérisation des documents, y compris le projet Google Books, les questions de droit d'auteur et l'optimisation de la sélection des sources.
Couvre la persistance en informatique, en se concentrant sur les disques magnétiques et leurs caractéristiques de performance, y compris le temps de recherche, la latence rotationnelle et les algorithmes de planification des disques.
Couvre les fondements des systèmes de base de données, y compris la modélisation des données, le traitement de l'information et les défis de la gestion d'importants volumes de données.
Explore les bases de données parallèles et distribuées, couvrant les architectures, l'optimisation des requêtes, le stockage des données et les transactions distribuées.
Explore Apache Hive pour l'entreposage de données, les formats de données et la partition, avec des exercices pratiques dans la requête et la connexion à Hive.