Introduit des concepts de modélisation de données, l'utilisation de SQL et des applications de bibliothèque Pandas pour un traitement efficace des données.
Couvre les techniques de manipulation des données à l'aide de Hadoop, en se concentrant sur les bases de données axées sur les lignes et les colonnes, les formats de stockage populaires et l'intégration HBase-Hive.
Couvre le langage SQL pour interagir avec les bases de données à travers des requêtes structurées, y compris la sélection, le filtrage, l'agrégation et le tri des données.
Explore l'organisation des fichiers, les méthodes d'indexation et la conception du stockage des bases de données, y compris les formats d'enregistrement, les formats de page et la classification des index.