Cette séance de cours se concentre sur les techniques avancées de querelles de données utilisant Hadoop, en particulier par l'intégration de stockage et de traitement de données évolutifs avec des outils tels que Hive et HBase. L'instructeur discute de l'importance des formats de données tels que Parquet et ORC, et comment ils améliorent l'efficacité du traitement des données. La séance de cours couvre également l'utilisation de HiveQL pour l'interrogation de données et la mise en œuvre de fonctions définies par l'utilisateur (UDF) pour gérer les données géospatiales et JSON. Les étudiants sont guidés à travers des exercices pratiques qui impliquent la création et la gestion de tables Hive, le chargement de données et l'exécution de requêtes complexes. La session met l'accent sur le processus d'extraction, de transformation et de chargement (ETL), montrant comment se connecter à Hive, créer des bases de données et optimiser le stockage de données. En outre, la séance de cours met en évidence l'importance du partitionnement des données dans Hive pour améliorer les performances des requêtes. À la fin de la session, les étudiants acquièrent une compréhension complète de la façon d'exploiter les capacités d'Hadoop pour des querelles de données efficaces dans des environnements de données à grande échelle.