Cette séance de cours se concentre sur les techniques de querelles de données utilisant Apache Hive dans le contexte de la gestion des données volumineuses. L'instructeur commence par passer en revue les concepts de la semaine précédente liés aux systèmes de fichiers distribués Hadoop (HDFS) et les défis liés à la gestion de grands ensembles de données. La session met l'accent sur l'importance d'interroger et de gérer efficacement les données. L'instructeur présente Hive, un logiciel d'entrepôt de données qui fournit une interface de type SQL pour interroger les données stockées dans HDFS. Les sujets clés comprennent la création de bases de données et de tables, l'importance du schéma sur lecture par rapport au schéma sur écriture et l'utilisation de HiveQL pour la manipulation des données. La séance de cours couvre également divers formats de données, y compris CSV, ORC et Parquet, soulignant leurs implications en matière de performances. L'instructeur engage les étudiants avec des quiz et des exercices pratiques, renforçant les concepts discutés. À la fin de la séance de cours, les étudiants acquièrent une expérience pratique de la création et de l'interrogation de tables Hive, ainsi que de la compréhension de l'architecture sous-jacente de Hive et de son intégration avec Hadoop.