Séance de cours

Data Wrangling avec Hive : gérer efficacement le Big Data

Description

Cette séance de cours se concentre sur les techniques de querelles de données utilisant Apache Hive dans le contexte de la gestion des données volumineuses. L'instructeur commence par passer en revue les concepts de la semaine précédente liés aux systèmes de fichiers distribués Hadoop (HDFS) et les défis liés à la gestion de grands ensembles de données. La session met l'accent sur l'importance d'interroger et de gérer efficacement les données. L'instructeur présente Hive, un logiciel d'entrepôt de données qui fournit une interface de type SQL pour interroger les données stockées dans HDFS. Les sujets clés comprennent la création de bases de données et de tables, l'importance du schéma sur lecture par rapport au schéma sur écriture et l'utilisation de HiveQL pour la manipulation des données. La séance de cours couvre également divers formats de données, y compris CSV, ORC et Parquet, soulignant leurs implications en matière de performances. L'instructeur engage les étudiants avec des quiz et des exercices pratiques, renforçant les concepts discutés. À la fin de la séance de cours, les étudiants acquièrent une expérience pratique de la création et de l'interrogation de tables Hive, ainsi que de la compréhension de l'architecture sous-jacente de Hive et de son intégration avec Hadoop.

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.

Graph Chatbot

Chattez avec Graph Search

Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.

AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.