Séance de cours

Data Wrangling avec Hadoop : Techniques avancées

Description

Cette séance de cours se concentre sur les techniques avancées de querelles de données utilisant Hadoop, en particulier par l'intégration de stockage et de traitement de données évolutifs avec des outils tels que Hive et HBase. L'instructeur discute de l'importance des formats de données tels que Parquet et ORC, et comment ils améliorent l'efficacité du traitement des données. La séance de cours couvre également l'utilisation de HiveQL pour l'interrogation de données et la mise en œuvre de fonctions définies par l'utilisateur (UDF) pour gérer les données géospatiales et JSON. Les étudiants sont guidés à travers des exercices pratiques qui impliquent la création et la gestion de tables Hive, le chargement de données et l'exécution de requêtes complexes. La session met l'accent sur le processus d'extraction, de transformation et de chargement (ETL), montrant comment se connecter à Hive, créer des bases de données et optimiser le stockage de données. En outre, la séance de cours met en évidence l'importance du partitionnement des données dans Hive pour améliorer les performances des requêtes. À la fin de la session, les étudiants acquièrent une compréhension complète de la façon d'exploiter les capacités d'Hadoop pour des querelles de données efficaces dans des environnements de données à grande échelle.

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.

Graph Chatbot

Chattez avec Graph Search

Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.

AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.