Data Wrangling avec Hadoop : Techniques avancées

Dans cours

COM-490: Large-scale data science for real-world data

This hands-on course teaches the tools & methods used by data scientists, from researching solutions to scaling up prototypes to Spark clusters. It exposes the students to the entire data science pipe

Description

Cette séance de cours se concentre sur les techniques avancées de querelles de données utilisant Hadoop, en particulier par l'intégration de stockage et de traitement de données évolutifs avec des outils tels que Hive et HBase. L'instructeur discute de l'importance des formats de données tels que Parquet et ORC, et comment ils améliorent l'efficacité du traitement des données. La séance de cours couvre également l'utilisation de HiveQL pour l'interrogation de données et la mise en œuvre de fonctions définies par l'utilisateur (UDF) pour gérer les données géospatiales et JSON. Les étudiants sont guidés à travers des exercices pratiques qui impliquent la création et la gestion de tables Hive, le chargement de données et l'exécution de requêtes complexes. La session met l'accent sur le processus d'extraction, de transformation et de chargement (ETL), montrant comment se connecter à Hive, créer des bases de données et optimiser le stockage de données. En outre, la séance de cours met en évidence l'importance du partitionnement des données dans Hive pour améliorer les performances des requêtes. À la fin de la session, les étudiants acquièrent une compréhension complète de la façon d'exploiter les capacités d'Hadoop pour des querelles de données efficaces dans des environnements de données à grande échelle.

Enseignants (3)

Sofiane Sarni

Pamela Isabel Delgado Borda

I am a PhD student in the School of Computer and Communication Sciences at EPFL. I am part of the Operating Systems Laboratory and my advisor is Prof. Willy Zwaenepoel. I received my Bachelor's degree in Systems Engineering from Universidad Catolica Boliviana, Bolivia in 2008 and Master's degree in Computer Science, specialization Foundations of Software from EPFL in 2012.

Olivier Verscheure

Source officielle