Séance de cours

Data Wrangling avec Hive : gérer efficacement le Big Data

Dans cours
DEMO: enim eiusmod
Labore elit incididunt labore et sint. Culpa in cupidatat duis ut in id voluptate est consequat. Cillum sint in esse laborum culpa quis laboris fugiat deserunt. Anim et adipisicing elit duis do. Excepteur laborum ut Lorem et exercitation sit culpa elit et. Mollit velit laboris esse cupidatat id incididunt in commodo cillum et.
Connectez-vous pour voir cette section
Description

Cette séance de cours se concentre sur les techniques de querelles de données utilisant Apache Hive dans le contexte de la gestion des données volumineuses. L'instructeur commence par passer en revue les concepts de la semaine précédente liés aux systèmes de fichiers distribués Hadoop (HDFS) et les défis liés à la gestion de grands ensembles de données. La session met l'accent sur l'importance d'interroger et de gérer efficacement les données. L'instructeur présente Hive, un logiciel d'entrepôt de données qui fournit une interface de type SQL pour interroger les données stockées dans HDFS. Les sujets clés comprennent la création de bases de données et de tables, l'importance du schéma sur lecture par rapport au schéma sur écriture et l'utilisation de HiveQL pour la manipulation des données. La séance de cours couvre également divers formats de données, y compris CSV, ORC et Parquet, soulignant leurs implications en matière de performances. L'instructeur engage les étudiants avec des quiz et des exercices pratiques, renforçant les concepts discutés. À la fin de la séance de cours, les étudiants acquièrent une expérience pratique de la création et de l'interrogation de tables Hive, ainsi que de la compréhension de l'architecture sous-jacente de Hive et de son intégration avec Hadoop.

Enseignants (3)
sunt dolor dolore
Voluptate in aliquip sunt laborum minim adipisicing enim aute eu officia. Culpa tempor elit consequat aliqua enim ipsum est ullamco aliqua sunt laborum consectetur. Duis sint est cupidatat cillum sunt nulla culpa esse amet laboris. Ad duis non est occaecat proident reprehenderit. Laborum commodo consequat laborum eu enim. Occaecat reprehenderit pariatur cupidatat sint amet ea consectetur id adipisicing consectetur consequat. Qui adipisicing excepteur proident laborum in pariatur Lorem ad.
aute qui ad
Anim consectetur laborum sint occaecat amet eiusmod laborum in irure ad. Sit in eiusmod minim officia ex culpa qui occaecat adipisicing. Consectetur officia aliqua occaecat ea pariatur proident do dolore adipisicing esse. Non mollit sunt mollit Lorem. Qui adipisicing aliquip sit anim fugiat duis incididunt nulla deserunt do irure anim. Id pariatur ad ullamco id qui veniam exercitation quis labore sint.
ex labore
Dolor elit irure dolor magna elit. Aliqua reprehenderit eu ex magna dolor incididunt consequat est officia consectetur ad et. Ea Lorem reprehenderit dolor adipisicing ipsum. Nisi quis fugiat est aliquip incididunt aliqua non deserunt qui. Occaecat deserunt laborum laborum aute laborum exercitation aute ipsum eiusmod quis ullamco in nostrud nulla. Nisi nisi Lorem cupidatat est aute nisi magna. Exercitation Lorem aliquip commodo elit exercitation anim anim do deserunt reprehenderit in.
Connectez-vous pour voir cette section
À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
Séances de cours associées (131)
L'échange de données avec Hadoop
Couvre les techniques de manipulation des données à l'aide de Hadoop, en se concentrant sur les bases de données axées sur les lignes et les colonnes, les formats de stockage populaires et l'intégration HBase-Hive.
Cadres de données Spark
Couvre les cadres de données Spark, les collections distribuées de données organisées en colonnes nommées, et les avantages de les utiliser sur les DDR.
Introduction générale aux données massives
Couvre les outils de science des données, Hadoop, Spark, les écosystèmes des lacs de données, le théorème CAP, le traitement par lots vs. flux, HDFS, Hive, Parquet, ORC, et l'architecture MapReduce.
Écosystèmes Big Data : technologies et défis
Couvre les fondamentaux des écosystèmes de big data, en se concentrant sur les technologies, les défis et les exercices pratiques avec le HDFS d'Hadoop.
Data Wrangling avec Hadoop : formats de stockage et ruche
Explore les querelles de données avec Hadoop, en mettant l'accent sur les formats de stockage et Hive pour le traitement des données volumineuses.
Afficher plus

Graph Chatbot

Chattez avec Graph Search

Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.

AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.