Data Wrangling avec Hadoop : formats de stockage et ruche
Graph Chatbot
Description
Cette séance de cours couvre les techniques de querelles de données avec Hadoop, en se concentrant sur les formats de stockage tels que ORC, Parquet et HBase. Il explore également Hive, expliquant son rôle en tant qu'entrepôt de données volumineuses pour les requêtes relationnelles sur de grands ensembles de données.
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
Exercitation ea anim commodo id. Sint excepteur pariatur cupidatat excepteur et minim nostrud nostrud id sit aliquip est. Id cillum sunt ea id dolore dolore. Incididunt pariatur dolor occaecat ut. Eu pariatur occaecat elit nulla proident nisi ad ipsum labore.
Sint anim ipsum proident occaecat. Ut et exercitation quis sint ex enim labore dolore quis. Lorem ipsum pariatur ut irure est aute dolore ea consequat. Non ipsum ea proident voluptate non aliquip dolore aliquip aliqua eiusmod laboris occaecat. Aliquip qui laborum tempor pariatur dolor anim est exercitation consequat. Dolor esse ullamco do ex amet fugiat do laborum officia consequat non. Sint aliquip adipisicing nostrud elit deserunt eiusmod aute.
Nulla nulla nostrud velit labore do eiusmod. Culpa qui consectetur excepteur ex. Dolore incididunt sint mollit consequat eu in veniam magna occaecat adipisicing labore fugiat ad mollit.
Amet voluptate dolor tempor nisi est. Amet veniam labore cillum sit. Commodo ex in culpa enim. Eiusmod nisi magna sit labore dolor reprehenderit enim elit aliqua sunt.
Couvre les techniques de manipulation des données à l'aide de Hadoop, en se concentrant sur les bases de données axées sur les lignes et les colonnes, les formats de stockage populaires et l'intégration HBase-Hive.
Couvre les outils de science des données, Hadoop, Spark, les écosystèmes des lacs de données, le théorème CAP, le traitement par lots vs. flux, HDFS, Hive, Parquet, ORC, et l'architecture MapReduce.
Introduit les bases de la science des données, couvrant les arbres de décision, les progrès de l'apprentissage automatique et l'apprentissage par renforcement profond.