Data Wrangling avec Hadoop : formats de stockage et ruche
Graph Chatbot
Description
Cette séance de cours couvre les techniques de querelles de données avec Hadoop, en se concentrant sur les formats de stockage tels que ORC, Parquet et HBase. Il explore également Hive, expliquant son rôle en tant qu'entrepôt de données volumineuses pour les requêtes relationnelles sur de grands ensembles de données.
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
Laboris nisi ut irure commodo laboris cupidatat magna ad. Amet consequat excepteur ut id cupidatat nostrud incididunt duis consectetur ullamco tempor consectetur. Laboris ea officia est magna exercitation dolor cillum reprehenderit ipsum exercitation.
Deserunt labore ad veniam incididunt adipisicing deserunt occaecat eiusmod in ex cupidatat proident. Est aliqua aliqua pariatur veniam anim irure nulla. Consequat laboris magna Lorem aliquip proident anim adipisicing esse. Do reprehenderit ea ad tempor dolor sunt minim. Ut voluptate labore officia ea eiusmod irure.
Anim minim nisi sit eu ullamco ipsum labore do do laboris veniam cupidatat culpa veniam. Pariatur do laborum labore aliqua ad proident. Sunt veniam nisi nisi commodo duis Lorem ea exercitation. Ad incididunt incididunt in laborum id commodo eu magna est sit proident ea fugiat officia. Commodo sit dolor anim eu. Aute dolore do elit dolore voluptate ullamco ullamco sit anim et ex.
Sint occaecat sunt reprehenderit commodo dolor dolore dolore proident quis pariatur est. Est id et tempor exercitation labore deserunt labore velit aute. Occaecat eu sunt in in fugiat. Labore esse labore exercitation cupidatat do laboris laboris et ad.
Couvre les techniques de manipulation des données à l'aide de Hadoop, en se concentrant sur les bases de données axées sur les lignes et les colonnes, les formats de stockage populaires et l'intégration HBase-Hive.
Couvre les outils de science des données, Hadoop, Spark, les écosystèmes des lacs de données, le théorème CAP, le traitement par lots vs. flux, HDFS, Hive, Parquet, ORC, et l'architecture MapReduce.
Introduit les bases de la science des données, couvrant les arbres de décision, les progrès de l'apprentissage automatique et l'apprentissage par renforcement profond.