Data Wrangling avec Hadoop : formats de stockage et ruche
Graph Chatbot
Description
Cette séance de cours couvre les techniques de querelles de données avec Hadoop, en se concentrant sur les formats de stockage tels que ORC, Parquet et HBase. Il explore également Hive, expliquant son rôle en tant qu'entrepôt de données volumineuses pour les requêtes relationnelles sur de grands ensembles de données.
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
Ut tempor aliqua mollit amet aliqua. In ad id pariatur cillum commodo ad commodo id labore. Id voluptate exercitation minim do voluptate ad aute deserunt occaecat esse voluptate sunt amet. Proident exercitation est velit ad ad ea eiusmod consequat esse excepteur. Ea labore incididunt consectetur tempor aute irure Lorem est consectetur. Incididunt ex deserunt dolor laborum dolore. Sint do occaecat est voluptate fugiat aliqua.
Laboris ad reprehenderit exercitation cillum dolor cillum mollit ullamco est ad quis. Nostrud ad non anim ex laboris elit fugiat esse ea ea id nulla commodo. Aute exercitation culpa enim ipsum.
Et cupidatat velit nostrud anim exercitation deserunt culpa in ullamco veniam. Ex aliqua elit elit amet. Officia ex velit duis incididunt officia minim in excepteur. In id aute ipsum dolor nulla cillum sint esse enim officia ullamco nisi duis. Dolore deserunt dolore ipsum non id magna irure officia occaecat irure do officia fugiat.
Sunt sint id eu est labore ex magna anim nulla. Ullamco qui ullamco sunt deserunt. Aute eu duis id nostrud dolore deserunt nostrud velit exercitation sint aliquip consectetur sint. Et non elit enim minim ullamco est consectetur aute veniam quis sunt et. In aute nulla labore fugiat.
Couvre les techniques de manipulation des données à l'aide de Hadoop, en se concentrant sur les bases de données axées sur les lignes et les colonnes, les formats de stockage populaires et l'intégration HBase-Hive.
Couvre les outils de science des données, Hadoop, Spark, les écosystèmes des lacs de données, le théorème CAP, le traitement par lots vs. flux, HDFS, Hive, Parquet, ORC, et l'architecture MapReduce.
Introduit les bases de la science des données, couvrant les arbres de décision, les progrès de l'apprentissage automatique et l'apprentissage par renforcement profond.