Séance de cours

Couche de stockage Spark

Dans cours

This course is intended for students who want to understand modern large-scale data analysis systems and database systems. It covers a wide range of topics and technologies, and will prepare students

Description

Cette séance de cours couvre l'écosystème Spark, en mettant l'accent sur les choix architecturaux et l'interface Spark SQL. Il examine les limites de MapReduce, introduit le concept de données distribuées résilientes (DDR), et compare les DDR avec Hadoop HDFS. La séance de cours explique également la couche de stockage dans Spark, en mettant l'accent sur l'abstraction fournie par les DDR et l'utilisation de RAM distribuée.

Cette vidéo est disponible exclusivement sur Mediaspace pour un public restreint. Veuillez vous connecter à Mediaspace pour y accéder si vous disposez des autorisations nécessaires.

Regarder sur Mediaspace

Enseignant

Anastasia Ailamaki

Source officielle

Séances de cours associées (32)

Data Wrangling avec Hive : gérer efficacement le Big Data

Couvre les techniques de querelles de données en utilisant Apache Hive pour une gestion efficace des big data.

Introduction générale aux données massives

Couvre les outils de science des données, Hadoop, Spark, les écosystèmes des lacs de données, le théorème CAP, le traitement par lots vs. flux, HDFS, Hive, Parquet, ORC, et l'architecture MapReduce.

Big Data: Meilleures pratiques et lignes directrices

Couvre les meilleures pratiques et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture, les défis et les technologies comme Hadoop et Hive.

Intégrer le stockage de données évolutives et la carte Réduire le traitement avec Hadoop

Couvre l'intégration du stockage de données évolutives et de la carte réduisent le traitement à l'aide de Hadoop, y compris HDFS, Hive, Parquet, ORC, Spark et HBase.

Défis du Big Data : l'expansion vers des données massives

Explore les défis de la manipulation massive des données à l'ère du big data, en discutant de solutions comme MapReduce et Spark.

Afficher plus