Couche de stockage Spark

À propos
Confidentialité
Mentions légales

Graph Chatbot

Séances de cours associées (32)

Page 1 sur 4

Data Wrangling avec Hive : gérer efficacement le Big Data

Couvre les techniques de querelles de données en utilisant Apache Hive pour une gestion efficace des big data.

Introduction générale aux données massives

Couvre les outils de science des données, Hadoop, Spark, les écosystèmes des lacs de données, le théorème CAP, le traitement par lots vs. flux, HDFS, Hive, Parquet, ORC, et l'architecture MapReduce.

Big Data: Meilleures pratiques et lignes directrices

Couvre les meilleures pratiques et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture, les défis et les technologies comme Hadoop et Hive.

Intégrer le stockage de données évolutives et la carte Réduire le traitement avec Hadoop

Couvre l'intégration du stockage de données évolutives et de la carte réduisent le traitement à l'aide de Hadoop, y compris HDFS, Hive, Parquet, ORC, Spark et HBase.

Défis du Big Data : l'expansion vers des données massives

Explore les défis de la manipulation massive des données à l'ère du big data, en discutant de solutions comme MapReduce et Spark.

Introduction à l'architecture Spark Runtime

Couvre l'architecture d'exécution Spark, y compris les RDD, les transformations, les actions et la mise en cache pour l'optimisation des performances.

Hadoop : Modèles d'exécution

Explore les modèles d'exécution de Hadoop, la tolérance aux défauts, la localisation des données et la programmation, soulignant les limites de MapReduce et d'autres cadres de traitement distribué.

Data Wrangling avec Hadoop : Techniques avancées

Couvre les techniques avancées de disputes de données à l'aide d'Hadoop, en se concentrant sur l'intégration de Hive et HBase.

Écosystème Hadoop : Choix architecturaux et programmation MapReduce

Explore l'architecture de l'écosystème Hadoop et le modèle de programmation MapReduce, en mettant l'accent sur les forces et les limites.

Big Data: Meilleures pratiques et lignes directrices

Couvre les pratiques exemplaires et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture typique, les défis et les technologies utilisés pour y remédier.