Séance de cours

Tolérance et récupération des erreurs: sécurité des données dans l'informatique distribuée

Big Data: Meilleures pratiques et lignes directrices

Couvre les meilleures pratiques et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture, les défis et les technologies comme Hadoop et Hive.

Système d'exécution distribué à usage général

Examine la conception d'un système d'exécution distribué à usage général, couvrant les défis, les cadres spécialisés, la logique de contrôle décentralisée et les remaniements de haute performance.

Introduction à l'architecture Spark Runtime

Couvre l'architecture d'exécution Spark, y compris les RDD, les transformations, les actions et la mise en cache pour l'optimisation des performances.

L'échange de données avec Hadoop

Couvre les techniques de manipulation des données à l'aide de Hadoop, en se concentrant sur les bases de données axées sur les lignes et les colonnes, les formats de stockage populaires et l'intégration HBase-Hive.

Défis du Big Data : l'expansion vers des données massives

Explore les défis de la manipulation massive des données à l'ère du big data, en discutant de solutions comme MapReduce et Spark.

Écosystème Hadoop : Choix architecturaux et programmation MapReduce

Explore l'architecture de l'écosystème Hadoop et le modèle de programmation MapReduce, en mettant l'accent sur les forces et les limites.

Modèles d'exécution pour l'informatique distribuée - 2e génération

Explore la 2ème génération de modèles d'exécution pour l'informatique distribuée, en mettant l'accent sur les ensembles de données distribués Spark et Résilient (RDD).

Introduction à l'architecture d'exécution Spark

Présente Apache Spark, qui couvre ses principales caractéristiques, son histoire, ses RDD, son architecture et son framework informatique distribué.

Formats de données et brouillage de données avec Hadoop

Explore Apache Hive pour l'entreposage de données, les formats de données et la partition, avec des exercices pratiques dans la requête et la connexion à Hive.

Data Wrangling avec Hadoop : formats de stockage et ruche

Explore les querelles de données avec Hadoop, en mettant l'accent sur les formats de stockage et Hive pour le traitement des données volumineuses.