Séance de cours

Instructions d'examen: Types de questions et classement de code

Data Wrangling avec Hive : gérer efficacement le Big Data

Couvre les techniques de querelles de données en utilisant Apache Hive pour une gestion efficace des big data.

Couvre les implémentations sans attente d'objets atomiques, en se concentrant sur les compteurs et les instantanés, en discutant des idées clés pour renforcer l'atomicité et la liberté d'attente.

Introduction générale aux données massives

Couvre les outils de science des données, Hadoop, Spark, les écosystèmes des lacs de données, le théorème CAP, le traitement par lots vs. flux, HDFS, Hive, Parquet, ORC, et l'architecture MapReduce.

Contrôle et récupération des devises dans les bases de données

Se consacre à la gestion des transactions, au contrôle de la concordance et à la récupération dans les bases de données afin d'assurer l'intégrité des données et la résilience des systèmes.

Data Wrangling avec Hadoop : formats de stockage et ruche

Explore les querelles de données avec Hadoop, en mettant l'accent sur les formats de stockage et Hive pour le traitement des données volumineuses.

Entreposage des données et aide à la décision

Explore l'entreposage des données, les systèmes d'aide à la décision et l'importance des statistiques dans l'analyse des données.

Système d'exécution distribué à usage général

Examine la conception d'un système d'exécution distribué à usage général, couvrant les défis, les cadres spécialisés, la logique de contrôle décentralisée et les remaniements de haute performance.

Systèmes de gestion de base de données: Aperçu

Couvre les principes des systèmes de gestion de bases de données, la conception, la mise en œuvre et les options de stockage telles que les fichiers CSV plats.

Sans titre

Big Data: Meilleures pratiques et lignes directrices

Couvre les meilleures pratiques et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture, les défis et les technologies comme Hadoop et Hive.