Couvre les meilleures pratiques et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture, les défis et les technologies comme Hadoop et Hive.

Modèles d'exécution de calcul distribué: Spark Ecosystem

Explore l'écosystème des étincelles dans l'informatique distribuée et critique les limites de MapReduce.

Défis Big Data : Computing distribué avec Spark

Explore les défis du Big Data, l'informatique distribuée avec Spark, les RDD, la configuration matérielle requise, MapReduce, les transformations et Spark DataFrames.

Programmation parallèle de données : Processeurs vectoriels et SIMD

Explore la programmation parallèle aux données avec les processeurs vectoriels et SIMD, et présente MapReduce, Pregel et TensorFlow.

Scaling up : Spark et Big Data

Explore les défis du traitement des données volumineuses et présente Spark en tant que solution.

Data Wrangling avec Hadoop : Techniques avancées

Couvre les techniques avancées de disputes de données à l'aide d'Hadoop, en se concentrant sur l'intégration de Hive et HBase.

MapReduce: Modèles d'exécution pour l'informatique distribuée

Présente le modèle de programmation MapReduce pour l'informatique distribuée, en mettant l'accent sur sa vision et ses mécanismes de sous-développement.