Couvre les meilleures pratiques et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture, les défis et les technologies comme Hadoop et Hive.
Introduit les bases statistiques, y compris l'analyse des données et la théorie des probabilités, en mettant l'accent sur la tendance centrale, la dispersion et les formes de distribution.
Couvre les outils de science des données, Hadoop, Spark, les écosystèmes des lacs de données, le théorème CAP, le traitement par lots vs. flux, HDFS, Hive, Parquet, ORC, et l'architecture MapReduce.
Introduit l'apprentissage non supervisé en cluster avec les moyennes K et la réduction de dimensionnalité à l'aide de PCA, ainsi que des exemples pratiques.
Couvre l'analyse en composantes principales pour la réduction dimensionnelle des données biologiques, en se concentrant sur la visualisation et l'identification des modèles.