Introduit l'apprentissage non supervisé en cluster avec les moyennes K et la réduction de dimensionnalité à l'aide de PCA, ainsi que des exemples pratiques.
Introduit les bases statistiques, y compris l'analyse des données et la théorie des probabilités, en mettant l'accent sur la tendance centrale, la dispersion et les formes de distribution.
Couvre les fondamentaux des écosystèmes de big data, en se concentrant sur les technologies, les défis et les exercices pratiques avec le HDFS d'Hadoop.
Couvre les meilleures pratiques et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture, les défis et les technologies comme Hadoop et Hive.
Couvre les concepts fondamentaux de probabilité et de statistiques, en se concentrant sur l'analyse des données, la représentation graphique et les applications pratiques.
Couvre les outils de science des données, Hadoop, Spark, les écosystèmes des lacs de données, le théorème CAP, le traitement par lots vs. flux, HDFS, Hive, Parquet, ORC, et l'architecture MapReduce.