Couvre l'essentiel de la science des données, y compris le traitement, la visualisation et l'analyse des données, en mettant l'accent sur les compétences pratiques et l'engagement actif.
Explore la localisation des données dans la planification des décisions pour les plates-formes multi-locataires et discute de l'architecture d'Hadoop, des optimisations du moteur d'exécution et des stratégies de tolérance aux pannes.
Déplacez-vous dans l'intersection de la physique et des données dans les modèles d'apprentissage automatique, couvrant des sujets tels que les champs d'expansion des grappes atomiques et l'apprentissage non supervisé.
Couvre l'intégration du stockage de données évolutives et de la carte réduisent le traitement à l'aide de Hadoop, y compris HDFS, Hive, Parquet, ORC, Spark et HBase.
Explore la combinaison de données au repos avec des données en mouvement, en mettant l'accent sur les complexités de l'architecture Lambda et l'évaluation de la qualité des flux et des lots.
Présentation d'Apache Spark, couvrant son architecture, ses RDD, ses transformations, ses actions, sa tolérance aux pannes, ses options de déploiement et ses exercices pratiques dans les blocs-notes Jupyter.
Couvre l'analyse des données sur la pollution atmosphérique, en se concentrant sur les bases de R, en visualisant des séries chronologiques et en créant des résumés des concentrations de polluants.