Examine les éléments fondamentaux de la gestion des données, y compris les modèles, les sources et les querelles, en soulignant l'importance de comprendre et de résoudre les problèmes de données.
Couvre l'analyse en composantes principales pour la réduction dimensionnelle des données biologiques, en se concentrant sur la visualisation et l'identification des modèles.
Explore la production, le stockage, le traitement et les dimensions de Big Data, ainsi que les défis en matière d'analyse de données, d'élasticité de l'informatique en nuage et de sécurité.
Explore Apache Hive pour l'entreposage de données, les formats de données et la partition, avec des exercices pratiques dans la requête et la connexion à Hive.
Introduit les bases de l'apprentissage automatique, couvrant l'apprentissage supervisé et non supervisé, la régression linéaire et la compréhension des données.
Explore les défis du Big Data, l'informatique distribuée avec Spark, les RDD, la configuration matérielle requise, MapReduce, les transformations et Spark DataFrames.
Couvre l'analyse des données sur la pollution atmosphérique, en se concentrant sur les bases de R, en visualisant des séries chronologiques et en créant des résumés des concentrations de polluants.