Présente des outils collaboratifs de science des données comme les carnets Jupyter, Docker et Git, mettant l'accent sur la version des données et la conteneurisation.
Explore les progrès de la science des données, en mettant l'accent sur des idées rapides, la variété des données et les systèmes de données intelligents en temps réel.
Couvre la croissance exponentielle des données, les défis dans la technologie de traitement, la variété des données, le nettoyage, le traitement approximatif des requêtes, l'analyse multi-requêtes et le traitement hybride des transactions.
Couvre le traitement de flux de données avec Apache Kafka et Spark, y compris le temps d'événement vs le temps de traitement, les opérations de traitement de flux, et les jointures de flux.
Explore la production, le stockage, le traitement et les dimensions de Big Data, ainsi que les défis en matière d'analyse de données, d'élasticité de l'informatique en nuage et de sécurité.
Explore Apache Hive pour l'entreposage de données, les formats de données et la partition, avec des exercices pratiques dans la requête et la connexion à Hive.