Présente des outils collaboratifs de science des données comme les carnets Jupyter, Docker et Git, mettant l'accent sur la version des données et la conteneurisation.
Introduit des concepts de modélisation de données, l'utilisation de SQL et des applications de bibliothèque Pandas pour un traitement efficace des données.
Explore les données sur la consommation d'eau à Genève, y compris les graphiques sur la consommation et les pertes, les ensembles de données disponibles et les phases de traitement des données.
Couvre les fondements des systèmes de base de données, y compris la modélisation des données, le traitement de l'information et les défis de la gestion d'importants volumes de données.
Explore l'importance de la reproductibilité dans la science des données et présente Renku, une plate-forme pour la gestion de projets axés sur les données.
Examine les éléments fondamentaux de la gestion des données, y compris les modèles, les sources et les querelles, en soulignant l'importance de comprendre et de résoudre les problèmes de données.
Discute des techniques avancées d'optimisation Spark pour gérer efficacement les Big Data, en se concentrant sur la parallélisation, les opérations de mélange et la gestion de la mémoire.