Couvre les meilleures pratiques et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture, les défis et les technologies comme Hadoop et Hive.
Présente la structure du cours et les concepts fondamentaux de l'apprentissage automatique, y compris l'apprentissage supervisé et la régression linéaire.
Discute des méthodes numériques, en se concentrant sur les critères d'arrêt, SciPy pour l'optimisation et la visualisation des données avec Matplotlib.
Introduit Renku, une plateforme pour la science collaborative des données, mettant l'accent sur la reproductibilité, la shareability, la réutilisabilité et la sécurité.
Introduit les bases de Numpy, une bibliothèque de calcul numérique en Python, couvrant les avantages, la disposition de la mémoire, les opérations et les fonctions d'algèbre linéaire.
Couvre les fondamentaux des écosystèmes de big data, en se concentrant sur les technologies, les défis et les exercices pratiques avec le HDFS d'Hadoop.
Explore le contrôle de version distribué de Git, couvrant la résolution des conflits, la gestion de la collaboration et la fusion dans des projets logiciels.