Présente la structure du cours et les concepts fondamentaux de l'apprentissage automatique, y compris l'apprentissage supervisé et la régression linéaire.
Couvre l'introduction et les défis des entrepôts de données, y compris l'intégration des données, la gestion des métadonnées et l'optimisation des performances des requêtes.
Présentation d'Apache Spark, couvrant son architecture, ses RDD, ses transformations, ses actions, sa tolérance aux pannes, ses options de déploiement et ses exercices pratiques dans les blocs-notes Jupyter.
Couvre l'analyse des données sur la pollution atmosphérique, en se concentrant sur les bases de R, en visualisant des séries chronologiques et en créant des résumés des concentrations de polluants.
Introduit le cours sur les systèmes d'information, couvrant sa structure, ses objectifs et ses concepts fondamentaux essentiels à la compréhension de la gestion des données et de la prise de décision.
Introduit des outils collaboratifs de science des données comme Git et Docker, en mettant l'accent sur le travail d'équipe et les exercices pratiques pour un apprentissage efficace.