Explore les défis de l'informatique distribuée, de la croissance des données et des types de données, en mettant l'accent sur la bataille contre les trois V dans le Big Data.
Couvre l'introduction et les défis des entrepôts de données, y compris l'intégration des données, la gestion des métadonnées et l'optimisation des performances des requêtes.
Couvre les lois suisses sur la protection des données, y compris la loi fédérale sur la protection des données et les rôles définis dans la législation.
Couvre les progrès des systèmes d'analyse de données et le rôle de la co-conception matériel-logiciel dans l'amélioration des performances à l'ère post-Moore.
Couvre les techniques de manipulation des données à l'aide de Hadoop, en se concentrant sur les bases de données axées sur les lignes et les colonnes, les formats de stockage populaires et l'intégration HBase-Hive.
Introduit les principes fondamentaux du traitement des données, soulignant l'importance des Pandas et de la modélisation des données pour une analyse efficace.
Présentation d'Apache Spark, couvrant son architecture, ses RDD, ses transformations, ses actions, sa tolérance aux pannes, ses options de déploiement et ses exercices pratiques dans les blocs-notes Jupyter.