Couvre les fondamentaux des écosystèmes de big data, en se concentrant sur les technologies, les défis et les exercices pratiques avec le HDFS d'Hadoop.
Explore les fondamentaux de régression logistique, y compris les fonctions de coût, la régularisation et les limites de classification, avec des exemples pratiques utilisant scikit-learn.
Couvre les fondamentaux de l'échelle vers des données massives à l'aide de Spark, en mettant l'accent sur les DDR, les transformations, les actions, l'architecture Spark, et la boîte à outils d'apprentissage automatique de Spark.
Couvre les pratiques exemplaires et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture typique, les défis et les technologies utilisés pour y remédier.
Couvre l'intégration du stockage de données évolutives et de la carte réduisent le traitement à l'aide de Hadoop, y compris HDFS, Hive, Parquet, ORC, Spark et HBase.
Présentation d'Apache Spark, couvrant son architecture, ses RDD, ses transformations, ses actions, sa tolérance aux pannes, ses options de déploiement et ses exercices pratiques dans les blocs-notes Jupyter.
Explore la régression logistique, les fonctions de coût, la descente en gradient et la modélisation de probabilité à l'aide de la fonction sigmoïde logistique.