Couvre les cadres de données Spark, les collections distribuées de données organisées en colonnes nommées, et les avantages de les utiliser sur les DDR.
Couvre les techniques de manipulation des données à l'aide de Hadoop, en se concentrant sur les bases de données axées sur les lignes et les colonnes, les formats de stockage populaires et l'intégration HBase-Hive.
Déplacez-vous dans le « virage numérique » de l'histoire, en examinant la recherche historique à l'aide de journaux numérisés et en explorant la réutilisation du texte, l'intégration des mots et la visualisation des données.
Explore les défis du Big Data, l'informatique distribuée avec Spark, les RDD, la configuration matérielle requise, MapReduce, les transformations et Spark DataFrames.
Couvre l'essentiel de la science des données, y compris le traitement, la visualisation et l'analyse des données, en mettant l'accent sur les compétences pratiques et l'engagement actif.
Couvre les fondamentaux du traitement des flux de données, y compris les informations en temps réel, les applications de l'industrie, et les exercices pratiques sur Kafka et Spark Streaming.
Explore la Décomposition de la Valeur Singulière et son rôle dans l'apprentissage non supervisé et la réduction de dimensionnalité, en mettant l'accent sur ses propriétés et applications.
Introduit les principes fondamentaux du traitement des données, soulignant l'importance des Pandas et de la modélisation des données pour une analyse efficace.