Couvre l'adaptation des systèmes d'analyse aux défis matériels et de données modernes, en mettant l'accent sur l'efficacité et l'évolutivité grâce à des approches innovantes et des systèmes hybrides.
Explore les bases de données parallèles et distribuées, couvrant les architectures, l'optimisation des requêtes, le stockage des données et les transactions distribuées.
Explore les équivalences d'algèbre relationnelle pour optimiser les performances des requêtes grâce à une génération de tuple efficace et à des opérations de jointure.
Couvre les cadres de données Spark, les collections distribuées de données organisées en colonnes nommées, et les avantages de les utiliser sur les DDR.
Introduit des concepts de modélisation de données, l'utilisation de SQL et des applications de bibliothèque Pandas pour un traitement efficace des données.
Explore l'organisation des fichiers, les méthodes d'indexation et la conception du stockage des bases de données, y compris les formats d'enregistrement, les formats de page et la classification des index.
Explore l'appariement des patrons de mise à l'échelle dans les grands graphiques et optimise l'exécution des requêtes sous des contraintes de mémoire en utilisant le partage de travail et le traitement par lots.