Introduit des concepts de modélisation de données, l'utilisation de SQL et des applications de bibliothèque Pandas pour un traitement efficace des données.
Introduit la modélisation sémantique par le biais de données tabulaires et de RDF, couvrant les bases de données relationnelles, la migration de schémas, les schémas à l'épreuve du temps, l'interrogation SPARQL et les limitations de métaconnaissance.
Introduit les principes fondamentaux du traitement des données, soulignant l'importance des Pandas et de la modélisation des données pour une analyse efficace.
Discute des modèles de traitement des requêtes et des opérations relationnelles, en se concentrant sur les sélections, les projections et les jointures dans les systèmes à forte intensité de données.
Discute des systèmes de fichiers, en mettant l'accent sur l'organisation des données, les techniques d'indexation et leur impact sur les performances de la base de données.
Couvre les techniques de manipulation des données à l'aide de Hadoop, en se concentrant sur les bases de données axées sur les lignes et les colonnes, les formats de stockage populaires et l'intégration HBase-Hive.