Couvre l'intégration du stockage de données évolutives et de la carte réduisent le traitement à l'aide de Hadoop, y compris HDFS, Hive, Parquet, ORC, Spark et HBase.
Plongez dans les défis et les processus de numérisation des documents, y compris le projet Google Books, les questions de droit d'auteur et l'optimisation de la sélection des sources.