Présentation d'Apache Spark, couvrant son architecture, ses RDD, ses transformations, ses actions, sa tolérance aux pannes, ses options de déploiement et ses exercices pratiques dans les blocs-notes Jupyter.
Introduit les bases de l'apprentissage automatique, couvrant l'apprentissage supervisé et non supervisé, la régression linéaire et la compréhension des données.
Explore les défis du big data, les caractéristiques, les techniques de dégroupage et les stratégies de gestion des défaillances dans le traitement et la gestion des données.
Examine les défis que posent les hypothèses de données, les biais et d'autres aspects de la recherche, y compris les écritures incomplètes et les frustrations des nouveaux arrivants.
Plonge dans les humanités numériques, en se concentrant sur la définition des grands ensembles de données culturelles et les différentes dimensions de la bigness des données.
Explore les possibilités de transformation numérique, les mégadonnées, l'analyse et les innovations technologiques dans le domaine des affaires et de la recherche.
Couvre les principes fondamentaux de la science des données, l'évolution des méthodes scientifiques, le rôle d'un data scientist et l'importance des données en tant que nouveau pétrole.