Séance de cours

Introduction à l'architecture Spark Runtime

Séances de cours associées (32)

Science collaborative des données : outils et techniques

Introduit des outils collaboratifs de science des données comme Git et Docker, en mettant l'accent sur le travail d'équipe et les exercices pratiques pour un apprentissage efficace.

Traitement du flux de données : Apache Kafka et Spark

Couvre le traitement de flux de données avec Apache Kafka et Spark, y compris le temps d'événement vs le temps de traitement, les opérations de traitement de flux, et les jointures de flux.

Data Science: Python pour les ingénieurs - Partie II

Explore les data wrangling, le traitement numérique des data, et la visualisation scientifique en utilisant Python pour les ingénieurs.

Introduction au traitement du flux de données

Couvre les fondamentaux du traitement des flux de données, y compris les informations en temps réel, les applications de l'industrie, et les exercices pratiques sur Kafka et Spark Streaming.

Historique numérique et presse numérique

Déplacez-vous dans le « virage numérique » de l'histoire, en examinant la recherche historique à l'aide de journaux numérisés et en explorant la réutilisation du texte, l'intégration des mots et la visualisation des données.

Introduction au traitement des flux de données: concepts et applications

Couvre les concepts de traitement de flux de données, en se concentrant sur l'intégration Apache Kafka et Spark Streaming, la gestion du temps des événements et les directives de mise en œuvre du projet.

Introduction générale à la science des données

Offre une introduction complète à la science des données, couvrant Python, Numpy, Pandas, Matplotlib et Scikit-learn, en mettant l'accent sur les exercices pratiques et le travail collaboratif.

Analyse des données au repos et des données en mouvement

Explore la combinaison de données au repos avec des données en mouvement, en mettant l'accent sur les complexités de l'architecture Lambda et l'évaluation de la qualité des flux et des lots.

Modélisation des données : concepts et applications

Explore les concepts de modélisation de données, les implémentations SQL et les applications pratiques dans la gestion des données manquantes.

Défis Big Data : Computing distribué avec Spark

Explore les défis du Big Data, l'informatique distribuée avec Spark, les RDD, la configuration matérielle requise, MapReduce, les transformations et Spark DataFrames.

Démo virtualisation des données : SmartDataLake

Présente une démo sur la virtualisation adaptative des données dans SmartDataLake, mettant l'accent sur l'assemblage de profils d'entreprise et l'exécution de requêtes de joint à travers les ensembles de données.

Défis de nettoyage des données : Optimisation de la détection des erreurs

S'attaque aux défis du nettoyage des données pour l'analyse, proposant des optimisations pour réduire le temps de traitement.