Séance de cours

Exercice de dénonymisation

Démo virtualisation des données : SmartDataLake

Présente une démo sur la virtualisation adaptative des données dans SmartDataLake, mettant l'accent sur l'assemblage de profils d'entreprise et l'exécution de requêtes de joint à travers les ensembles de données.

Manipulation des données : Intro vers Pandas

Introduit les principes fondamentaux du traitement des données, soulignant l'importance des Pandas et de la modélisation des données pour une analyse efficace.

Techniques avancées d'optimisation des sparks : gestion du Big Data

Discute des techniques avancées d'optimisation Spark pour gérer efficacement les Big Data, en se concentrant sur la parallélisation, les opérations de mélange et la gestion de la mémoire.

Biomécanique : Analyse de la vélocité

Explore l'analyse des données de vélocité en biomécanique à l'aide d'Excel pour la visualisation et l'interprétation.

Caractérisation des données: PCA & Spike Tri

Explore PCA pour la simplification des données et Spike Tri pour l'identification de la forme.

Apache Spark Ecosystem : bases et opérations

Fournit une vue d'ensemble de l'écosystème Apache Spark, couvrant les bases, les opérations et les composants clés.

Introduction à l'architecture Spark Runtime

Présentation d'Apache Spark, couvrant son architecture, ses RDD, ses transformations, ses actions, sa tolérance aux pannes, ses options de déploiement et ses exercices pratiques dans les blocs-notes Jupyter.

Analyse de l'en-tête : Impact linguistique et réussite

Explore l'influence du langage sur le succès général grâce à l'analyse des données et aux tests statistiques dans le monde réel.

Introduction au traitement du flux de données

Couvre les bases du traitement des flux de données, y compris des outils comme Apache Storm et Kafka, des concepts clés tels que le temps d'événement et les opérations de fenêtre, et les défis du traitement des flux.

Techniques de gestion des données : HBase et Hive Integration

Couvre les techniques de querelles de données utilisant HBase et Hive, en se concentrant sur l'intégration et les applications pratiques.