Concepts avancés de traitement du flux de données

Dans cours

COM-490: Large-scale data science for real-world data

This hands-on course teaches the tools & methods used by data scientists, from researching solutions to scaling up prototypes to Spark clusters. It exposes the students to the entire data science pipe

Description

Cette séance de cours couvre des concepts avancés dans le traitement des flux de données, en se concentrant sur des sujets tels que le traitement des flux avec Apache Kafka, Spark stream, les fenêtres de flux de données dans Spark et les pipelines d'analyse Kafka-Spark de bout en bout. Il se penche également sur les opérations telles que les jointures, les jointures de flux et la gestion des données en retard / hors commande. L'instructeur fournit des informations sur le temps d'événement par rapport au temps de traitement, le filigrane dans Spark Streaming et des exercices pratiques avec Spark Streaming. Les étudiants sont guidés sur la façon de modéliser l'infrastructure de transport public pour la planification des itinéraires, de construire des modèles prédictifs, de mettre en œuvre des algorithmes robustes et de valider les résultats. La séance de cours souligne l'importance du travail d'équipe, de la reproductibilité et d'une communication efficace grâce à des présentations vidéo.

Enseignants (3)

Olivier Verscheure

Sofiane Sarni

Pamela Isabel Delgado Borda

I am a PhD student in the School of Computer and Communication Sciences at EPFL. I am part of the Operating Systems Laboratory and my advisor is Prof. Willy Zwaenepoel. I received my Bachelor's degree in Systems Engineering from Universidad Catolica Boliviana, Bolivia in 2008 and Master's degree in Computer Science, specialization Foundations of Software from EPFL in 2012.

Source officielle