Séance de cours

Traitement des flux et tolérance aux défauts

Dans cours

This course is intended for students who want to understand modern large-scale data analysis systems and database systems. It covers a wide range of topics and technologies, and will prepare students

Description

Cette séance de cours couvre les concepts de traitement des flux et de tolérance aux défauts dans l'analyse des mégadonnées. Il traite de la mesure du temps dans les flux de données, des techniques de gestion des flux efficaces, des plates-formes de mise à l'échelle comme Spark Streaming et Apache Flink, des stratégies de tolérance aux défauts telles que la réplication et la sauvegarde en amont, et de l'utilisation de DStreams pour le traitement des flux discrétés. L'instructeur explique les techniques de tolérance aux défauts pour les systèmes de traitement des flux, y compris le cloisonnement d'état et les tâches immuables. Des exemples d'opérations de nombre de mots en streaming et de fenêtres coulissantes sont fournis, montrant la combinaison de calculs par lots et de calculs en streaming. La séance de cours se termine par une vision d'unifier les modèles de traitement par lots et par flux dans une seule pile.

Cette vidéo est disponible exclusivement sur Mediaspace pour un public restreint. Veuillez vous connecter à Mediaspace pour y accéder si vous disposez des autorisations nécessaires.

Regarder sur Mediaspace

Enseignant

Anastasia Ailamaki

Source officielle

Séances de cours associées (15)

Introduction au traitement du flux de données

Couvre les bases du traitement des flux de données, y compris des outils comme Apache Storm et Kafka, des concepts clés tels que le temps d'événement et les opérations de fenêtre, et les défis du traitement des flux.

Concepts avancés de traitement du flux de données

Explore le temps de l'événement par rapport au temps de traitement, les opérations de traitement de flux, les jointures de flux et le traitement des données en retard ou hors-commande dans le traitement de flux de données.

Traitement du flux de données : Apache Kafka et Spark

Couvre le traitement de flux de données avec Apache Kafka et Spark, y compris le temps d'événement vs le temps de traitement, les opérations de traitement de flux, et les jointures de flux.

Introduction au traitement des flux de données: concepts et applications

Couvre les concepts de traitement de flux de données, en se concentrant sur l'intégration Apache Kafka et Spark Streaming, la gestion du temps des événements et les directives de mise en œuvre du projet.

Introduction générale aux données massives

Couvre les outils de science des données, Hadoop, Spark, les écosystèmes des lacs de données, le théorème CAP, le traitement par lots vs. flux, HDFS, Hive, Parquet, ORC, et l'architecture MapReduce.

Afficher plus