Séance de cours

Introduction à l'architecture Spark Runtime

Dans cours

COM-490: Large-scale data science for real-world data

This hands-on course teaches the tools & methods used by data scientists, from researching solutions to scaling up prototypes to Spark clusters. It exposes the students to the entire data science pipe

Description

Cette séance de cours fournit une vue d'ensemble d'Apache Spark, un moteur d'analyse unifié pour le traitement de données à grande échelle, couvrant son architecture, son historique, ses fonctionnalités clés et sa flexibilité. Il explique les composants d'exécution Spark, tels que les RDD, les transformations, les actions et la lignée. La séance de cours explore également le cadre de calcul distribué de Spark, l'abstraction de données de base avec les RDD et l'importance de la tolérance aux pannes. En outre, il explore les options de déploiement de Spark, les langues prises en charge, le stockage de données et les bibliothèques spécialisées. Des exercices pratiques utilisant Sparkmagic dans les cahiers Jupyter sont mis en évidence, ainsi que des références pour une exploration plus approfondie.

Enseignants (3)

Olivier Verscheure

Sofiane Sarni

Pamela Isabel Delgado Borda

I am a PhD student in the School of Computer and Communication Sciences at EPFL. I am part of the Operating Systems Laboratory and my advisor is Prof. Willy Zwaenepoel. I received my Bachelor's degree in Systems Engineering from Universidad Catolica Boliviana, Bolivia in 2008 and Master's degree in Computer Science, specialization Foundations of Software from EPFL in 2012.

Source officielle

Séances de cours associées (32)

Big Data: Meilleures pratiques et lignes directrices

Couvre les meilleures pratiques et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture, les défis et les technologies comme Hadoop et Hive.

Data Wrangling avec Hive : gérer efficacement le Big Data

Couvre les techniques de querelles de données en utilisant Apache Hive pour une gestion efficace des big data.

Techniques de gestion des données : HBase et Hive Integration

Couvre les techniques de querelles de données utilisant HBase et Hive, en se concentrant sur l'intégration et les applications pratiques.

Introduction à l'architecture Spark Runtime

Couvre l'architecture d'exécution Spark, y compris les RDD, les transformations, les actions et la mise en cache pour l'optimisation des performances.

Transformation numérique : solutions et données

Explore les possibilités de transformation numérique, les mégadonnées, l'analyse et les innovations technologiques dans le domaine des affaires et de la recherche.

Afficher plus