Concept

Apache Spark

Séances de cours associées (49)

Graph Chatbot

Chattez avec Graph Search

Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.

AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.

Connectez-vous pour utiliser Chat avec Graph Search

Défis du Big Data : l'expansion vers des données massives

Explore les défis de la manipulation massive des données à l'ère du big data, en discutant de solutions comme MapReduce et Spark.

Introduction à l'architecture Spark Runtime

Présentation d'Apache Spark, couvrant son architecture, ses RDD, ses transformations, ses actions, sa tolérance aux pannes, ses options de déploiement et ses exercices pratiques dans les blocs-notes Jupyter.

Instructions d'examen: Types de questions et classement de code

Couvre les instructions d'examen, les types de questions et la notation du code pour comprendre les concepts et le codage.

Formats de données rapides

Compare les formats de données rapides et fournit des conseils pour un traitement efficace des données.

Introduction au traitement du flux de données

Introduit le traitement de flux de données, couvrant le traitement par lots vs le traitement de flux, des informations en temps réel, des applications, des défis et des outils comme Apache Kafka et Spark Streaming.

Concepts avancés de traitement du flux de données

Explore les concepts avancés de traitement de flux de données, y compris Kafka, Spark stream, jointures et modèles de planification d'itinéraire.

Fonctions avancées des pandas

Se concentre sur les fonctions avancées de pandas pour la manipulation, l'exploration et la visualisation des données avec Python, en soulignant l'importance de la compréhension et de la préparation des données.

Analyse des données au repos et des données en mouvement

Explore la combinaison de données au repos avec des données en mouvement, en mettant l'accent sur les complexités de l'architecture Lambda et l'évaluation de la qualité des flux et des lots.

Modèles d'exécution informatiques distribués

Explore les défis à relever pour réduire au minimum le temps d'achèvement de l'emploi dans l'informatique distribuée, en mettant l'accent sur l'impact des données biaisées et le traitement efficace.

Écosystème Spark: Choix architecturaux

Explore les choix architecturaux de l'écosystème Spark, y compris les RDD et la tolérance aux pannes.