Séance de cours

Introduction générale aux données massives

Dans cours

COM-490: Large-scale data science for real-world data

This hands-on course teaches the tools & methods used by data scientists, from researching solutions to scaling up prototypes to Spark clusters. It exposes the students to the entire data science pipe

Description

Cette séance de cours offre un aperçu complet des mégadonnées, couvrant des sujets tels que les outils de science des données comme Python, la science collaborative des données, les données en conflit avec Hadoop, l'architecture d'exécution Spark, et les écosystèmes des lacs de données. Il se penche sur les défis du big data, le théorème CAP des data stores distribués, et la décision entre le traitement par lots et le traitement par flux. La séance de cours explore également des technologies comme Hadoop Distributed File System (HDFS), Hive data warehouse, et des formats de stockage populaires comme Parquet et ORC. De plus, il discute de l'architecture MapReduce avec YARN, des architectures de big data typiques, et de l'évolution du paysage de big data.

Enseignants (3)

Pamela Isabel Delgado Borda

I am a PhD student in the School of Computer and Communication Sciences at EPFL. I am part of the Operating Systems Laboratory and my advisor is Prof. Willy Zwaenepoel. I received my Bachelor's degree in Systems Engineering from Universidad Catolica Boliviana, Bolivia in 2008 and Master's degree in Computer Science, specialization Foundations of Software from EPFL in 2012.

Olivier Verscheure

Sofiane Sarni

Source officielle

Séances de cours associées (32)

Data Wrangling avec Hive : gérer efficacement le Big Data

Couvre les techniques de querelles de données en utilisant Apache Hive pour une gestion efficace des big data.

Big Data: Meilleures pratiques et lignes directrices

Couvre les meilleures pratiques et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture, les défis et les technologies comme Hadoop et Hive.

L'échange de données avec Hadoop

Couvre les techniques de manipulation des données à l'aide de Hadoop, en se concentrant sur les bases de données axées sur les lignes et les colonnes, les formats de stockage populaires et l'intégration HBase-Hive.

Introduction à la science des données

Introduit les bases de la science des données, couvrant les arbres de décision, les progrès de l'apprentissage automatique et l'apprentissage par renforcement profond.

Visualisation de la science des données avec Pandas

Couvre la manipulation et l'exploration de données à l'aide de Python en mettant l'accent sur les techniques de visualisation.

Afficher plus