Séance de cours

Optimisations et partitionnement avancés des sparks

Techniques avancées d'optimisation des sparks : gestion du Big Data

Discute des techniques avancées d'optimisation Spark pour gérer efficacement les Big Data, en se concentrant sur la parallélisation, les opérations de mélange et la gestion de la mémoire.

Accélérer l’analyse des données : les innovations de l’ère post-Moore

Couvre les progrès des systèmes d'analyse de données et le rôle de la co-conception matériel-logiciel dans l'amélioration des performances à l'ère post-Moore.

Gestion de la mémoire et programmes d'accident

Couvre la gestion de la mémoire pour les ingénieurs, en se concentrant sur les programmes d'accident liés aux erreurs d'accès à la mémoire.

Optimisation avancée de l'étincelle

Déplacez-vous dans les techniques avancées d'optimisation Spark, en mettant l'accent sur la partition des données, les opérations de shuffle et la gestion de la mémoire.

Big Data: Meilleures pratiques et lignes directrices

Couvre les meilleures pratiques et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture, les défis et les technologies comme Hadoop et Hive.

Mémoire virtuelle : Organisation de la mémoire et virtualisation

Explore l'organisation de la mémoire, la virtualisation, l'attribution dynamique de la mémoire, la pile, le tas et les techniques de virtualisation de la mémoire comme le registre de base et la segmentation.

Mémoire virtuelle

Couvre les interactions de mémoire virtuelle, de relocalisation de programme, de protection de mémoire, de TLB et de hiérarchie de mémoire.

Data Wrangling avec Hive : gérer efficacement le Big Data

Couvre les techniques de querelles de données en utilisant Apache Hive pour une gestion efficace des big data.

Introduction à l'analyse des données appliquées

Introduit le cours d'analyse des données appliquées à l'EPFL, couvrant un large éventail de sujets d'analyse des données et mettant l'accent sur l'apprentissage continu en sciences des données.

Introduction générale aux données massives

Couvre les outils de science des données, Hadoop, Spark, les écosystèmes des lacs de données, le théorème CAP, le traitement par lots vs. flux, HDFS, Hive, Parquet, ORC, et l'architecture MapReduce.