Séance de cours

Décisions d'ordonnancement : Data Locality et Multitenancy

Explore les défis du traitement des données volumineuses et présente Spark en tant que solution.

Data Wrangling avec Hive : gérer efficacement le Big Data

Couvre les techniques de querelles de données en utilisant Apache Hive pour une gestion efficace des big data.

Défis Big Data : Computing distribué avec Spark

Explore les défis du Big Data, l'informatique distribuée avec Spark, les RDD, la configuration matérielle requise, MapReduce, les transformations et Spark DataFrames.

Écosystème Hadoop : Choix architecturaux et programmation MapReduce

Explore l'architecture de l'écosystème Hadoop et le modèle de programmation MapReduce, en mettant l'accent sur les forces et les limites.

Hadoop : Modèles d'exécution

Explore les modèles d'exécution de Hadoop, la tolérance aux défauts, la localisation des données et la programmation, soulignant les limites de MapReduce et d'autres cadres de traitement distribué.

Écosystèmes Big Data : technologies et défis

Couvre les fondamentaux des écosystèmes de big data, en se concentrant sur les technologies, les défis et les exercices pratiques avec le HDFS d'Hadoop.

Techniques avancées d'optimisation des sparks : gestion du Big Data

Discute des techniques avancées d'optimisation Spark pour gérer efficacement les Big Data, en se concentrant sur la parallélisation, les opérations de mélange et la gestion de la mémoire.

Méthodes d'optimisation : discussion théorique

Explore les méthodes d'optimisation, y compris les problèmes sans contraintes, la programmation linéaire et les approches heuristiques.

Introduction générale aux données massives

Couvre les outils de science des données, Hadoop, Spark, les écosystèmes des lacs de données, le théorème CAP, le traitement par lots vs. flux, HDFS, Hive, Parquet, ORC, et l'architecture MapReduce.

Big Data: Meilleures pratiques et lignes directrices

Couvre les meilleures pratiques et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture, les défis et les technologies comme Hadoop et Hive.