Êtes-vous un étudiant de l'EPFL à la recherche d'un projet de semestre?
Travaillez avec nous sur des projets en science des données et en visualisation, et déployez votre projet sous forme d'application sur Graph Search.
Cette séance de cours de l'instructeur couvre les défis de la manipulation massive des données à l'ère du big data. En commençant par les limites du traitement de l'information par une seule machine, la séance de cours se penche sur les sources de données croissantes et sur la nécessité de l'informatique distribuée. Il explore des exemples de grands ensembles de données provenant d'entreprises comme Facebook et Google, soulignant la nécessité de stockage et de traitement de données distribués. La séance de cours traite de la distribution des données en droit de l'énergie et des exigences matérielles pour le traitement des mégadonnées. Il introduit des concepts comme MapReduce et Spark comme solutions pour le traitement des données distribuées, mettant en évidence leur architecture et leurs caractéristiques clés. La séance de cours aborde également des concepts comme l'exécution paresseuse, les transformations, les actions, les variables de diffusion, les accumulateurs, la persistance de la DDR et les Spark DataFrames.