Séance de cours

Défis du Big Data : l'expansion vers des données massives

Description

Cette séance de cours de l'instructeur couvre les défis de la manipulation massive des données à l'ère du big data. En commençant par les limites du traitement de l'information par une seule machine, la séance de cours se penche sur les sources de données croissantes et sur la nécessité de l'informatique distribuée. Il explore des exemples de grands ensembles de données provenant d'entreprises comme Facebook et Google, soulignant la nécessité de stockage et de traitement de données distribués. La séance de cours traite de la distribution des données en droit de l'énergie et des exigences matérielles pour le traitement des mégadonnées. Il introduit des concepts comme MapReduce et Spark comme solutions pour le traitement des données distribuées, mettant en évidence leur architecture et leurs caractéristiques clés. La séance de cours aborde également des concepts comme l'exécution paresseuse, les transformations, les actions, les variables de diffusion, les accumulateurs, la persistance de la DDR et les Spark DataFrames.

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.