Êtes-vous un étudiant de l'EPFL à la recherche d'un projet de semestre?
Travaillez avec nous sur des projets en science des données et en visualisation, et déployez votre projet sous forme d'application sur Graph Search.
Cette séance de cours offre une introduction générale au big data, qui traite des meilleures pratiques et des lignes directrices. Il explore le concept des lacs de données, l'architecture typique du big data et les défis liés au big data. L'instructeur souligne l'importance de l'ingestion, du nettoyage et de l'intégration des données avant l'analyse. La séance de cours s'inscrit dans le théorème CAP des Data Stores distribués, le choc entre le traitement par lots et le traitement par flux, et les technologies utilisées pour relever les défis du big data. Il couvre également Hadoop Distributed File Systems, MapReduce et les formats de stockage HDFS populaires. En outre, il présente le sujet à venir de HIVE Hadoop Data Warehouse et discute d'une affectation graduée axée sur la modélisation des séries chronologiques de CO2 et la visualisation des données.