Séance de cours

Système d'exécution distribué à usage général

Séances de cours associées (29)

Introduction générale aux données massives

Couvre les outils de science des données, Hadoop, Spark, les écosystèmes des lacs de données, le théorème CAP, le traitement par lots vs. flux, HDFS, Hive, Parquet, ORC, et l'architecture MapReduce.

Big Data: Meilleures pratiques et lignes directrices

Couvre les meilleures pratiques et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture, les défis et les technologies comme Hadoop et Hive.

Classification de l'arbre de décision

Couvre la classification de l'arbre de décision à l'aide de KNIME Analytics Platform pour le prétraitement des données et la création de modèles.

Introduction à la science des données

Introduit les bases de la science des données, couvrant les arbres de décision, les progrès de l'apprentissage automatique et l'apprentissage par renforcement profond.

Techniques avancées d'optimisation des sparks : gestion du Big Data

Discute des techniques avancées d'optimisation Spark pour gérer efficacement les Big Data, en se concentrant sur la parallélisation, les opérations de mélange et la gestion de la mémoire.

Introduction à l'architecture Spark Runtime

Couvre l'architecture d'exécution Spark, y compris les RDD, les transformations, les actions et la mise en cache pour l'optimisation des performances.

Systèmes d'information distribués: vue d'ensemble et informations sur les cours

Couvre les concepts clés des systèmes d'information distribués et de la logistique des cours.

Data Wrangling avec Hadoop : formats de stockage et ruche

Explore les querelles de données avec Hadoop, en mettant l'accent sur les formats de stockage et Hive pour le traitement des données volumineuses.

Propriété immobilière à Genève

Explore la répartition de la propriété à Genève, en mettant l'accent sur la concentration de la richesse dans les zones urbaines et l'importance de la propriété publique dans les régions périphériques.

Défis du Big Data : l'expansion vers des données massives

Explore les défis de la manipulation massive des données à l'ère du big data, en discutant de solutions comme MapReduce et Spark.

Analyse des données au repos et des données en mouvement

Explore la combinaison de données au repos avec des données en mouvement, en mettant l'accent sur les complexités de l'architecture Lambda et l'évaluation de la qualité des flux et des lots.

Fondements de la Blockchain

Explore les applications financières des blockchains, couvrant la définition, l'histoire, Ethereum, la finance décentralisée, les contrats intelligents, les jetons, les méthodes d'évaluation, les défis de la double dépense, les signatures numériques, et les fonctions de hachage cryptographique.

Écosystèmes Big Data : technologies et défis

Couvre les fondamentaux des écosystèmes de big data, en se concentrant sur les technologies, les défis et les exercices pratiques avec le HDFS d'Hadoop.

Défis Big Data : Computing distribué avec Spark

Explore les défis du Big Data, l'informatique distribuée avec Spark, les RDD, la configuration matérielle requise, MapReduce, les transformations et Spark DataFrames.

Sécurité de la mémoire et architecture client/serveur : concepts clés

Couvre les principes de sécurité de la mémoire et l'architecture client / serveur dans la conception du système.

Planification urbaine décentralisée

S'insère dans une planification urbaine décentralisée, explorant les théories historiques et envisageant des villes à propriété collective, un trafic minimal et une nature intégrée.

Chord: Recherche & Routage

Couvre l'algorithme Chord pour la recherche et le routage dans les tables de hachage distribuées.

Programmation orientée objet : Polymorphisme et pointeurs

Explore des concepts de programmation orientés objet comme le polymorphisme et les pointeurs en C++.

L'échange de données avec Hadoop

Couvre les techniques de manipulation des données à l'aide de Hadoop, en se concentrant sur les bases de données axées sur les lignes et les colonnes, les formats de stockage populaires et l'intégration HBase-Hive.

Visualisation de la science des données avec Pandas

Couvre la manipulation et l'exploration de données à l'aide de Python en mettant l'accent sur les techniques de visualisation.