Séance de cours

Copernicus pour l'observation de la Terre

Big Data: Meilleures pratiques et lignes directrices

Couvre les meilleures pratiques et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture, les défis et les technologies comme Hadoop et Hive.

Questions relatives aux données dans le domaine de la recherche

Examine les défis que posent les hypothèses de données, les biais et d'autres aspects de la recherche, y compris les écritures incomplètes et les frustrations des nouveaux arrivants.

Consommation d'eau à Genève

Explore les données sur la consommation d'eau à Genève, y compris les graphiques sur la consommation et les pertes, les ensembles de données disponibles et les phases de traitement des données.

Data Wrangling avec Hive : gérer efficacement le Big Data

Couvre les techniques de querelles de données en utilisant Apache Hive pour une gestion efficace des big data.

Introduction à l'architecture d'exécution Spark

Présente Apache Spark, qui couvre ses principales caractéristiques, son histoire, ses RDD, son architecture et son framework informatique distribué.

Défis de nettoyage des données : Optimisation de la détection des erreurs

S'attaque aux défis du nettoyage des données pour l'analyse, proposant des optimisations pour réduire le temps de traitement.

Introduction à l'architecture Spark Runtime

Présentation d'Apache Spark, couvrant son architecture, ses RDD, ses transformations, ses actions, sa tolérance aux pannes, ses options de déploiement et ses exercices pratiques dans les blocs-notes Jupyter.

Manipulation des données : Intro vers Pandas

Introduit les principes fondamentaux du traitement des données, soulignant l'importance des Pandas et de la modélisation des données pour une analyse efficace.

Traitement des données

Couvre le traitement des données d'une expérience chimique à l'aide d'Excel.

Représentations et traitement des données dans l'apprentissage automatique

Couvre les représentations de données et les techniques de traitement essentielles pour des algorithmes d'apprentissage automatique efficaces.