Séance de cours

Défis de la gestion des données : Optimisation du matériel et des requêtes

Explore la production, le stockage, le traitement et les dimensions de Big Data, ainsi que les défis en matière d'analyse de données, d'élasticité de l'informatique en nuage et de sécurité.

Systèmes accélérés de gestion des données

Explore les systèmes de gestion de données accélérés grâce à une spécialisation en temps réel sur le matériel hétérogène et GPU accédant à des données fraîches de la mémoire CPU.

Écosystèmes Big Data : technologies et défis

Couvre les fondamentaux des écosystèmes de big data, en se concentrant sur les technologies, les défis et les exercices pratiques avec le HDFS d'Hadoop.

Cadres de données Spark

Couvre les cadres de données Spark, les collections distribuées de données organisées en colonnes nommées, et les avantages de les utiliser sur les DDR.

Innovations dans le domaine des sciences des données : perspectives, défis et avenir

Explore les progrès de la science des données, en mettant l'accent sur des idées rapides, la variété des données et les systèmes de données intelligents en temps réel.

Formats de données et brouillage de données avec Hadoop

Explore Apache Hive pour l'entreposage de données, les formats de données et la partition, avec des exercices pratiques dans la requête et la connexion à Hive.

Modélisation des données : concepts et applications

Explore les concepts de modélisation de données, les implémentations SQL et les applications pratiques dans la gestion des données manquantes.

Ingénierie des caractéristiques: Régression polynomiale

Couvre en fonction de la régression linéaire sur les caractéristiques des prédicteurs d'origine pour la représentation flexible des caractéristiques.

Introduction au traitement du flux de données

Couvre les bases du traitement des flux de données, y compris des outils comme Apache Storm et Kafka, des concepts clés tels que le temps d'événement et les opérations de fenêtre, et les défis du traitement des flux.

Manipulation des données : Intro vers Pandas

Introduit les principes fondamentaux du traitement des données, soulignant l'importance des Pandas et de la modélisation des données pour une analyse efficace.