Séance de cours

Data Wrangling avec Hive : gérer efficacement le Big Data

Séances de cours associées (32)

Introduction à l'architecture Spark Runtime

Couvre l'architecture d'exécution Spark, y compris les RDD, les transformations, les actions et la mise en cache pour l'optimisation des performances.

Classification de l'arbre de décision

Couvre la classification de l'arbre de décision à l'aide de KNIME Analytics Platform pour le prétraitement des données et la création de modèles.

Introduction au traitement des flux de données: concepts et applications

Couvre les principes du traitement des flux de données et de ses applications dans l'analyse de données en temps réel.

Intégrer le stockage de données évolutives et la carte Réduire le traitement avec Hadoop

Couvre l'intégration du stockage de données évolutives et de la carte réduisent le traitement à l'aide de Hadoop, y compris HDFS, Hive, Parquet, ORC, Spark et HBase.

Introduction à l'architecture Spark Runtime

Présentation d'Apache Spark, couvrant son architecture, ses RDD, ses transformations, ses actions, sa tolérance aux pannes, ses options de déploiement et ses exercices pratiques dans les blocs-notes Jupyter.

Cadres de données Spark

Couvre les cadres de données Spark, les collections distribuées de données organisées en colonnes nommées, et les avantages de les utiliser sur les DDR.

Introduction aux systèmes de bases de données

Couvre les bases des systèmes de base de données, y compris la modélisation des données, le SGBD, l'indépendance des données et l'aperçu du cours.

Modélisation des données : concepts et applications

Introduit des concepts de modélisation de données, l'utilisation de SQL et des applications de bibliothèque Pandas pour un traitement efficace des données.

Données, big data, nuages et IoT

Explore la représentation des données, les bases de données, le cloud computing et les défis dans l'environnement cloud.

Science des données pour les ingénieurs: Partie 2

Explore la manipulation, l'exploration et la visualisation de données dans des projets de science des données en utilisant Python.

Data Science: Python pour les ingénieurs - Partie II

Explore les data wrangling, le traitement numérique des data, et la visualisation scientifique en utilisant Python pour les ingénieurs.

Entrepôts de données : introduction et défis

Couvre l'introduction et les défis des entrepôts de données, y compris l'intégration des données, la gestion des métadonnées et l'optimisation des performances des requêtes.