Séance de cours

Cadres de données Spark: Vue d'ensemble et analyse des performances

Séances de cours associées (32)

Data Wrangling avec Hive : gérer efficacement le Big Data

Couvre les techniques de querelles de données en utilisant Apache Hive pour une gestion efficace des big data.

Introduit les bases de la science des données, couvrant les arbres de décision, les progrès de l'apprentissage automatique et l'apprentissage par renforcement profond.

L'échange de données avec Hadoop

Couvre les techniques de manipulation des données à l'aide de Hadoop, en se concentrant sur les bases de données axées sur les lignes et les colonnes, les formats de stockage populaires et l'intégration HBase-Hive.

Régression logistique : prédiction de la végétation

Explore la régression logistique pour prédire les proportions de la végétation dans la région amazonienne grâce à l'analyse des données de télédétection.

Classification de l'arbre de décision

Couvre la classification de l'arbre de décision à l'aide de KNIME Analytics Platform pour le prétraitement des données et la création de modèles.

Bases de l'apprentissage automatique

Introduit les bases de l'apprentissage automatique, couvrant l'apprentissage supervisé et non supervisé, la régression linéaire et la compréhension des données.

Écosystèmes Big Data : technologies et défis

Couvre les fondamentaux des écosystèmes de big data, en se concentrant sur les technologies, les défis et les exercices pratiques avec le HDFS d'Hadoop.

Introduction générale aux données massives

Couvre les outils de science des données, Hadoop, Spark, les écosystèmes des lacs de données, le théorème CAP, le traitement par lots vs. flux, HDFS, Hive, Parquet, ORC, et l'architecture MapReduce.

Arbres de décision: Classification

Explore les arbres de décision pour la classification, l'entropie, le gain d'information, l'encodage à chaud, l'optimisation de l'hyperparamètre et les forêts aléatoires.

Évaluation du modèle et réglage de l'hyperparamètre

Explore l'évaluation des modèles, le réglage hyperparamétrique et les stratégies de rééchantillonnage dans l'apprentissage automatique.

Arbres de régression et méthodes d'ensemble dans l'apprentissage automatique

Discute des arbres de régression, des méthodes d'ensemble et de leurs applications dans la prévision des prix des voitures d'occasion et des rendements des stocks.

Manipulation des données : Intro vers Pandas

Introduit les principes fondamentaux du traitement des données, soulignant l'importance des Pandas et de la modélisation des données pour une analyse efficace.

Apprentissage automatique: Techniques d'apprentissage supervisé et non supervisé

Couvre les techniques d'apprentissage supervisées et non supervisées dans l'apprentissage automatique, en mettant en évidence leurs applications dans la finance et l'analyse environnementale.

Gaussian Naive Bayes & K-NN

Couvre les bayes naïfs gaussiens, les voisins les plus proches du K et le réglage hyperparamétrique dans l'apprentissage automatique.

Fonctions avancées des pandas

Se concentre sur les fonctions avancées de pandas pour la manipulation, l'exploration et la visualisation des données avec Python, en soulignant l'importance de la compréhension et de la préparation des données.

Questions et optimisations du OLAP

Couvre les requêtes OLAP, des exemples de comparaisons, de classement et d'optimisations pour la performance de la requête.

Analyse des documents : Modélisation des sujets

Explore l'analyse documentaire, la modélisation thématique et les modèles génériques pour la production de données dans l'apprentissage automatique.

Cadres de données Spark

Couvre les cadres de données Spark, les collections distribuées de données organisées en colonnes nommées, et les avantages de les utiliser sur les DDR.

Régression logistique : Fondements et applications

Explore les fondamentaux de régression logistique, y compris les fonctions de coût, la régularisation et les limites de classification, avec des exemples pratiques utilisant scikit-learn.

Data Wrangling avec Hadoop : formats de stockage et ruche

Explore les querelles de données avec Hadoop, en mettant l'accent sur les formats de stockage et Hive pour le traitement des données volumineuses.