Séance de cours

Classification de l'arbre de décision

Séances de cours associées (32)

Introduit les bases de la science des données, couvrant les arbres de décision, les progrès de l'apprentissage automatique et l'apprentissage par renforcement profond.

Visualisation de la science des données avec Pandas

Couvre la manipulation et l'exploration de données à l'aide de Python en mettant l'accent sur les techniques de visualisation.

Arbres de décision: Classification

Explore les arbres de décision pour la classification, l'entropie, le gain d'information, l'encodage à chaud, l'optimisation de l'hyperparamètre et les forêts aléatoires.

Introduction générale à la science des données

Offre une introduction complète à la science des données, couvrant Python, Numpy, Pandas, Matplotlib et Scikit-learn, en mettant l'accent sur les exercices pratiques et le travail collaboratif.

Introduction générale aux données massives

Couvre les outils de science des données, Hadoop, Spark, les écosystèmes des lacs de données, le théorème CAP, le traitement par lots vs. flux, HDFS, Hive, Parquet, ORC, et l'architecture MapReduce.

L'échange de données avec Hadoop

Couvre les techniques de manipulation des données à l'aide de Hadoop, en se concentrant sur les bases de données axées sur les lignes et les colonnes, les formats de stockage populaires et l'intégration HBase-Hive.

Data Wrangling avec Hadoop : formats de stockage et ruche

Explore les querelles de données avec Hadoop, en mettant l'accent sur les formats de stockage et Hive pour le traitement des données volumineuses.

Régression logistique : Fondements et applications

Explore les fondamentaux de régression logistique, y compris les fonctions de coût, la régularisation et les limites de classification, avec des exemples pratiques utilisant scikit-learn.

Arbres de décision: Classification

Introduit des arbres de décision pour la classification, couvrant l'entropie, la qualité fractionnée, l'indice Gini, les avantages, les inconvénients, et le classificateur forestier aléatoire.

Structures et mécanismes : ouvrir une boîte

Explore l'analyse des structures et des mécanismes à travers un problème d'échantillon d'ouverture d'une boîte avec un couvercle à cordes.

Data Wrangling avec Hive : gérer efficacement le Big Data

Couvre les techniques de querelles de données en utilisant Apache Hive pour une gestion efficace des big data.

Analyse des données au repos et des données en mouvement

Explore la combinaison de données au repos avec des données en mouvement, en mettant l'accent sur les complexités de l'architecture Lambda et l'évaluation de la qualité des flux et des lots.

L'essentiel de la science des données : Python, Numpy, Pandas et Scikit-learn

Couvre l'essentiel de Data Science en utilisant Python, Numpy, Pandas et Scikit-learn, y compris l'analyse et la classification des séquences d'ADN.

Big Data: Meilleures pratiques et lignes directrices

Couvre les meilleures pratiques et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture, les défis et les technologies comme Hadoop et Hive.

Séance de balayage de pierre 3D

Introduit un système de mesure 3D « professionnel » pour l'analyse des pierres et l'extraction des caractéristiques à l'aide de la photogrammétrie stéréo et des technologies de lumière structurée.

Arbres de régression et méthodes d'ensemble dans l'apprentissage automatique

Discute des arbres de régression, des méthodes d'ensemble et de leurs applications dans la prévision des prix des voitures d'occasion et des rendements des stocks.

Listes de Python : Manipulation et Compréhension

Couvre la manipulation et la compréhension de la liste Python, mettant l'accent sur la représentation de la mémoire et la mutabilité.

Programmation R : conditions, boucles, fonctions et graphiques

Couvre les conditions, les boucles, les fonctions et les graphiques en programmation R avec des exemples pratiques.

Agent Gitlab pour Kubernetes (agentk)

Couvre la configuration d'un agent Gitlab pour Kubernetes, en mettant l'accent sur l'installation, le contrôle de version et le dépannage.

Études de données critiques: Reproductibilité et Renku

Explore l'importance de la reproductibilité dans la science des données et présente Renku, une plate-forme pour la gestion de projets axés sur les données.