Séance de cours

Visualisation de la science des données avec Pandas

Séances de cours associées (31)

Introduit les bases de la science des données, couvrant les arbres de décision, les progrès de l'apprentissage automatique et l'apprentissage par renforcement profond.

Classification de l'arbre de décision

Couvre la classification de l'arbre de décision à l'aide de KNIME Analytics Platform pour le prétraitement des données et la création de modèles.

Introduction générale à la science des données

Offre une introduction complète à la science des données, couvrant Python, Numpy, Pandas, Matplotlib et Scikit-learn, en mettant l'accent sur les exercices pratiques et le travail collaboratif.

Introduction générale aux données massives

Couvre les outils de science des données, Hadoop, Spark, les écosystèmes des lacs de données, le théorème CAP, le traitement par lots vs. flux, HDFS, Hive, Parquet, ORC, et l'architecture MapReduce.

Fonctions avancées des pandas

Se concentre sur les fonctions avancées de pandas pour la manipulation, l'exploration et la visualisation des données avec Python, en soulignant l'importance de la compréhension et de la préparation des données.

Structures et mécanismes : ouvrir une boîte

Explore l'analyse des structures et des mécanismes à travers un problème d'échantillon d'ouverture d'une boîte avec un couvercle à cordes.

Data Wrangling avec Hadoop : formats de stockage et ruche

Explore les querelles de données avec Hadoop, en mettant l'accent sur les formats de stockage et Hive pour le traitement des données volumineuses.

L'échange de données avec Hadoop

Couvre les techniques de manipulation des données à l'aide de Hadoop, en se concentrant sur les bases de données axées sur les lignes et les colonnes, les formats de stockage populaires et l'intégration HBase-Hive.

Data Wrangling avec Hive : gérer efficacement le Big Data

Couvre les techniques de querelles de données en utilisant Apache Hive pour une gestion efficace des big data.

Analyse des erreurs et Interpolation

Explore l'analyse des erreurs et les limites de l'interpolation sur des nœuds uniformément répartis.

L'essentiel de la science des données : Python, Numpy, Pandas et Scikit-learn

Couvre l'essentiel de Data Science en utilisant Python, Numpy, Pandas et Scikit-learn, y compris l'analyse et la classification des séquences d'ADN.

Matlab: 3D Surface Plotting

Couvre les tableaux logiques, les tracés de surface 3D, les courbes paramétriques, l'interpolation et l'ajustement dans Matlab.

Listes de Python : Manipulation et Compréhension

Couvre la manipulation et la compréhension de la liste Python, mettant l'accent sur la représentation de la mémoire et la mutabilité.

Séance de balayage de pierre 3D

Introduit un système de mesure 3D « professionnel » pour l'analyse des pierres et l'extraction des caractéristiques à l'aide de la photogrammétrie stéréo et des technologies de lumière structurée.

Big Data: Meilleures pratiques et lignes directrices

Couvre les meilleures pratiques et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture, les défis et les technologies comme Hadoop et Hive.

La collaboration dans le domaine de la science des données

Couvre les outils collaboratifs de science des données, les concepts de big data, Spark, et le traitement du flux de données, avec des conseils pour le projet final.

Programmation Matlab: Script et Fonction

Explore la programmation Matlab avec des scripts et des fonctions, vectorisation et graphiques 2D.

Agent Gitlab pour Kubernetes (agentk)

Couvre la configuration d'un agent Gitlab pour Kubernetes, en mettant l'accent sur l'installation, le contrôle de version et le dépannage.

Analyse numérique

Couvre des sujets d'analyse numérique avancés, y compris les réseaux neuronaux profonds et les méthodes d'optimisation.

Études de données critiques: Reproductibilité et Renku

Explore l'importance de la reproductibilité dans la science des données et présente Renku, une plate-forme pour la gestion de projets axés sur les données.