Séance de cours

Analyse des données: Car Dataset

Séances de cours associées (32)

Data Wrangling avec Hive : gérer efficacement le Big Data

Couvre les techniques de querelles de données en utilisant Apache Hive pour une gestion efficace des big data.

Introduit les bases de la science des données, couvrant les arbres de décision, les progrès de l'apprentissage automatique et l'apprentissage par renforcement profond.

Classification de l'arbre de décision

Couvre la classification de l'arbre de décision à l'aide de KNIME Analytics Platform pour le prétraitement des données et la création de modèles.

L'échange de données avec Hadoop

Couvre les techniques de manipulation des données à l'aide de Hadoop, en se concentrant sur les bases de données axées sur les lignes et les colonnes, les formats de stockage populaires et l'intégration HBase-Hive.

Gestion des fichiers : Texte et octets

Couvre la gestion des fichiers, les opérations de chaînes de caractères et les encodages de caractères dans Python.

Listes de Python : Manipulation et Compréhension

Couvre la manipulation et la compréhension de la liste Python, mettant l'accent sur la représentation de la mémoire et la mutabilité.

Visualisation de la science des données avec Pandas

Couvre la manipulation et l'exploration de données à l'aide de Python en mettant l'accent sur les techniques de visualisation.

Big Data: Meilleures pratiques et lignes directrices

Couvre les meilleures pratiques et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture, les défis et les technologies comme Hadoop et Hive.

Science des données pour les ingénieurs: Partie 2

Explore la manipulation, l'exploration et la visualisation de données dans des projets de science des données en utilisant Python.

Figures de fatigue

Couvre l'analyse des données de fatigue et l'extraction de données à l'aide d'Excel.

Consommation d'eau à Genève

Explore les données sur la consommation d'eau à Genève, y compris les graphiques sur la consommation et les pertes, les ensembles de données disponibles et les phases de traitement des données.

Règlements : chiffres des règlements

Couvre l'analyse des données de fréquence cardiaque ECG et des mesures de débit respiratoire à l'aide d'Excel.

Fonctions avancées des pandas

Se concentre sur les fonctions avancées de pandas pour la manipulation, l'exploration et la visualisation des données avec Python, en soulignant l'importance de la compréhension et de la préparation des données.

Introduction générale à la science des données

Offre une introduction complète à la science des données, couvrant Python, Numpy, Pandas, Matplotlib et Scikit-learn, en mettant l'accent sur les exercices pratiques et le travail collaboratif.

Concepts avancés de traitement du flux de données

Explore les concepts avancés de traitement des flux de données à l'aide de données en temps réel sur les trains des chemins de fer néerlandais et de données historiques des chemins de fer fédéraux suisses.

Gestion des trajectoires de taxi

Couvre la mise en œuvre d'un système d'information pour la gestion des trajectoires de taxi, y compris le filtrage des données, la création de modèles de trajectoire et la comparaison des performances.

Programmation Python : Gestion de fichiers et exceptions

Explore la gestion des fichiers et les exceptions dans la programmation Python, couvrant la lecture, l'écriture et les stratégies de gestion des erreurs.

Data Wrangling avec Hadoop : Techniques avancées

Couvre les techniques avancées de disputes de données à l'aide d'Hadoop, en se concentrant sur l'intégration de Hive et HBase.

Exercice de dénonymisation

Explore la déanonymisation à l'aide d'ensembles de données publics de Netflix, en mettant l'accent sur l'appariement des utilisateurs et l'évaluation des films en fonction des cotes.

Introduction générale aux données massives

Couvre les outils de science des données, Hadoop, Spark, les écosystèmes des lacs de données, le théorème CAP, le traitement par lots vs. flux, HDFS, Hive, Parquet, ORC, et l'architecture MapReduce.