Séance de cours

Gêne de données: Transformer les données pour l'analyse

Séances de cours associées (32)

Introduction à l'architecture Spark Runtime

Couvre l'architecture d'exécution Spark, y compris les RDD, les transformations, les actions et la mise en cache pour l'optimisation des performances.

Science collaborative des données : outils et techniques

Introduit des outils collaboratifs de science des données comme Git et Docker, en mettant l'accent sur le travail d'équipe et les exercices pratiques pour un apprentissage efficace.

Défis de la gestion des données : Optimisation du matériel et des requêtes

Explore les changements matériels, l'optimisation des requêtes, la répartition de la charge de travail, et des stratégies efficaces pour le milieu universitaire et l'équilibre entre vie professionnelle et vie privée.

Ingénierie des caractéristiques: Régression polynomiale

Couvre en fonction de la régression linéaire sur les caractéristiques des prédicteurs d'origine pour la représentation flexible des caractéristiques.

Big Data: Traitement et dimensions

Explore la production, le stockage, le traitement et les dimensions de Big Data, ainsi que les défis en matière d'analyse de données, d'élasticité de l'informatique en nuage et de sécurité.

Data Science: Python pour les ingénieurs - Partie II

Explore les data wrangling, le traitement numérique des data, et la visualisation scientifique en utilisant Python pour les ingénieurs.

L'échange de données: Structurer et nettoyer les données

Explore les techniques de manipulation des données, la détection des erreurs, les dépendances fonctionnelles, les contraintes de déni et la temporalité des données.

Visualisation des données : principes et pratiques

Souligne l'importance des techniques et des pratiques de visualisation des données pour une analyse et une communication efficaces des données.

Modélisation des données : concepts et applications

Introduit des concepts de modélisation de données, l'utilisation de SQL et des applications de bibliothèque Pandas pour un traitement efficace des données.

Éléments de la collaboration dans le domaine de la science des données

Présente des outils collaboratifs de science des données comme les carnets Jupyter, Docker et Git, mettant l'accent sur la version des données et la conteneurisation.

Précision des données : évaluation de la fidélité et détection d'erreurs

Explore la précision des données par l'évaluation de la fidélité, la détection des erreurs, la manipulation aberrante, les corrélations, les dépendances fonctionnelles, la détection des violations, les contraintes de déni et les techniques de réparation des données.

Applications et systèmes intensifs de données: Aperçu

Couvre la croissance exponentielle des données, les défis dans la technologie de traitement, la variété des données, le nettoyage, le traitement approximatif des requêtes, l'analyse multi-requêtes et le traitement hybride des transactions.