Séance de cours

Data Wrangling: Processus ETL et questions de querelles

Explore la production, le stockage, le traitement et les dimensions de Big Data, ainsi que les défis en matière d'analyse de données, d'élasticité de l'informatique en nuage et de sécurité.

Précision des données : évaluation de la fidélité et détection d'erreurs

Explore la précision des données par l'évaluation de la fidélité, la détection des erreurs, la manipulation aberrante, les corrélations, les dépendances fonctionnelles, la détection des violations, les contraintes de déni et les techniques de réparation des données.

Big Data: Meilleures pratiques et lignes directrices

Couvre les meilleures pratiques et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture, les défis et les technologies comme Hadoop et Hive.

Science collaborative des données : outils et techniques

Introduit des outils collaboratifs de science des données comme Git et Docker, en mettant l'accent sur le travail d'équipe et les exercices pratiques pour un apprentissage efficace.

Manipulation des données : Intro vers Pandas

Introduit les principes fondamentaux du traitement des données, soulignant l'importance des Pandas et de la modélisation des données pour une analyse efficace.

Gestion des données : Aperçu

Présente les concepts fondamentaux de la gestion des données, y compris les modèles de données, les bases de données et les tâches clés.

Informatique distribuée : défis et solutions

Explore les défis de l'informatique distribuée, de la croissance des données et des types de données, en mettant l'accent sur la bataille contre les trois V dans le Big Data.

Défis de nettoyage des données : Optimisation de la détection des erreurs

S'attaque aux défis du nettoyage des données pour l'analyse, proposant des optimisations pour réduire le temps de traitement.

Building DH Portal: Plateforme de données pour les chercheurs

Présente l'expérience de stage de Haeeun Kim dans l'amélioration des processus de nettoyage et d'organisation des données des chercheurs.

Représentation des connaissances : sémantique et structures de données

Explore la représentation des connaissances, les structures de données, la sémantique et les défis de la recherche de données sur le Web.