L'échange de données: Structurer et nettoyer les données

À propos
Confidentialité
Mentions légales

Graph Chatbot

Séances de cours associées (32)

Structuration des données : Intrarecord et Interrecord Techniques

Couvre les techniques de structuration des données, la détection des erreurs et les dépendances fonctionnelles dans les enregistrements.

Introduction à l'architecture Spark Runtime

Couvre l'architecture d'exécution Spark, y compris les RDD, les transformations, les actions et la mise en cache pour l'optimisation des performances.

Éléments de la collaboration dans le domaine de la science des données

Présente des outils collaboratifs de science des données comme les carnets Jupyter, Docker et Git, mettant l'accent sur la version des données et la conteneurisation.

Innovations dans le domaine des sciences des données : perspectives, défis et avenir

Explore les progrès de la science des données, en mettant l'accent sur des idées rapides, la variété des données et les systèmes de données intelligents en temps réel.

Applications et systèmes intensifs de données: Aperçu

Couvre la croissance exponentielle des données, les défis dans la technologie de traitement, la variété des données, le nettoyage, le traitement approximatif des requêtes, l'analyse multi-requêtes et le traitement hybride des transactions.

Traitement du flux de données : Apache Kafka et Spark

Couvre le traitement de flux de données avec Apache Kafka et Spark, y compris le temps d'événement vs le temps de traitement, les opérations de traitement de flux, et les jointures de flux.

Big Data: Traitement et dimensions

Explore la production, le stockage, le traitement et les dimensions de Big Data, ainsi que les défis en matière d'analyse de données, d'élasticité de l'informatique en nuage et de sécurité.

Formats de données et brouillage de données avec Hadoop

Explore Apache Hive pour l'entreposage de données, les formats de données et la partition, avec des exercices pratiques dans la requête et la connexion à Hive.

Ingénierie des caractéristiques: Régression polynomiale

Couvre en fonction de la régression linéaire sur les caractéristiques des prédicteurs d'origine pour la représentation flexible des caractéristiques.

Building DH Portal: Plateforme de données pour les chercheurs

Présente l'expérience de stage de Haeeun Kim dans l'amélioration des processus de nettoyage et d'organisation des données des chercheurs.

Présentation du module Utilisateurs clés de l'équipement

Couvre la présentation du module des utilisateurs clés de l'équipement et son accent sur la planification, le chargement des données et les essais d'intégration.

Big Data: Meilleures pratiques et lignes directrices

Couvre les meilleures pratiques et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture, les défis et les technologies comme Hadoop et Hive.

Page 2 sur 2