Séance de cours

Éléments de la collaboration dans le domaine de la science des données

Séances de cours associées (32)

Introduit les bases de la science des données, couvrant les arbres de décision, les progrès de l'apprentissage automatique et l'apprentissage par renforcement profond.

Introduction générale à la science des données

Offre une introduction complète à la science des données, couvrant Python, Numpy, Pandas, Matplotlib et Scikit-learn, en mettant l'accent sur les exercices pratiques et le travail collaboratif.

Science collaborative des données : outils et techniques

Introduit des outils collaboratifs de science des données comme Git et Docker, en mettant l'accent sur le travail d'équipe et les exercices pratiques pour un apprentissage efficace.

Agent Gitlab pour Kubernetes (agentk)

Couvre la configuration d'un agent Gitlab pour Kubernetes, en mettant l'accent sur l'installation, le contrôle de version et le dépannage.

Visualisation de la science des données avec Pandas

Couvre la manipulation et l'exploration de données à l'aide de Python en mettant l'accent sur les techniques de visualisation.

Introduction générale aux données massives

Couvre les outils de science des données, Hadoop, Spark, les écosystèmes des lacs de données, le théorème CAP, le traitement par lots vs. flux, HDFS, Hive, Parquet, ORC, et l'architecture MapReduce.

Études de données critiques: Reproductibilité et Renku

Explore l'importance de la reproductibilité dans la science des données et présente Renku, une plate-forme pour la gestion de projets axés sur les données.

Collaborative Data Science : outils et flux de travail Git

Explore des outils tels que Git et Docker pour des projets collaboratifs de science des données.

Data Wrangling avec Hadoop : formats de stockage et ruche

Explore les querelles de données avec Hadoop, en mettant l'accent sur les formats de stockage et Hive pour le traitement des données volumineuses.

L'échange de données avec Hadoop

Couvre les techniques de manipulation des données à l'aide de Hadoop, en se concentrant sur les bases de données axées sur les lignes et les colonnes, les formats de stockage populaires et l'intégration HBase-Hive.

Analyse des données au repos et des données en mouvement

Explore la combinaison de données au repos avec des données en mouvement, en mettant l'accent sur les complexités de l'architecture Lambda et l'évaluation de la qualité des flux et des lots.

La collaboration dans le domaine de la science des données

Couvre les outils collaboratifs de science des données, les concepts de big data, Spark, et le traitement du flux de données, avec des conseils pour le projet final.

Classification de l'arbre de décision

Couvre la classification de l'arbre de décision à l'aide de KNIME Analytics Platform pour le prétraitement des données et la création de modèles.

Data Wrangling avec Hive : gérer efficacement le Big Data

Couvre les techniques de querelles de données en utilisant Apache Hive pour une gestion efficace des big data.

Big Data: Meilleures pratiques et lignes directrices

Couvre les meilleures pratiques et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture, les défis et les technologies comme Hadoop et Hive.

Renku : Science collaborative des données

Renku est une plate-forme pour la science des données collaborative permettant la reproductibilité et la promotion de la réutilisation du code et des données.

Visite des services d'hébergement Web Legacy

Couvre une visite des anciens services d'hébergement Web et des discussions sur le stockage futur des services.

Écosystèmes Big Data : technologies et défis

Couvre les fondamentaux des écosystèmes de big data, en se concentrant sur les technologies, les défis et les exercices pratiques avec le HDFS d'Hadoop.

Introduction à Renku

Introduit Renku, une plateforme pour la science collaborative des données, mettant l'accent sur la reproductibilité, la shareability, la réutilisabilité et la sécurité.

L'essentiel de la science des données : Python, Numpy, Pandas et Scikit-learn

Couvre l'essentiel de Data Science en utilisant Python, Numpy, Pandas et Scikit-learn, y compris l'analyse et la classification des séquences d'ADN.