Séance de cours

Optimisations et partitionnement avancés des sparks

Dans cours

COM-490: Large-scale data science for real-world data

This hands-on course teaches the tools & methods used by data scientists, from researching solutions to scaling up prototypes to Spark clusters. It exposes the students to the entire data science pipe

Description

Cette séance de cours couvre les optimisations avancées de Spark et les techniques de partitionnement, y compris la gestion des données asymétriques, des déséquilibres et l'utilisation de la persistance. Il traite également d'une liste de contrôle d'optimisation, des meilleures pratiques et de l'utilisation des niveaux de persistance. En outre, il explore Spark MLlib pour les tâches d'apprentissage automatique, telles que la classification, la régression logistique, le clustering, et fournit des références utiles pour l'apprentissage ultérieur.

Enseignants (3)

Olivier Verscheure

Sofiane Sarni

Pamela Isabel Delgado Borda

I am a PhD student in the School of Computer and Communication Sciences at EPFL. I am part of the Operating Systems Laboratory and my advisor is Prof. Willy Zwaenepoel. I received my Bachelor's degree in Systems Engineering from Universidad Catolica Boliviana, Bolivia in 2008 and Master's degree in Computer Science, specialization Foundations of Software from EPFL in 2012.

Source officielle

Séances de cours associées (31)

L'apprentissage automatique efficace grâce à la synthèse des données

Explore l'apprentissage automatique efficace par la synthèse des données, couvrant les défis, les méthodes et les applications impactées dans divers domaines.

Régression logistique : Fondements et applications

Explore les fondamentaux de régression logistique, y compris les fonctions de coût, la régularisation et les limites de classification, avec des exemples pratiques utilisant scikit-learn.

Analyse statistique des réseaux : prévision des liens et biclustering

Explore la prédiction des liens, la régression logistique, l'inférence causale et le bigroupement dans l'analyse statistique des réseaux.

Aperçu de l'apprentissage supervisé

Contient les CNN, les RNN, les SVM et les méthodes d'apprentissage supervisé, soulignant l'importance d'harmoniser la régularisation et de prendre des décisions éclairées dans le domaine de l'apprentissage automatique.

Introduction à l'apprentissage automatique

Couvre les bases de l'apprentissage automatique pour les physiciens et les chimistes, en mettant l'accent sur la classification des images et l'étiquetage des ensembles de données.

Afficher plus