Séance de cours

Scaling up : Spark et Big Data

Séances de cours associées (45)

Graph Chatbot

Chattez avec Graph Search

Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.

AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.

Connectez-vous pour utiliser Chat avec Graph Search

Introduction à l'analyse des données appliquées

Introduit le cours d'analyse des données appliquées à l'EPFL, couvrant un large éventail de sujets d'analyse des données et mettant l'accent sur l'apprentissage continu en sciences des données.

Cadres de données Spark

Couvre les cadres de données Spark, les collections distribuées de données organisées en colonnes nommées, et les avantages de les utiliser sur les DDR.

Analyse de régression : Désengagement des données

Couvre l'analyse de régression pour les données de désassemblage à l'aide de la modélisation de régression linéaire, des transformations, des interprétations des coefficients et des modèles linéaires généralisés.

Classement multiclasses

Couvre le concept de classification multiclasse et les défis de la séparation linéaire des données avec les classes multiples.

Régression linéaire et régression logistique

Couvre la régression linéaire et logistique pour les tâches de régression et de classification, en mettant l'accent sur les fonctions de perte et la formation de modèle.

Analyse des documents : Modélisation des sujets

Explore l'analyse documentaire, la modélisation thématique et les modèles génériques pour la production de données dans l'apprentissage automatique.

Introduction générale aux données massives

Couvre les outils de science des données, Hadoop, Spark, les écosystèmes des lacs de données, le théorème CAP, le traitement par lots vs. flux, HDFS, Hive, Parquet, ORC, et l'architecture MapReduce.

Principes fondamentaux de l'apprentissage supervisé

Présente les principes fondamentaux de l'apprentissage supervisé, y compris les fonctions de perte et les distributions de probabilité.

Arbres de décision: Induction et attributs

Explore les arbres de décision, la sélection des attributs, le compromis biais-variance et les méthodes d'ensemble dans l'apprentissage automatique.

Modélisation des données : concepts et applications

Explore les concepts de modélisation de données, les implémentations SQL et les applications pratiques dans la gestion des données manquantes.