Flux de données: Modèles d'exécution pour l'informatique distribuée

Cette séance de cours couvre le modèle de flux de données, axé sur l'amélioration de l'expressivité, de l'extensibilité et des performances dans le calcul distribué. Il explique Résilient Distributed Datasets (RDDs) dans Spark, leurs propriétés, opérations, et des exemples comme la recherche d'erreurs et le nombre de mots. La séance de cours traite également des limites de la vanille Spark et des avantages de l'évaluation paresseuse.