Advanced Spark Optimizations and Partitioning

About
Privacy
Disclaimer

Graph Chatbot

Related lectures (32)

Page 1 of 4

Advanced Spark Optimization Techniques: Managing Big Data

Discusses advanced Spark optimization techniques for managing big data efficiently, focusing on parallelization, shuffle operations, and memory management.

Accelerating Data Analytics: Innovations in Post-Moore Era

Covers advancements in data analytics systems and the role of hardware-software co-design in enhancing performance in the Post-Moore era.

Memory Management & Crash Programs

Covers memory management for engineers, focusing on crash programs related to memory access errors.

Advanced Spark Optimization

Delves into advanced Spark optimization techniques, emphasizing data partitioning, shuffle operations, and memory management.

Big Data Best Practices and Guidelines

Covers best practices and guidelines for big data, including data lakes, architecture, challenges, and technologies like Hadoop and Hive.

Virtual Memory: Memory Organization & Virtualization

Explores memory organization, virtualization, dynamic memory allocation, stack, heap, and memory virtualization techniques like base register and segmentation.

Virtual Memory

Covers virtual memory, program relocation, memory protection, TLB, and memory hierarchy interactions.

Data Wrangling with Hive: Managing Big Data Efficiently

Covers data wrangling techniques using Apache Hive for efficient big data management.

Introduction to Applied Data Analysis

Introduces the Applied Data Analysis course at EPFL, covering a broad range of data analysis topics and emphasizing continuous learning in data science.

General Introduction to Big Data

Covers data science tools, Hadoop, Spark, data lake ecosystems, CAP theorem, batch vs. stream processing, HDFS, Hive, Parquet, ORC, and MapReduce architecture.