Publication

The Case for RackOut: Scalable Data Serving Using Rack-Scale Systems

Résumé

To provide low latency and high throughput guarantees, most large key-value stores keep the data in the memory of many servers. Despite the natural parallelism across lookups, the load imbalance, introduced by heavy skew in the popularity distribution of keys, limits performance. To avoid violating tail latency service-level objectives, systems tend to keep server utilization low and organize the data in micro-shards, which provides units of migration and replication for the purpose of load balancing. These techniques reduce the skew, but incur additional monitoring, data replication and consistency maintenance overheads. In this work, we introduce RackOut, a memory pooling technique that leverages the one-sided remote read primitive of emerging rack-scale systems to mitigate load imbalance while respecting service-level objectives. In RackOut, the data is aggregated at rack-scale granularity, with all of the participating servers in the rack jointly servicing all of the rack’s micro-shards. We develop a queuing model to evaluate the impact of RackOut at the datacenter scale. In addition, we implement a RackOut proof-of-concept key-value store, evaluate it on two experimental platforms based on RDMA and Scale-Out NUMA, and use these results to validate the model. Our results show that RackOut can increase throughput up to 6× for RDMA and 8.6× for Scale-Out NUMA compared to a scale-out deployment, while respecting tight tail latency service-level objectives.

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
Concepts associés (33)
Throughput
Le throughput est le taux de production ou la vitesse à laquelle quelque chose peut être traitée. Ce terme peut aussi désigner le débit global d'un routeur ou d'un nœud du réseau. Lorsqu'il est utilisé dans le cadre des réseaux de télécommunications, tels que ethernet ou un réseau radio en mode paquet, le throughput d'un réseau est le débit de transmission utile du réseau sur un canal de communication (messages reçus avec succès). Les données de ces messages peuvent être émises sur un lien physique ou logique, ou bien à travers un nœud du réseau.
Measuring network throughput
Throughput of a network can be measured using various tools available on different platforms. This page explains the theory behind what these tools set out to measure and the issues regarding these measurements. Reasons for measuring throughput in networks. People are often concerned about measuring the maximum data throughput in bits per second of a communications link or network access. A typical method of performing a measurement is to transfer a 'large' file from one system to another system and measure the time required to complete the transfer or copy of the file.
Rack 19 pouces
Un rack 19 pouces est un système de baie métallique aux dimensions standardisées (EIA 310-D, CEI 60297 et DIN 41494 SC48D) permettant de monter divers modules électroniques, dits « rackables », les uns au-dessus des autres. Ce format s'est imposé universellement depuis son introduction en 1922 par la firme américaine AT&T, première à répondre par une norme précise à ses besoins de stockage de matériel de télécommunications. Le rack est constitué de deux rails métalliques verticaux de (soit ) espacés de (soit ) ce qui donne une largeur totale de rack de (soit ).
Afficher plus
Publications associées (36)

Genuinely distributed Byzantine machine learning

Rachid Guerraoui, El Mahdi El Mhamdi, Le Nguyen Hoang, Sébastien Louis Alexandre Rouault, Arsany Hany Abdelmessih Guirguis

Machine learning (ML) solutions are nowadays distributed, according to the so-called server/worker architecture. One server holds the model parameters while several workers train the model. Clearly, such architecture is prone to various types of component ...
2022

Genuinely Distributed Byzantine Machine Learning

Rachid Guerraoui, El Mahdi El Mhamdi, Le Nguyen Hoang, Sébastien Louis Alexandre Rouault, Arsany Hany Abdelmessih Guirguis

Machine Learning (ML) solutions are nowadays distributed, according to the so-called server/worker architecture. One server holds the model parameters while several workers train the model. Clearly, such architecture is prone to various types of component ...
Association for Computing Machinery2020

Hailstorm: Disaggregated Compute and Storage for Distributed LSM-based Databases

Willy Zwaenepoel, Laurent Bindschaedler, Ashvin Goel

Distributed LSM-based databases face throughput and latency issues due to load imbalance across instances and interference from background tasks such as flushing, compaction, and data migration. Hailstorm addresses these problems by deploying the database ...
ACM2020
Afficher plus

Graph Chatbot

Chattez avec Graph Search

Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.

AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.