博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Consistent Hashing算法及相关技术
阅读量:6679 次
发布时间:2019-06-25

本文共 2786 字,大约阅读时间需要 9 分钟。

Distributed Algorithms in NoSQL Databases, 
NOSQL Patterns, 
, 使用memcached结合Consistent hasning 算法, 实现非常完备的分布式缓存服务器
The Simple Magic of Consistent Hashing, 
, 4.2 4.3, 6.2确保均匀的负载分布, 6.4

 

当面对bigdata, scale-up思路完全行不通, 需要使用scale-out来进行系统扩展的时候 

Data Sharding将是必须要面对的问题, how to map records to physical nodes?

1. Load balance, 避免出现hotspots

2. 节点发生变化时, fail, new add, leave, 不会影响到sharding的结果

 

使用的方法,

1. 基于master, 比如google的bigtable, master来协调一切, 避免hotspots, 当节点失效或加入时, 经行相应的调整 

    所有的数据分布状况信息都存在master上, 当然问题就是单点

2. 基于内容的划分, 比如时间, 地点, 问题在于无法解决hotspots问题

3. 基于hash的划分 (partition = key mod (total_VNs)), 这个可以比较有效的解决hotspots问题, 但是无法解决节点变化问题 

   当节点变化时, 会导致之前的所有划分失效

4, 一致性hash, 比较理想的方案, 并且是去中心化设计

 

Consistent Hashing

The idea of consistent hashing was introduced by David Karger et al. in 1997 (cf. [KLL+97]) in the context of a paper about “a family of caching protocols for distributed networks that can be used to decrease or eliminate the occurrence of hot spots in the networks”.

A到B就是, 普通hash到一致性hash的转化 

C, 当节点增加或删除时, 一致性hash可以简单的应对 
D, 为了load balance, 使用虚拟节点的概念, 并可以根据节点的能力分配不同个数的节点

算法实际使用例子可以参考, 4.2 划分算法

直接使用一致性hash在效率上, 会存在一些问题, 参考, 6.2确保均匀的负载分布, 看看dynamo是怎样优化一致性hash以达到更好的load balance

关于一致性hash, 由谁来进行coordinate的问题, 参考, 6.4 Client-driven or Server-driven Coordination 

client是否需要保存一致性hash环信息, 并如何更新的问题? 
如果能容忍多一跳的延迟, client可以不保存任何一致性hash环信息, 就近将request发给任一server, 由server进行coordinate

 

Data replication

To provide high reiability from individually unreliable resource, we need to replicate the data partitions.

关于使用一致性hash后的复本机制参考, 4.3

2012011100035953.jpg

 

Membership Changes

In a partitioned database where nodes may join and leave the system at any time without impacting its operation all nodes have to communicate with each other, especially when membership changes.

一致性hash有效解决节点动态变化的问题, 也只是将影响降到较小的范围, 在节点变化时, 邻接的节点仍然需要做一定的调整和数据transfer 

When a new node joins the system the following actions have to happen (cf. [Ho09a]): 
1. The newly arriving node announces its presence and its identifier to adjacent nodes or to all nodes via broadcast
2. The neighbors of the joining node react by adjusting their object and replica ownerships
3. The joining node copies datasets it is now responsible for from its neighbours. This can be done in bulk and alsoasynchronously
4. If, in step 1, the membership change has not been broadcasted to all nodes, the joining node is now announcing its arrival.

 

When a node leaves the system the following actions have to occur (cf. [Ho09a]):

1. Nodes within the system need to detect whether a node has left as it might have crashed and not been able to notify the other nodes of its departure.

2. If a node’s departure has been detected, the neighbors of the node have to react by exchanging data with each other and adjusting their object and replica ownerships.

  

本文章摘自博客园,原文发布日期:2013-04-13

转载地址:http://nawao.baihongyu.com/

你可能感兴趣的文章
报告显示:被调研中国企业超85%已从数字转型中获得回报
查看>>
软件探索性测试 笔记二
查看>>
将来也不会被破译的分布式存储系统
查看>>
光伏电站或成辅助服务市场“输家”
查看>>
今年光伏“领跑者”计划将升级扩围
查看>>
Java程序运行超时后退出或进行其他操作的实现
查看>>
手把手教你启用RemoteFX以及Hyper-V GPU卸载
查看>>
《交互式程序设计 第2版》一3.10 更进一步
查看>>
英伟达发布Tesla P4&P40两款基于Pascal架构的深度学习芯片
查看>>
《ANSYS Workbench有限元分析实例详解(静力学)》——2.5 Windows界面相应操作
查看>>
《代码整洁之道:程序员的职业素养》一一1.3 首先,不行损害之事
查看>>
intellij 创建java web项目(maven管理的SSH)
查看>>
UML介绍--用例图
查看>>
阿里云DTS VS MySQLdump
查看>>
为android封装的百度定位组件
查看>>
我的友情链接
查看>>
Linux系统新手学习的11点建议
查看>>
Android SDK:构建一个购物中心搜索的应用(二)-Points of Interest
查看>>
查询oracle数据库编码
查看>>
分发系统-expect-批量同步文件、批量执行命令
查看>>