likes
comments
collection
share

Redis 集群模式下一个 Master 挂掉后如何选举?

作者站长头像
站长
· 阅读数 19

Redis 集群模式

Redis 集群是一个由多个主从节点群组成的分布式服务器群,它具有复制、高可用和分片特性。Redis 集群不需要 Sentinel 哨兵。也能完成节点移除和故障转移的功能。需要将每个节点设置成集群模式,这种集群模式没有中心节点,可水平扩展,据官方文档称可以线性扩展到上万个节点(官方推荐不超过1000个 master 节点)。Redis 集群的性能和高可用性均优于哨兵模式,且集群配置非常简单。

Redis 集群模式下一个 Master 挂掉后如何选举?

集群特点

  • 所有的 redis 节点彼此互联(PING-PONG机制),内部使用二进制协议优化传输速度和带宽。
  • 节点的 fail 是通过集群中超过半数的节点检测失效时才生效。
  • 客户端与 Redis 节点直连,不需要中间代理层.客户端不需要连接集群所有节点,连接集群中任何一个可用节点即可。

一个 Master 节点挂掉后的选举过程

当 slave 发现自己的 master 变为 FAIL 状态时,便尝试进行 Failover,以期成为新的 master。由于挂掉的 master 可能会有多个 slave,从而存在多个 slave 竞争成为 master 节点的过程, 其过程如下:

  1. slave 发现自己的 master 变为 FAIL。
  2. 将自己记录的集群 currentEpoch 加 1,并广播 FAILOVER_AUTH_REQUEST 信息
  3. 其他节点收到该信息,只有 master 响应,判断请求者的合法性,并发送 FAILOVER_AUTH_ACK,对每一个 epoch 只发送一次ack
  4. 尝试 failover 的 slave 收集 master 返回的 FAILOVER_AUTH_ACK
  5. slave 收到超过半数(N/2+1) master 的 ack 后变成新 Master(这里解释了集群为什么至少需要三个主节点,如果只有两个,当其中一个挂了,只剩一个主节点是不能选举成功的)。
  6. slave 广播 Pong 消息通知其他集群节点。

从节点并不是在主节点一进入 FAIL 状态就马上尝试发起选举,而是有一定延迟,一定的延迟确保我们等待 FAIL 状态在集群中传播,slave 如果立即尝试选举,其它 masters 或许尚未意识到 FAIL 状态,可能会拒绝投票

延迟计算公式:

DELAY = 500ms + random(0 ~ 500ms) + SLAVE_RANK * 1000ms

SLAVE_RANK 表示此 slave 已经从 master 复制数据的总量的 rank 。Rank 越小代表已复制的数据越新。这种方式下,持有最新数据的slave将会首先发起选举(理论上)。

总结:

哪些节点可以转换为 master?当前 maseter 节点的 slave 节点。 哪些节点可以投票,其他有效的 master 节点。