Redis教程FG027-Redis Cluster故障转移实战

本文档风哥主要介绍Redis Cluster故障转移实战，包括故障转移概念、故障转移原理、故障转移过程、故障转移规划、高可用性要求、网络要求、故障转移配置、故障转移操作、故障转移监控、故障转移故障排查以及实战案例等内容，风哥教程参考Redis官方文档Cluster等内容编写，适合DBA人员和开发人员在生产环境中使用。

Part01-基础概念与理论知识

1.1 故障转移概念

Redis Cluster故障转移是指当主节点故障时，从节点自动晋升为主节点的过程，确保集群的高可用性。故障转移的核心概念：

主节点：负责处理Slot的读写操作
从节点：主节点的备份，当主节点故障时可以晋升为主节点
故障检测：节点之间通过Gossip协议交换状态信息，检测主节点是否故障
故障转移：当主节点故障时，从节点晋升为主节点的过程
Slot迁移：故障转移后，Slot的所有权转移到新的主节点

1.2 故障转移原理

Redis Cluster故障转移的原理：

故障检测：节点之间通过Gossip协议交换状态信息，当一个主节点超过cluster-node-timeout时间未响应时，被标记为pfail（可能故障）
故障确认：当多个节点都标记主节点为pfail时，主节点被标记为fail（确认故障）
从节点选举：主节点故障后，其从节点会进行选举，选出一个从节点晋升为主节点
新主节点选举：从节点通过Raft协议进行选举，获得大多数投票的从节点晋升为主节点
Slot转移：新主节点接管原主节点的Slot，开始处理客户端请求

1.3 故障转移过程

Redis Cluster故障转移的过程：

故障检测：节点之间通过Gossip协议交换状态信息，检测主节点是否故障
故障确认：当主节点超过cluster-node-timeout时间未响应时，被标记为fail
从节点选举：主节点的从节点开始选举，选出一个从节点晋升为主节点
新主节点晋升：被选中的从节点晋升为主节点
Slot转移：新主节点接管原主节点的Slot
集群状态更新：集群中的其他节点更新状态信息，开始向新主节点发送请求

更多视频教程www.fgedu.net.cn

Part02-生产环境规划与建议

2.1 故障转移规划

生产环境故障转移规划：

从节点数量：每个主节点至少有一个从节点，建议部署多个从节点以提高高可用性
节点分布：从节点应分布在不同的物理机器上，避免单点故障
网络规划：确保节点之间的网络连接稳定
故障转移时间：合理设置cluster-node-timeout参数，平衡故障检测速度和误判概率
监控配置：配置监控系统，及时发现故障转移事件

2.2 高可用性要求

高可用性要求：

从节点数量：每个主节点至少有一个从节点
节点分布：从节点应分布在不同的物理机器、机房或可用区
网络连接：节点之间的网络连接稳定，延迟低
硬件配置：从节点的硬件配置应与主节点相当，确保能够承担主节点的负载
监控系统：配置完善的监控系统，及时发现和处理故障

2.3 网络要求

# 网络要求

## 1. 网络延迟
– 节点之间的网络延迟应尽可能低，建议不超过10ms
– 网络延迟过高会影响故障检测的速度和准确性

## 2. 网络带宽
– 节点之间需要足够的网络带宽，特别是在数据同步和故障转移时
– 建议使用千兆或万兆网络

## 3. 网络稳定性
– 确保节点之间的网络连接稳定，避免频繁中断
– 网络中断会导致故障转移失败或集群分裂

## 4. 网络安全
– 配置防火墙规则，只允许节点之间的通信
– 考虑使用专线或VPN连接

学习交流加群风哥QQ113257174

Part03-生产环境项目实施方案

3.1 故障转移配置

# 故障转移配置

## 1. 配置文件参数
$ vi /redis/cluster/7000/redis.conf

# 故障转移相关配置
cluster-node-timeout 15000 # 节点超时时间，单位毫秒
cluster-slave-validity-factor 10 # 从节点有效性因子
cluster-migration-barrier 1 # 主节点需要的最小从节点数
cluster-require-full-coverage yes # 是否要求所有Slot都被覆盖

## 2. 验证配置
$ /redis/app/bin/redis-cli -h 192.168.1.100 -p 7000 -a fgedu@2026 config get cluster-node-timeout
$ /redis/app/bin/redis-cli -h 192.168.1.100 -p 7000 -a fgedu@2026 config get cluster-slave-validity-factor
$ /redis/app/bin/redis-cli -h 192.168.1.100 -p 7000 -a fgedu@2026 config get cluster-migration-barrier
$ /redis/app/bin/redis-cli -h 192.168.1.100 -p 7000 -a fgedu@2026 config get cluster-require-full-coverage

# 输出示例
1) “cluster-node-timeout”
2) “15000”
1) “cluster-slave-validity-factor”
2) “10”
1) “cluster-migration-barrier”
2) “1”
1) “cluster-require-full-coverage”
2) “yes”

3.2 故障转移操作

# 故障转移操作

## 1. 手动故障转移
$ /redis/app/bin/redis-cli -h -p -a cluster failover

## 2. 强制故障转移（不等待主节点超时）
$ /redis/app/bin/redis-cli -h -p -a cluster failover force

## 3. 带超时的故障转移
$ /redis/app/bin/redis-cli -h -p -a cluster failover takeover

## 4. 查看故障转移状态
$ /redis/app/bin/redis-cli -h -p -a cluster info

## 5. 查看节点状态
$ /redis/app/bin/redis-cli -h -p -a cluster nodes

3.3 故障转移监控

# 故障转移监控

## 1. 监控集群状态
$ /redis/app/bin/redis-cli -h -p -a cluster info

## 2. 监控节点状态
$ /redis/app/bin/redis-cli -h -p -a cluster nodes

## 3. 监控故障转移事件
$ /redis/app/bin/redis-cli -h -p -a monitor | grep failover

## 4. 查看日志
$ tail -f /redis/cluster//redis.log

## 5. 使用监控工具
# 可以使用Prometheus + Grafana监控Redis Cluster
# 可以使用Redis自带的监控命令
$ /redis/app/bin/redis-cli -h -p -a info replication

3.4 故障转移故障排查

# 故障转移故障排查

## 1. 检查网络连接
$ ping
$ telnet

## 2. 检查节点状态
$ /redis/app/bin/redis-cli -h -p -a ping
$ /redis/app/bin/redis-cli -h -p -a info server

## 3. 检查集群状态
$ /redis/app/bin/redis-cli -h -p -a cluster info

## 4. 检查从节点状态
$ /redis/app/bin/redis-cli -h -p -a info replication

## 5. 查看日志
$ tail -f /redis/cluster//redis.log

## 6. 常见故障及解决
– 网络连接问题：检查网络配置和防火墙规则
– 节点状态异常：检查节点日志，重启节点
– 故障转移失败：检查从节点状态和网络连接
– 集群状态异常：使用redis-cli –cluster fix命令修复集群

风哥提示：Redis接口限流是保护系统的重要机制，合理的限流策略可以防止系统过载，确保系统的稳定性和可用性。在实际应用中，需要根据具体业务场景和数据特点，选择合适的限流算法和策略。

Part04-生产案例与实战讲解

4.1 自动故障转移

# 自动故障转移

## 1. 环境准备
# 集群配置：
# 节点1：192.168.1.100:7000（主节点）
# 节点2：192.168.1.101:7000（主节点）
# 节点3：192.168.1.102:7000（主节点）
# 节点4：192.168.1.100:7001（从节点，节点1的从节点）
# 节点5：192.168.1.101:7001（从节点，节点2的从节点）
# 节点6：192.168.1.102:7001（从节点，节点3的从节点）

## 2. 查看初始集群状态
$ /redis/app/bin/redis-cli -h 192.168.1.100 -p 7000 -a fgedu@2026 cluster info
$ /redis/app/bin/redis-cli -h 192.168.1.100 -p 7000 -a fgedu@2026 cluster nodes

## 3. 模拟主节点故障
$ pkill -f “redis-server.*7000” # 停止节点1

## 4. 监控故障转移
$ watch -n 1 ‘/redis/app/bin/redis-cli -h 192.168.1.101 -p 7000 -a fgedu@2026 cluster nodes’

## 5. 查看故障转移结果
$ /redis/app/bin/redis-cli -h 192.168.1.101 -p 7000 -a fgedu@2026 cluster info
$ /redis/app/bin/redis-cli -h 192.168.1.101 -p 7000 -a fgedu@2026 cluster nodes

## 6. 测试集群功能
$ /redis/app/bin/redis-cli -h 192.168.1.101 -p 7000 -a fgedu@2026 set test:auto-failover “auto-failover success”
$ /redis/app/bin/redis-cli -h 192.168.1.101 -p 7000 -a fgedu@2026 get test:auto-failover

# 输出示例
OK
“auto-failover success”

## 7. 恢复故障节点
$ /redis/app/bin/redis-server /redis/cluster/7000/redis.conf # 启动节点1

## 8. 查看节点状态
$ /redis/app/bin/redis-cli -h 192.168.1.101 -p 7000 -a fgedu@2026 cluster nodes

4.2 手动故障转移

# 手动故障转移

## 2. 查看初始集群状态
$ /redis/app/bin/redis-cli -h 192.168.1.100 -p 7000 -a fgedu@2026 cluster info
$ /redis/app/bin/redis-cli -h 192.168.1.100 -p 7000 -a fgedu@2026 cluster nodes

## 3. 执行手动故障转移
$ /redis/app/bin/redis-cli -h 192.168.1.100 -p 7001 -a fgedu@2026 cluster failover

## 4. 查看故障转移结果
$ /redis/app/bin/redis-cli -h 192.168.1.100 -p 7000 -a fgedu@2026 cluster info
$ /redis/app/bin/redis-cli -h 192.168.1.100 -p 7000 -a fgedu@2026 cluster nodes

## 5. 测试集群功能
$ /redis/app/bin/redis-cli -h 192.168.1.100 -p 7001 -a fgedu@2026 set test:manual-failover “manual-failover success”
$ /redis/app/bin/redis-cli -h 192.168.1.100 -p 7001 -a fgedu@2026 get test:manual-failover

# 输出示例
OK
“manual-failover success”

## 6. 恢复原主节点
$ /redis/app/bin/redis-cli -h 192.168.1.100 -p 7000 -a fgedu@2026 cluster failover

## 7. 查看节点状态
$ /redis/app/bin/redis-cli -h 192.168.1.100 -p 7000 -a fgedu@2026 cluster nodes

4.3 故障转移测试

# 故障转移测试

## 2. 性能测试
# 故障转移前
$ /redis/app/bin/redis-benchmark -h 192.168.1.100 -p 7000 -a fgedu@2026 -c 100 -n 100000 set test:key

## 3. 可用性测试
# 在故障转移过程中，持续向集群发送请求
$ while true; do /redis/app/bin/redis-cli -h 192.168.1.100 -p 7000 -a fgedu@2026 set test:availability “available” && echo “Success” || echo “Failed”; sleep 0.1; done

## 4. 模拟主节点故障
$ pkill -f “redis-server.*7000” # 停止节点1

## 5. 监控故障转移
$ watch -n 1 ‘/redis/app/bin/redis-cli -h 192.168.1.101 -p 7000 -a fgedu@2026 cluster nodes’

## 6. 测试故障转移后的集群功能
$ /redis/app/bin/redis-cli -h 192.168.1.101 -p 7000 -a fgedu@2026 set test:failover-test “failover-test success”
$ /redis/app/bin/redis-cli -h 192.168.1.101 -p 7000 -a fgedu@2026 get test:failover-test

# 输出示例
OK
“failover-test success”

## 7. 性能测试
# 故障转移后
$ /redis/app/bin/redis-benchmark -h 192.168.1.101 -p 7000 -a fgedu@2026 -c 100 -n 100000 set test:key

## 8. 恢复故障节点
$ /redis/app/bin/redis-server /redis/cluster/7000/redis.conf # 启动节点1

## 9. 验证集群状态
$ /redis/app/bin/redis-cli -h 192.168.1.101 -p 7000 -a fgedu@2026 cluster info
$ /redis/app/bin/redis-cli -h 192.168.1.101 -p 7000 -a fgedu@2026 cluster nodes

4.4 故障转移恢复

# 故障转移恢复

## 2. 模拟主节点故障并触发故障转移
$ pkill -f “redis-server.*7000” # 停止节点1
$ /redis/app/bin/redis-cli -h 192.168.1.101 -p 7000 -a fgedu@2026 cluster info

## 3. 恢复故障节点
$ /redis/app/bin/redis-server /redis/cluster/7000/redis.conf # 启动节点1

## 4. 查看节点状态
$ /redis/app/bin/redis-cli -h 192.168.1.101 -p 7000 -a fgedu@2026 cluster nodes

## 5. 手动故障转移恢复原主节点
$ /redis/app/bin/redis-cli -h 192.168.1.100 -p 7000 -a fgedu@2026 cluster failover

## 6. 查看恢复结果
$ /redis/app/bin/redis-cli -h 192.168.1.100 -p 7000 -a fgedu@2026 cluster info
$ /redis/app/bin/redis-cli -h 192.168.1.100 -p 7000 -a fgedu@2026 cluster nodes

## 7. 测试集群功能
$ /redis/app/bin/redis-cli -h 192.168.1.100 -p 7000 -a fgedu@2026 set test:recovery “recovery success”
$ /redis/app/bin/redis-cli -h 192.168.1.100 -p 7000 -a fgedu@2026 get test:recovery

# 输出示例
OK
“recovery success”

更多学习教程公众号风哥教程itpux_com

Part05-风哥经验总结与分享

5.1 最佳实践

Redis Cluster故障转移实战最佳实践：

从节点配置：每个主节点至少配置一个从节点，建议部署多个从节点以提高高可用性，学习交流加群风哥微信: itpux-com
节点分布：从节点应分布在不同的物理机器、机房或可用区，避免单点故障
网络配置：确保节点之间的网络连接稳定，延迟低
参数优化：合理设置cluster-node-timeout等参数，平衡故障检测速度和误判概率
监控配置：配置完善的监控系统，及时发现和处理故障转移事件
故障转移测试：定期测试故障转移功能，确保其可靠性
客户端配置：客户端应使用集群模式连接，自动处理节点故障
文档记录：详细记录故障转移过程，便于后续分析和排查

5.2 常见问题

常见问题及解决：

故障转移失败：检查从节点状态和网络连接
集群状态异常：使用redis-cli –cluster fix命令修复集群
从节点无法晋升：检查从节点的复制状态和网络连接
故障检测延迟：调整cluster-node-timeout参数
数据不一致：检查主从复制状态，确保数据同步
性能下降：检查新主节点的硬件配置和负载情况

5.3 优化技巧

风哥提示：Redis Cluster故障转移是确保集群高可用性的关键机制。在实际应用中，需要合理配置和监控集群，确保故障转移能够及时、可靠地执行。

# 优化技巧

## 1. 故障转移配置优化
– 合理设置cluster-node-timeout，平衡故障检测速度和误判概率
– 合理设置cluster-slave-validity-factor，确保从节点的有效性
– 合理设置cluster-migration-barrier，确保主节点有足够的从节点
– 关闭cluster-require-full-coverage，在部分Slot不可用时仍能提供服务

## 2. 网络优化
– 确保节点之间的网络延迟低
– 确保网络带宽足够，特别是在数据同步和故障转移时
– 配置防火墙规则，只允许节点之间的通信
– 考虑使用专线或VPN连接

## 3. 性能优化
– 优化硬件配置，提高从节点的性能
– 使用SSD存储，提高数据同步速度
– 合理设置maxmemory和maxmemory-policy，优化内存使用
– 监控系统资源使用情况，避免资源不足

## 4. 监控优化
– 监控集群状态，及时发现故障转移事件
– 监控从节点的复制状态，确保数据同步
– 设置合理的告警机制，当集群状态发生变化时及时通知
– 定期检查集群日志，找出潜在问题

## 5. 操作优化
– 定期测试故障转移功能，确保其可靠性
– 建立故障转移操作规范，确保操作的一致性和可重复性
– 详细记录故障转移过程，便于后续分析和排查
– 准备故障转移失败的回滚方案，确保在出现问题时能够快速恢复

通过本文档的学习，您应该掌握了Redis Cluster故障转移实战，能够在生产环境中合理配置和监控集群，确保故障转移能够及时、可靠地执行。在实际应用中，需要根据具体业务场景和集群状态，选择合适的故障转移策略，确保集群的高可用性。