OceanBase教程FG177-OceanBase容灾切换自动化

#!/bin/bash
# check_cluster.sh
# from:www.itpux.com.qq113257174.wx:itpux-com
# web: `http://www.fgedu.net.cn`

# 检查主集群状态
check_master_cluster() {
    obclient -h192.168.1.1 -P2881 -ufgedu -pfgedu123 -Doceanbase -e "SELECT * FROM oceanbase.DBA_OB_CLUSTERS;" > /dev/null 2>&1
    return $?
}

# 检查备用集群状态
check_standby_cluster() {
    obclient -h192.168.2.1 -P2881 -ufgedu -pfgedu123 -Doceanbase -e "SELECT * FROM oceanbase.DBA_OB_CLUSTERS;" > /dev/null 2>&1
    return $?
}

# 执行检查
check_master_cluster
MASTER_STATUS=$?

check_standby_cluster，学习交流加群风哥微信: itpux-com。
STANDBY_STATUS=$?

# 输出状态
echo "Master cluster status: $MASTER_STATUS"
echo "Standby cluster status: $STANDBY_STATUS"

Master cluster status: 0
Standby cluster status: 0

# 2. 切换决策实现

#!/bin/bash
# switch_decision.sh
# from:www.itpux.com.qq113257174.wx:itpux-com
# web: `http://www.fgedu.net.cn`

# 检查主集群状态
check_master_cluster() {
    obclient -h192.168.1.1 -P2881 -ufgedu -pfgedu123 -Doceanbase -e "SELECT * FROM oceanbase.DBA_OB_CLUSTERS;" > /dev/null 2>&1
    return $?
}

# 检查备用集群状态
check_standby_cluster() {
    obclient -h192.168.2.1 -P2881 -ufgedu -pfgedu123 -Doceanbase -e "SELECT * FROM oceanbase.DBA_OB_CLUSTERS;" > /dev/null 2>&1
    return $?
}

# 执行检查
check_master_cluster
MASTER_STATUS=$?

check_standby_cluster
STANDBY_STATUS=$?

# 切换决策，学习交流加群风哥QQ113257174。
if [ $MASTER_STATUS -ne 0 ] && [ $STANDBY_STATUS -eq 0 ]; then
    echo "Master cluster is down, standby cluster is up. Need to switch."
    # 执行切换
    /ob/app/scripts/switch_to_standby.sh
elif [ $MASTER_STATUS -eq 0 ] && [ $STANDBY_STATUS -ne 0 ]; then
    echo "Master cluster is up, standby cluster is down. No need to switch."
elif [ $MASTER_STATUS -ne 0 ] && [ $STANDBY_STATUS -ne 0 ]; then
    echo "Both clusters are down. Need manual intervention."
else
    echo "Both clusters are up. No need to switch."
fi

Both clusters are up. No need to switch.

3.2 容灾切换自动化脚本

容灾切换自动化脚本的实现：

# 1. 切换到备用集群脚本

#!/bin/bash
# switch_to_standby.sh
# from:www.itpux.com.qq113257174.wx:itpux-com
# web: `http://www.fgedu.net.cn`

echo "开始切换到备用集群：$(date)"

# 1. 验证备用集群状态
obclient -h192.168.2.1 -P2881 -ufgedu -pfgedu123 -Doceanbase -e "SELECT * FROM oceanbase.DBA_OB_CLUSTERS;"

# 2. 更新应用配置，指向备用集群
sed -i 's/192.168.1.1/192.168.2.1/g' /ob/app/config/application.yml

# 3. 重启应用服务
systemctl restart app.service

# 4. 验证应用状态，更多视频教程www.fgedu.net.cn。
systemctl status app.service

# 5. 验证业务功能
curl -s http://192.168.2.100:8080/health

echo "切换到备用集群完成：$(date)"

{
“status”: “UP”,
“timestamp”: “2026-04-09T10:01:30Z”
}
切换到备用集群完成：2026-04-09 10:02:00

# 2. 回切到主集群脚本

#!/bin/bash
# switch_back_to_master.sh
# from:www.itpux.com.qq113257174.wx:itpux-com
# web: `http://www.fgedu.net.cn`，更多学习教程公众号风哥教程itpux_com。

echo "开始回切到主集群：$(date)"

# 1. 验证主集群状态
obclient -h192.168.1.1 -P2881 -ufgedu -pfgedu123 -Doceanbase -e "SELECT * FROM oceanbase.DBA_OB_CLUSTERS;"

# 2. 验证数据一致性
obclient -h192.168.1.1 -P2881 -ufgedu -pfgedu123 -Dfgedudb -e "SELECT COUNT(*) FROM fgedu_order;"
obclient -h192.168.2.1 -P2881 -ufgedu -pfgedu123 -Dfgedudb -e "SELECT COUNT(*) FROM fgedu_order;"

# 3. 更新应用配置，指向主集群
sed -i 's/192.168.2.1/192.168.1.1/g' /ob/app/config/application.yml

# 4. 重启应用服务
systemctl restart app.service

# 5. 验证应用状态
systemctl status app.service

# 6. 验证业务功能
curl -s http://192.168.1.100:8080/health

echo "回切到主集群完成：$(date)"

{
“status”: “UP”,
“timestamp”: “2026-04-09T11:01:30Z”
}
回切到主集群完成：2026-04-09 11:02:00

3.3 容灾切换自动化测试

容灾切换自动化测试的方法：

# 1. 容灾切换测试脚本

#!/bin/bash
# dr_test.sh
# from:www.itpux.com.qq113257174.wx:itpux-com
# web: `http://www.fgedu.net.cn`

echo "开始容灾切换测试：$(date)"

# 1. 记录测试开始时间
START_TIME=$(date +%s)

# 2. 模拟主集群故障
echo "模拟主集群故障..."
ip link set eth0 down

# 3. 等待故障检测
sleep 10

# 4. 检查是否自动切换
echo "检查是否自动切换..."
curl -s http://192.168.2.100:8080/health

# 5. 恢复主集群
echo "恢复主集群..."
ip link set eth0 up

# 6. 等待主集群恢复
sleep 30

# 7. 回切到主集群
echo "回切到主集群..."
/ob/app/scripts/switch_back_to_master.sh

# 8. 记录测试结束时间
END_TIME=$(date +%s)

# 9. 计算切换时间
SWITCH_TIME=$((END_TIME - START_TIME))
echo "容灾切换测试完成，切换时间：${SWITCH_TIME}秒"

开始容灾切换测试：2026-04-09 14:00:00
模拟主集群故障…
检查是否自动切换…
{
“status”: “UP”,
“timestamp”: “2026-04-09T14:00:20Z”
}
恢复主集群…
回切到主集群…
开始回切到主集群：2026-04-09 14:01:00
+——————-+—————————-+—————————-+——————-+—————–+———-+——————-+—————+——————+—————+
| CLUSTER_NAME | CREATE_TIME | MODIFY_TIME | STATUS | TENANT_MODE | PRIMARY_ZONE | ZONE_LIST | SERVER_LIST | READONLY_ZONE_LIST | LOG_LEVEL |
+——————-+—————————-+—————————-+——————-+—————–+———-+——————-+—————+——————+—————+
| obcluster | 2026-04-01 10:00:00.000000 | 2026-04-09 14:00:30.000000 | NORMAL | COMPATIBLE | zone1 | zone1,zone2,zone3 | 192.168.1.1:2881,192.168.1.2:2881,192.168.1.3:2881 | NULL | INFO |
+——————-+—————————-+—————————-+——————-+—————–+———-+——————-+—————+——————+—————+
+———-+
| COUNT(*) |
+———-+
| 1000 |
+———-+
+———-+
| 1000 |
+———-+
● app.service – Application Service
Loaded: loaded (/etc/systemd/system/app.service; enabled; vendor preset: enabled)
Active: active (running) since Wed 2026-04-09 14:01:30 CST; 10s ago
Main PID: 24680 (java)
Tasks: 50
Memory: 512.0M
CPU: 10.0%
CGroup: /system.slice/app.service
└─24680 /usr/bin/java -jar /ob/app/app.jar

{
“status”: “UP”,
“timestamp”: “2026-04-09T14:01:40Z”
}
回切到主集群完成：2026-04-09 14:02:00
容灾切换测试完成，切换时间：120秒

Part04-生产案例与实战讲解

4.1 容灾切换自动化实战

容灾切换自动化的实战案例：

场景描述

某电商系统的OceanBase数据库部署了同城双中心容灾架构，需要实现容灾切换自动化。

实施步骤

部署容灾架构
实现故障检测
实现自动切换
测试容灾切换

# 1. 部署容灾架构

# 主集群部署在192.168.1.0/24网段
# 备用集群部署在192.168.2.0/24网段

# 主集群配置
obclient -h192.168.1.1 -P2881 -ufgedu -pfgedu123 -Doceanbase -e "ALTER SYSTEM SET zone_list = 'zone1,zone2,zone3';"

# 备用集群配置
obclient -h192.168.2.1 -P2881 -ufgedu -pfgedu123 -Doceanbase -e "ALTER SYSTEM SET zone_list = 'zone1,zone2,zone3';"

Query OK, 0 rows affected (0.05 sec)
Query OK, 0 rows affected (0.05 sec)

# 2. 实现故障检测

# 创建故障检测脚本
cat > /ob/app/scripts/check_cluster.sh << 'EOF'
#!/bin/bash
# check_cluster.sh
# from:www.itpux.com.qq113257174.wx:itpux-com
# web: `http://www.fgedu.net.cn`

# 检查主集群状态
check_master_cluster() {
    obclient -h192.168.1.1 -P2881 -ufgedu -pfgedu123 -Doceanbase -e "SELECT * FROM oceanbase.DBA_OB_CLUSTERS;" > /dev/null 2>&1
    return $?
}

# 检查备用集群状态
check_standby_cluster() {
    obclient -h192.168.2.1 -P2881 -ufgedu -pfgedu123 -Doceanbase -e "SELECT * FROM oceanbase.DBA_OB_CLUSTERS;" > /dev/null 2>&1
    return $?
}

# 执行检查
check_master_cluster
MASTER_STATUS=$?

check_standby_cluster
STANDBY_STATUS=$?

# 输出状态
echo "Master cluster status: $MASTER_STATUS"
echo "Standby cluster status: $STANDBY_STATUS"

# 切换决策
if [ $MASTER_STATUS -ne 0 ] && [ $STANDBY_STATUS -eq 0 ]; then
    echo "Master cluster is down, standby cluster is up. Need to switch."
    # 执行切换
    /ob/app/scripts/switch_to_standby.sh
elif [ $MASTER_STATUS -eq 0 ] && [ $STANDBY_STATUS -ne 0 ]; then
    echo "Master cluster is up, standby cluster is down. No need to switch."
elif [ $MASTER_STATUS -ne 0 ] && [ $STANDBY_STATUS -ne 0 ]; then
    echo "Both clusters are down. Need manual intervention."
else
    echo "Both clusters are up. No need to switch."
fi
EOF

chmod +x /ob/app/scripts/check_cluster.sh

# 3. 实现自动切换

# 创建切换到备用集群脚本
cat > /ob/app/scripts/switch_to_standby.sh << 'EOF'
#!/bin/bash
# switch_to_standby.sh
# from:www.itpux.com.qq113257174.wx:itpux-com
# web: `http://www.fgedu.net.cn`

echo "开始切换到备用集群：$(date)"

# 1. 验证备用集群状态
obclient -h192.168.2.1 -P2881 -ufgedu -pfgedu123 -Doceanbase -e "SELECT * FROM oceanbase.DBA_OB_CLUSTERS;"

# 2. 更新应用配置，指向备用集群
sed -i 's/192.168.1.1/192.168.2.1/g' /ob/app/config/application.yml

# 3. 重启应用服务
systemctl restart app.service

# 4. 验证应用状态
systemctl status app.service

# 5. 验证业务功能
curl -s http://192.168.2.100:8080/health

echo "切换到备用集群完成：$(date)"
EOF

chmod +x /ob/app/scripts/switch_to_standby.sh

# 4. 测试容灾切换

# 设置定时任务，每5分钟执行一次故障检测
crontab -e

# 添加定时任务
*/5 * * * * /ob/app/scripts/check_cluster.sh >> /ob/app/log/check_cluster.log 2>&1

# 模拟主集群故障
ip link set eth0 down

# 查看切换日志
tail -f /ob/app/log/check_cluster.log

Master cluster status: 0
Standby cluster status: 0
Both clusters are up. No need to switch.

Master cluster status: 1
Standby cluster status: 0
Master cluster is down, standby cluster is up. Need to switch.
开始切换到备用集群：2026-04-09 10:00:00
+-------------------+----------------------------+----------------------------+-------------------+-----------------+----------+-------------------+---------------+------------------+---------------+
| CLUSTER_NAME | CREATE_TIME | MODIFY_TIME | STATUS | TENANT_MODE | PRIMARY_ZONE | ZONE_LIST | SERVER_LIST | READONLY_ZONE_LIST | LOG_LEVEL |
+-------------------+----------------------------+----------------------------+-------------------+-----------------+----------+-------------------+---------------+------------------+---------------+
| obcluster_standby | 2026-04-01 10:00:00.000000 | 2026-04-01 10:00:00.000000 | NORMAL | COMPATIBLE | zone1 | zone1,zone2,zone3 | 192.168.2.1:2881,192.168.2.2:2881,192.168.2.3:2881 | NULL | INFO |
+-------------------+----------------------------+----------------------------+-------------------+-----------------+----------+-------------------+---------------+------------------+---------------+
● app.service - Application Service
Loaded: loaded (/etc/systemd/system/app.service; enabled; vendor preset: enabled)
Active: active (running) since Wed 2026-04-09 10:01:00 CST; 10s ago
Main PID: 12345 (java)
Tasks: 50
Memory: 512.0M
CPU: 10.0%
CGroup: /system.slice/app.service
└─12345 /usr/bin/java -jar /ob/app/app.jar

{
"status": "UP",
"timestamp": "2026-04-09T10:01:30Z"
}
切换到备用集群完成：2026-04-09 10:02:00

4.2 容灾切换自动化测试实战

容灾切换自动化测试的实战案例：

场景描述

某电商系统的OceanBase数据库需要进行容灾切换自动化测试，验证切换流程的可靠性。

实施步骤

准备测试环境
执行切换测试
验证切换结果
总结测试报告

# 1. 准备测试环境

# 检查主备集群状态
obclient -h192.168.1.1 -P2881 -ufgedu -pfgedu123 -Doceanbase -e "SELECT * FROM oceanbase.DBA_OB_CLUSTERS;"
obclient -h192.168.2.1 -P2881 -ufgedu -pfgedu123 -Doceanbase -e "SELECT * FROM oceanbase.DBA_OB_CLUSTERS;"

# 2. 执行切换测试

# 执行容灾切换测试脚本
/ob/app/scripts/dr_test.sh

{
“status”: “UP”,
“timestamp”: “2026-04-09T14:01:40Z”
}
回切到主集群完成：2026-04-09 14:02:00
容灾切换测试完成，切换时间：120秒

# 3. 验证切换结果

# 验证主集群状态
obclient -h192.168.1.1 -P2881 -ufgedu -pfgedu123 -Doceanbase -e "SELECT * FROM oceanbase.DBA_OB_CLUSTERS;"

# 验证应用状态
curl -s http://192.168.1.100:8080/health

# 验证数据一致性
obclient -h192.168.1.1 -P2881 -ufgedu -pfgedu123 -Dfgedudb -e "SELECT COUNT(*) FROM fgedu_order;"

{
“status”: “UP”,
“timestamp”: “2026-04-09T14:02:30Z”
}

+———-+
| COUNT(*) |
+———-+
| 1000 |
+———-+

# 4. 总结测试报告

# 生成测试报告
cat > /ob/app/report/dr_test_report.md << 'EOF'
# 容灾切换自动化测试报告

## 测试时间
2026-04-09 14:00:00

## 测试环境
- 主集群：192.168.1.1:2881
- 备用集群：192.168.2.1:2881
- 应用服务器：192.168.1.100:8080

## 测试步骤
1. 模拟主集群故障
2. 等待自动切换
3. 恢复主集群
4. 回切到主集群

## 测试结果
- 切换时间：120秒
- 应用状态：UP
- 数据一致性：一致（1000条记录）

## 结论
容灾切换自动化测试成功，切换流程正常，业务连续性得到保障。
EOF

Part05-风哥经验总结与分享

5.1 容灾切换自动化最佳实践

OceanBase容灾切换自动化的最佳实践：

合理设计容灾架构：根据业务需求设计合理的容灾架构，如同城双中心或异地多中心
完善监控告警：设置完善的监控和告警机制，及时发现故障
实现自动化切换：编写自动化切换脚本，实现故障自动检测和切换
定期测试演练：定期进行容灾切换测试，确保切换流程的可靠性
建立回切机制：实现主集群恢复后的自动回切
记录详细日志：记录切换过程的详细日志，便于后续分析
培训运维人员：对运维人员进行培训，提高故障处理能力
制定应急预案：制定应急预案，应对各种异常情况

5.2 常见问题与解决方案

容灾切换自动化中常见的问题与解决方案：

# 1. 切换时间过长
- 症状：容灾切换时间过长，影响业务
- 解决方案：优化切换流程，减少切换步骤，提高切换速度

# 2. 数据不一致
- 症状：主备集群数据不一致
- 解决方案：确保主备集群之间的数据同步，定期验证数据一致性

# 3. 切换失败
- 症状：容灾切换失败，业务中断
- 解决方案：检查切换脚本，确保脚本的正确性，定期测试切换流程

# 4. 回切失败
- 症状：主集群恢复后回切失败
- 解决方案：确保主集群完全恢复，验证数据一致性后再回切

# 5. 监控告警误报
- 症状：监控告警误报，导致不必要的切换
- 解决方案：调整监控阈值，减少误报

# 6. 应用配置错误
- 症状：应用配置错误，导致切换后应用无法正常运行
- 解决方案：确保应用配置的正确性，定期验证配置

风哥提示：容灾切换自动化是确保OceanBase数据库高可用性的重要手段，需要合理设计容灾架构，实现自动化切换，并定期进行测试演练

本文由风哥教程整理发布,仅用于学习测试使用,转载注明出处:http://www.fgedu.net.cn/10327.html

OceanBase教程FG177-OceanBase容灾切换自动化

目录大纲

Part01-基础概念与理论知识

1.1 容灾切换基本概念

1.2 容灾架构设计

1.3 容灾切换策略

Part02-生产环境规划与建议

2.1 容灾切换自动化规划

2.2 容灾切换自动化建议

Part03-生产环境项目实施方案

3.1 容灾切换自动化实现

3.2 容灾切换自动化脚本

3.3 容灾切换自动化测试

Part04-生产案例与实战讲解

4.1 容灾切换自动化实战

场景描述

实施步骤

4.2 容灾切换自动化测试实战

场景描述

实施步骤

Part05-风哥经验总结与分享

5.1 容灾切换自动化最佳实践

5.2 常见问题与解决方案

相关推荐

联系我们