DB2教程FG097-DB2集群运维实战

风哥教程参考DB2官方文档Cluster、PureScale等内容，详细介绍集群运维、集群管理、集群监控等。更多视频教程www.fgedu.net.cn

目录大纲

Part01-集群运维概述
Part02-集群监控
Part03-集群维护
Part04-集群故障处理
Part05-风哥经验总结与分享

Part01-集群运维概述

1.1 集群架构

DB2集群架构类型：

PureScale：多节点共享存储架构
HADR：主备复制架构
DPF：数据库分区特性

1.2 运维内容

集群状态监控
集群性能优化
集群故障处理
集群扩缩容
集群升级维护

Part02-集群监控

2.1 集群状态监控

# 查看PureScale集群状态
db2pd -db FGEDB -purescale

# 查看成员状态
db2pd -db FGEDB -members

# 查看CF状态
db2pd -db FGEDB -cf

# 查看集群拓扑
db2pd -db FGEDB -topology

# 查看HADR状态
db2pd -db FGEDB -hadr

# 查看集群资源
db2pd -db FGEDB -cluster

# 集群监控脚本
#!/bin/bash
# cluster_monitor.sh

DBNAME=FGEDB
LOG_FILE=/db2/logs/cluster_monitor_$(date +%Y%m%d).log

echo “=== Cluster Monitor ===” > $LOG_FILE
echo “Time: $(date)” >> $LOG_FILE

# 1. 检查成员状态
echo “1. Member Status:” >> $LOG_FILE
db2pd -db $DBNAME -members >> $LOG_FILE

# 2. 检查CF状态
echo “2. CF Status:” >> $LOG_FILE
db2pd -db $DBNAME -cf >> $LOG_FILE

# 3. 检查集群拓扑
echo “3. Cluster Topology:” >> $LOG_FILE
db2pd -db $DBNAME -topology >> $LOG_FILE

# 4. 检查HADR状态
echo “4. HADR Status:” >> $LOG_FILE
db2pd -db $DBNAME -hadr >> $LOG_FILE

# 5. 检查连接数
echo “5. Connection Count:” >> $LOG_FILE
db2 connect to $DBNAME
db2 “SELECT COUNT(*) FROM sysibmadm.applications” >> $LOG_FILE
db2 connect reset

echo “=== Monitor Complete ===” >> $LOG_FILE

2.2 性能监控

# 监控集群性能
db2pd -db FGEDB -purescale -perf

# 监控缓冲池
db2pd -db FGEDB -bufferpools

# 监控锁
db2pd -db FGEDB -locks

# 监控事务
db2pd -db FGEDB -transactions

# 监控日志
db2pd -db FGEDB -logs

# 性能监控脚本
#!/bin/bash
# cluster_perf_monitor.sh

DBNAME=FGEDB

echo “=== Cluster Performance Monitor ===”
echo “Time: $(date)”

# 1. 缓冲池命中率
echo “1. Bufferpool Hit Ratio:”
db2pd -db $DBNAME -bufferpools | grep -A 5 “BP_NAME”

# 2. 锁等待
echo “2. Lock Waits:”
db2pd -db $DBNAME -locks wait

# 3. 活跃事务
echo “3. Active Transactions:”
db2pd -db $DBNAME -transactions | grep -A 10 “APPHDL”

# 4. 日志使用
echo “4. Log Usage:”
db2pd -db $DBNAME -logs | grep -A 5 “LOG”

# 5. 网络延迟
echo “5. Network Latency:”
ping -c 3 db2-member2

echo “=== Performance Monitor Complete ===”

Part03-集群维护

3.1 集群扩容

# 添加新成员
db2iupdt -add -m db2-member3 db2inst1

# 添加CF
db2iupdt -add -cf db2-cf2 db2inst1

# 查看扩容状态
db2pd -db FGEDB -members

# 集群扩容脚本
#!/bin/bash
# cluster_expand.sh

NEW_MEMBER=$1

if [ -z “$NEW_MEMBER” ]; then
echo “Usage: $0 ”
exit 1
fi

echo “Adding new member: $NEW_MEMBER”

# 1. 检查新成员连通性
echo “1. Checking connectivity…”
ping -c 3 $NEW_MEMBER

# 2. 添加成员
echo “2. Adding member…”
db2iupdt -add -m $NEW_MEMBER db2inst1

# 3. 验证成员状态
echo “3. Verifying member status…”
db2pd -db FGEDB -members

# 4. 更新负载均衡
echo “4. Updating workload balance…”
db2 connect to FGEDB
db2 “ALTER WORKLOAD BALANCE UPDATE”
db2 connect reset

echo “Member added successfully”

3.2 集群缩容

# 移除成员
db2iupdt -drop -m db2-member3 db2inst1

# 移除CF
db2iupdt -drop -cf db2-cf2 db2inst1

# 查看缩容状态
db2pd -db FGEDB -members

# 集群缩容脚本
#!/bin/bash
# cluster_shrink.sh

MEMBER=$1

if [ -z “$MEMBER” ]; then
echo “Usage: $0 ”
exit 1
fi

echo “Removing member: $MEMBER”

# 1. 检查成员状态
echo “1. Checking member status…”
db2pd -db FGEDB -members | grep $MEMBER

# 2. 停止成员
echo “2. Stopping member…”
db2pd -db FGEDB -member $MEMBER -stop

# 3. 移除成员
echo “3. Removing member…”
db2iupdt -drop -m $MEMBER db2inst1

# 4. 验证移除结果
echo “4. Verifying removal…”
db2pd -db FGEDB -members

echo “Member removed successfully”

Part04-集群故障处理

4.1 成员故障处理

# 检查成员故障
db2pd -db FGEDB -members

# 重启故障成员
db2pd -db FGEDB -member -restart

# 重建成员
db2iupdt -drop -m db2-member3 db2inst1
db2iupdt -add -m db2-member3 db2inst1

# 成员故障处理脚本
#!/bin/bash
# member_failure_handling.sh

MEMBER=$1

if [ -z “$MEMBER” ]; then
echo “Usage: $0 ”
exit 1
fi

echo “Handling member failure: $MEMBER”

# 1. 检查成员状态
echo “1. Checking member status…”
MEMBER_STATUS=$(db2pd -db FGEDB -members | grep $MEMBER | awk ‘{print $3}’)

if [ “$MEMBER_STATUS” = “ACTIVE” ]; then
echo “Member is active, no action needed”
exit 0
fi

# 2. 尝试重启成员
echo “2. Restarting member…”
db2pd -db FGEDB -member $MEMBER -restart

sleep 60

# 3. 检查重启结果
echo “3. Checking restart result…”
MEMBER_STATUS=$(db2pd -db FGEDB -members | grep $MEMBER | awk ‘{print $3}’)

if [ “$MEMBER_STATUS” = “ACTIVE” ]; then
echo “Member restarted successfully”
else
echo “Member restart failed, manual intervention required”
fi

4.2 CF故障处理

# 检查CF故障
db2pd -db FGEDB -cf

# 重启CF
db2pd -db FGEDB -cf -restart

# 切换CF
db2pd -db FGEDB -cf -takeover

# CF故障处理脚本
#!/bin/bash
# cf_failure_handling.sh

echo “Handling CF failure…”

# 1. 检查CF状态
echo “1. Checking CF status…”
CF_STATUS=$(db2pd -db FGEDB -cf | grep “CF_STATE” | awk ‘{print $3}’)

if [ “$CF_STATUS” = “ACTIVE” ]; then
echo “CF is active, no action needed”
exit 0
fi

# 2. 尝试重启CF
echo “2. Restarting CF…”
db2pd -db FGEDB -cf -restart

sleep 60

# 3. 检查重启结果
echo “3. Checking restart result…”
CF_STATUS=$(db2pd -db FGEDB -cf | grep “CF_STATE” | awk ‘{print $3}’)

if [ “$CF_STATUS” = “ACTIVE” ]; then
echo “CF restarted successfully”
else
echo “CF restart failed, attempting takeover…”
db2pd -db FGEDB -cf -takeover
fi

Part05-风哥经验总结与分享

5.1 集群运维要点

定期监控集群状态
定期检查集群性能
制定故障处理预案
定期演练故障切换
建立运维知识库
持续优化集群配置

5.2 运维建议

运维项目	频率	责任人
集群状态检查	每天	运维人员
性能监控	实时	监控系统
故障演练	每季度	运维团队

5.3 运维要点

建立完善的监控体系
制定详细的运维流程
定期进行故障演练
建立运维知识库
持续优化集群配置
培训运维人员

更多视频教程www.fgedu.net.cn
学习交流加群风哥微信: itpux-com
风哥Oracle/MySQL/PostgreSQL/Greenplum/DB2/Redis等数据库培训课程，10年一线实战经验，企业级培训，真正掌握数据库核心技术！

本文由风哥教程整理发布,仅用于学习测试使用,转载注明出处:http://www.fgedu.net.cn/10327.html