GBase教程FG017-GBase日常维护与巡检

本文档详细介绍GBase数据库的日常维护与巡检方法，包括日常维护任务、巡检项目、监控指标、问题处理等内容。风哥教程参考GBase官方文档GBase 8a系统管理员手册、GBase 8s系统管理员指南等。

通过本文档，您将掌握GBase数据库的日常维护与巡检技术，确保数据库的稳定运行。

本文档适用于数据库管理员，帮助您顺利完成GBase数据库的日常维护与巡检工作。

目录大纲

Part01-基础概念与理论知识
Part02-生产环境规划与建议
Part03-生产环境项目实施方案
Part04-生产案例与实战讲解
Part05-风哥经验总结与分享

Part01-基础概念与理论知识

1.1 日常维护概述

日常维护是指定期对数据库系统进行的一系列操作，以确保系统的稳定运行和性能优化。日常维护的主要内容包括：

数据库备份：定期备份数据库，确保数据安全
空间管理：监控和管理数据库空间使用情况
索引维护：重建和优化索引
统计信息更新：更新数据库统计信息，优化查询计划
日志管理：管理数据库日志，确保日志空间充足
参数调整：根据系统运行情况调整数据库参数

日常维护的频率：

每日维护：备份、日志检查、空间检查等
每周维护：索引优化、统计信息更新等
每月维护：全面检查、参数调整等

1.2 巡检概述

巡检是指定期对数据库系统进行全面检查，以发现潜在问题并及时处理。巡检的主要内容包括：

系统状态检查：检查数据库服务是否正常运行
性能检查：检查系统性能指标，如CPU、内存、I/O等
空间检查：检查数据库空间使用情况
日志检查：检查数据库日志，发现异常信息
安全检查：检查数据库安全配置，发现安全隐患
备份检查：检查备份是否正常执行

巡检的频率：

日常巡检：每日进行，检查基本状态
周巡检：每周进行，全面检查系统状态
月巡检：每月进行，深入检查系统性能和安全

1.3 监控指标体系

监控指标体系是指用于监控数据库系统运行状态的一系列指标。主要包括：

系统资源指标：
- CPU使用率
- 内存使用率
- 磁盘I/O使用率
- 网络带宽使用率
数据库指标：
- 连接数
- 查询执行时间
- 事务处理量
- 缓存命中率
空间指标：
- 数据文件大小
- 日志文件大小
- 表空间使用率
- 临时表空间使用率
安全指标：
- 未授权访问尝试
- 权限变更
- 异常登录

风哥提示：日常维护与巡检是确保数据库稳定运行的重要手段，需要建立完善的维护和巡检机制。

Part02-生产环境规划与建议

2.1 维护计划制定

维护计划制定建议：

维护任务清单：，学习交流加群风哥微信: itpux-com
- 列出所有需要执行的维护任务
- 明确每个任务的执行频率和时间
- 指定任务负责人
维护时间窗口：
- 选择业务低峰期进行维护
- 提前通知相关业务部门
- 预留足够的维护时间
维护流程：
- 制定详细的维护步骤
- 建立维护记录和报告机制
- 制定维护失败的回滚方案
工具准备：
- 准备必要的维护工具
- 确保工具的可用性和可靠性
- 定期更新维护工具

2.2 巡检方案设计

巡检方案设计建议：

巡检项目清单：
- 列出所有需要检查的项目
- 明确每个项目的检查标准和阈值
- 指定检查方法和工具

学习交流加群风哥QQ113257174

巡检频率：
- 根据项目的重要性确定巡检频率
- 关键项目每日检查
- 一般项目每周或每月检查
巡检流程：
- 制定详细的巡检步骤
- 建立巡检记录和报告机制
- 制定问题处理流程
巡检工具：
- 使用自动化巡检工具
- 开发自定义巡检脚本
- 利用监控系统进行巡检

2.3 监控系统部署

监控系统部署建议：

监控工具选择：
- GBase Data Studio：图形化监控工具
- Prometheus + Grafana：开源监控解决方案
- Zabbix：企业级监控系统
监控指标配置：
- 配置系统资源指标监控
- 配置数据库指标监控
- 配置空间指标监控
- 配置安全指标监控
更多视频教程www.fgedu.net.cn
告警机制：
- 配置告警阈值
- 配置告警通知方式（邮件、短信等）
- 配置告警级别
监控数据管理：
- 设置监控数据存储策略
- 定期清理监控数据
- 分析监控数据，发现趋势

Part03-生产环境项目实施方案

3.1 日常维护任务

日常维护任务实施步骤：

# 日常维护任务
## 1. 数据库备份
– 执行每日增量备份
– 执行每周全量备份
– 验证备份的完整性
– 定期测试恢复流程

## 2. 空间管理
– 检查数据库空间使用情况
– 清理过期数据
– 扩展空间（如需要）
– 监控空间增长趋势

## 3. 索引维护
– 检查索引碎片情况
– 重建碎片化的索引，更多学习教程公众号风哥教程itpux_com
– 优化索引结构
– 监控索引使用情况

## 4. 统计信息更新
– 更新表统计信息
– 更新索引统计信息
– 监控统计信息的准确性
– 定期执行全库统计信息更新

## 5. 日志管理
– 检查日志空间使用情况
– 清理过期日志
– 配置日志轮转
– 监控日志增长趋势

## 6. 参数调整
– 监控系统运行状态
– 根据需要调整参数
– 测试参数调整效果
– 记录参数调整历史

3.2 巡检项目实施

巡检项目实施步骤：

# 巡检项目实施
## 1. 系统状态检查
– 检查数据库服务是否正常运行
– 检查集群状态（GBase 8a）
– 检查主备状态（GBase 8s）
– 检查网络连接是否正常，from DB视频:www.itpux.com

## 2. 性能检查
– 检查CPU使用率
– 检查内存使用率
– 检查磁盘I/O使用率
– 检查网络带宽使用率
– 检查数据库响应时间

## 3. 空间检查
– 检查数据文件大小和使用率
– 检查日志文件大小和使用率
– 检查表空间使用率
– 检查临时表空间使用率

## 4. 日志检查
– 检查数据库错误日志
– 检查审计日志
– 检查操作系统日志
– 检查应用程序日志

## 5. 安全检查
– 检查用户权限
– 检查登录记录
– 检查安全配置
– 检查防火墙规则

## 6. 备份检查
– 检查备份是否正常执行
– 检查备份文件是否存在
– 检查备份文件大小
– 检查备份时间

3.3 问题处理流程

问题处理流程实施步骤：

# 问题处理流程
## 1. 问题发现
– 通过监控系统发现问题
– 通过巡检发现问题
– 通过用户反馈发现问题

## 2. 问题分析
– 收集问题相关信息
– 分析问题原因
– 评估问题影响范围
– 确定问题优先级

## 3. 问题处理
– 制定问题处理方案
– 执行问题处理
– 验证问题是否解决
– 记录问题处理过程

## 4. 问题总结
– 分析问题根因
– 制定预防措施
– 更新维护和巡检计划
– 分享问题处理经验

Part04-生产案例与实战讲解

4.1 日常维护实战

日常维护实战：

# 执行数据库备份
# GBase 8a备份 gbase_backup
–backup-dir=/gbase/backup
–backup-name=fgedudb_full
–database=fgedudb
–full

Backup start time: 2023-01-01 10:00:00
Backup database: fgedudb
Backup type: full
Backup directory: /gbase/backup
Backup name: fgedudb_full
Backup status: success
Backup end time: 2023-01-01 10:05:30
Backup file size: 10GB

# 检查数据库空间使用情况
# GBase 8a空间检查
gbase -h 192.168.1.10 -P 5258 -u root -p 123456 -e “SHOW GLOBAL VARIABLES LIKE ‘data%size’;”
# GBase 8s空间检查 onstat -d

+———————-+————-+
| Variable_name | Value |
+———————-+————-+
| data_file_size | 10737418240 |
| data_file_used | 5368709120 |
| data_file_free | 5368709120 |
+———————-+————-+
3 rows in set (0.12 sec)

Your evaluation license will expire on 2024-12-31 00:00:00

IBM Informix Dynamic Server Version 12.10.FC12 — On-Line — Up 00:10:25 — 162560 Kbytes

Dbspaces
address number flags fchunk nchunks pgsize flags owner name
4b4a4000 1 0x100000 1 1 4096 N informix rootdbs
4b4a4200 2 0x40000 2 1 4096 N informix tempdbs
4b4a4400 3 0x20000 3 1 4096 N informix logdbs
4b4a4600 4 0x80000 4 1 4096 N informix datadbs

Chunks
address chunk/dbs offset size free bpages flags pathname
4b4a4800 1/1 0 8192 4096 4096 PO-B /gbase/fgdata/rootdbs
4b4a4a00 2/2 0 4096 4096 0 PO-B /gbase/fgdata/tempdbs
4b4a4c00 3/3 0 4096 4096 0 PO-B /gbase/fgdata/logdbs
4b4a4e00 4/4 0 16384 8192 8192 PO-B /gbase/fgdata/datadbs

# 更新统计信息
# GBase 8a统计信息更新
gbase -h 192.168.1.10 -P 5258 -u root -p 123456 fgedudb -e “ANALYZE TABLE fgedu_sales;”
# GBase 8s统计信息更新 update statistics for table fgedu_sales;

Query OK, 0 rows affected (0.32 sec)

Query OK, 0 rows affected (0.25 sec)

4.2 巡检实战

巡检实战：

# 检查系统状态
# GBase 8a集群状态检查 gcadmin

CLUSTER STATE:
==========================================================================================
| NodeName | IpAddress | gcware | gcluster | gnode | total | free |
==========================================================================================
| coordinator1.fgedu.net.cn | 192.168.1.10 | OPEN | OPEN | OPEN | 200G | 150G |
| coordinator2.fgedu.net.cn | 192.168.1.11 | OPEN | OPEN | OPEN | 200G | 145G |
| datanode1.fgedu.net.cn | 192.168.1.20 | OPEN | – | OPEN | 500G | 300G |
| datanode2.fgedu.net.cn | 192.168.1.21 | OPEN | – | OPEN | 500G | 310G |
| datanode3.fgedu.net.cn | 192.168.1.22 | OPEN | – | OPEN | 500G | 305G |
==========================================================================================

CLUSTER MODE: NORMAL

# 检查性能指标
# 检查CPU使用率 top -b -n 1 | grep Cpu
# 检查内存使用率
free -h
# 检查磁盘I/O使用率 iostat -x | grep sda

%Cpu(s): 5.0 us, 2.0 sy, 0.0 ni, 92.0 id, 1.0 wa, 0.0 hi, 0.0 si, 0.0 st

total used free shared buff/cache available
Mem: 15G 8.0G 2.0G 512M 5.0G 6.0G
Swap: 8.0G 0B 8.0G

device r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await r_await w_await svctm %util
sda 10.00 20.00 400.00 800.00 80.00 0.10 3.33 2.00 4.00 1.00 3.00

# 检查日志
# 检查GBase 8a错误日志 tail -n 50 /gbase/app/gbase/log/gcluster.log
# 检查GBase 8s错误日志 tail -n 50 /gbase/app/gbase/log/online.log

2023-01-01 10:00:00 [INFO] gcluster service started successfully
2023-01-01 10:05:30 [INFO] backup completed successfully
2023-01-01 10:10:00 [INFO] analyze table fgedu_sales completed

2023-01-01 10:00:00 0:00:00 IBM Informix Dynamic Server Started.
2023-01-01 10:05:00 0:00:00 Checkpoint Completed: duration was 0 seconds.
2023-01-01 10:10:00 0:00:00 Update Statistics Completed: Table fgedu_sales.

4.3 问题处理实战

问题处理实战：

# 处理空间不足问题
# 检查空间使用情况
gbase -h 192.168.1.10 -P 5258 -u root -p 123456 -e “SHOW GLOBAL VARIABLES LIKE ‘data%size’;”
# 清理过期数据
gbase -h 192.168.1.10 -P 5258 -u root -p 123456 fgedudb -e “DELETE
FROM fgedu_logs
WHERE log_date < '2023-01-01';"
# 优化表
gbase -h 192.168.1.10 -P 5258 -u root -p 123456 fgedudb -e “OPTIMIZE TABLE fgedu_logs;”
# 检查空间使用情况
gbase -h 192.168.1.10 -P 5258 -u root -p 123456 -e “SHOW GLOBAL VARIABLES LIKE ‘data%size’;”

+———————-+————-+
| Variable_name | Value |
+———————-+————-+
| data_file_size | 10737418240 |
| data_file_used | 9663676416 |
| data_file_free | 1073741824 |
+———————-+————-+
3 rows in set (0.12 sec)

Query OK, 1000000 rows affected (10.25 sec)

Query OK, 0 rows affected (5.32 sec)

+———————-+————-+
| Variable_name | Value |
+———————-+————-+
| data_file_size | 10737418240 |
| data_file_used | 4294967296 |
| data_file_free | 6442450944 |
+———————-+————-+
3 rows in set (0.12 sec)

# 处理性能问题
# 检查慢查询
# 开启慢查询日志
cat >> /gbase/app/gbase/conf/gbase_8a_gcluster.cnf
<< EOF # 慢查询日志 slow_query_log=1 slow_query_log_file=/gbase/app/gbase/log/slow.log long_query_time=1 EOF # 重启服务 gcluster_services restart # 查看慢查询日志 tail -n 20 /gbase/app/gbase/log/slow.log

Stopping GBase 8a MPP Cluster gcluster service…
GBase 8a MPP Cluster gcluster service stopped successfully.
Starting GBase 8a MPP Cluster gcluster service…
GBase 8a MPP Cluster gcluster service started successfully.

# Time: 2023-01-01 10:15:00
# User@Host: fgedu[192.168.1.1]
# Query_time: 2.500s
# SQL: SELECT * FROM fgedu_sales WHERE region = ‘北京’ AND amount > 1000;

# Time: 2023-01-01 10:20:00
# User@Host: fgedu[192.168.1.1]
# Query_time: 3.200s
# SQL: SELECT * FROM fgedu_sales WHERE region = ‘上海’ AND amount > 2000;

# 优化慢查询
# 创建索引
gbase -h 192.168.1.10 -P 5258 -u root -p 123456 fgedudb -e “CREATE INDEX idx_fgedu_sales_region_amount
ON fgedu_sales(region, amount);”
# 再次执行查询
gbase -h 192.168.1.10 -P 5258 -u fgedu -p fgedu123 fgedudb -e “SELECT *
FROM fgedu_sales
WHERE region = ‘北京’ AND amount > 1000;”