1. 备份监控概述
NBU备份监控是确保备份系统正常运行的关键环节,通过实时监控备份作业状态、服务器状态和存储资源,及时发现和处理异常,确保数据保护的连续性和可靠性。更多学习教程www.fgedu.net.cn
2. 监控工具与命令
NBU提供了多种监控工具和命令,用于监控备份作业、服务器状态和存储资源。学习交流加群风哥微信: itpux-com
2.1 命令行工具
# /usr/openv/netbackup/bin/admincmd/bpjobs -active
Job ID Type State Status Client Policy Schedule
12345 Backup Active In Progress server1 FULL_BACKUP Full
12346 Backup Active In Progress server2 FULL_BACKUP Full
# 查看所有备份作业
# /usr/openv/netbackup/bin/admincmd/bpjobs
Job ID Type State Status Client Policy Schedule
12345 Backup Done Successful server1 FULL_BACKUP Full
12346 Backup Done Successful server2 FULL_BACKUP Full
12347 Backup Done Failed server3 FULL_BACKUP Full
# 查看失败的备份作业
# /usr/openv/netbackup/bin/admincmd/bpjobs -failed
Job ID Type State Status Client Policy Schedule
12347 Backup Done Failed server3 FULL_BACKUP Full
2.2 图形界面工具
- NetBackup Administration Console:图形化管理控制台,可查看备份作业、配置策略等
- NetBackup Web UI:基于Web的管理界面,提供更直观的监控和管理功能
- NetBackup OpsCenter:企业级监控和报告工具,提供更全面的监控和分析功能
3. 备份作业监控
备份作业监控是NBU监控的核心,需要实时跟踪作业状态,及时发现和处理异常。
# /usr/openv/netbackup/bin/admincmd/bpjobinfo -jobid 12347
Job ID: 12347
Job Type: Backup
State: Done
Status: Failed
Client: server3
Policy: FULL_BACKUP
Schedule: Full
Start Time: 04/02/2026 20:00:00
End Time: 04/02/2026 20:05:00
Status Code: 25
Status Message: cannot connect on socket
# 查看作业详细日志
# /usr/openv/netbackup/bin/admincmd/bperror -jobid 12347 -detail
12347:0000:server3: backup failed: cannot connect on socket
12347:0000:server3: cannot connect to client server3
12347:0000:server3: status: 25
3.1 作业状态监控
- Active:作业正在执行中
- Done:作业已完成
- Failed:作业失败
- Partially Successful:作业部分成功
- Pending:作业等待执行
3.2 作业状态码
- 0:成功
- 1:部分成功
- 2:失败
- 25:无法连接到客户端
- 39:客户端不在服务器的客户端列表中
- 61:写入介质失败
- 69:读取文件失败
4. 服务器状态监控
监控NBU服务器的运行状态,确保服务器组件正常工作。学习交流加群风哥QQ113257174
# /usr/openv/netbackup/bin/bpps
NB Processes:
root 1234 1 0 08:00 ? 00:00:00 /usr/openv/netbackup/bin/nbdbms
root 1235 1 0 08:00 ? 00:00:00 /usr/openv/netbackup/bin/nbsvcmon
root 1236 1 0 08:00 ? 00:00:00 /usr/openv/netbackup/bin/nbemm
root 1237 1 0 08:00 ? 00:00:00 /usr/openv/netbackup/bin/nbpem
root 1238 1 0 08:00 ? 00:00:00 /usr/openv/netbackup/bin/nbjm
root 1239 1 0 08:00 ? 00:00:00 /usr/openv/netbackup/bin/nbstserv
root 1240 1 0 08:00 ? 00:00:00 /usr/openv/netbackup/bin/nbcdbsdb
root 1241 1 0 08:00 ? 00:00:00 /usr/openv/netbackup/bin/nbwmc
# 检查NBU数据库状态
# /usr/openv/db/bin/nbdb_status
NBDB is alive and well on server fgedu.net.cn.
# 检查EMM数据库状态
# /usr/openv/netbackup/bin/nbemmcmd -listhosts
Host information:
server hostname: fgedu.net.cn
host id: 12345678-1234-1234-1234-1234567890ab
host type: MASTER
host state: UP
4.1 关键服务监控
- nbemm:企业媒体管理服务,管理媒体和设备
- nbpem:策略执行管理服务,管理备份策略执行
- nbjm:作业管理服务,管理备份作业
- nbdbms:数据库服务,管理NBU数据库
- nbwmc:Web管理控制台服务
5. 存储资源监控
监控NBU的存储资源,确保存储容量充足,设备正常工作。
# /usr/openv/netbackup/bin/admincmd/nbdevconfig -listdv -stype PureDisk
Disk Pool Name: DP1
Storage Server: storage1
Disk Type: PureDisk
Status: UP
Capacity: 1000.0 GB
Free: 800.0 GB
Used: 200.0 GB
# 查看磁带库状态
# /usr/openv/netbackup/bin/admincmd/nbdevconfig -listluns
Robot Name: robot1
Robot Type: TLD
Number of Drives: 4
Status: UP
# 查看磁带状态
# /usr/openv/netbackup/bin/admincmd/bpmedia -list -m
Media ID: A00001
Volume Pool: NetBackup
Status: ACTIVE
Barcode: A00001
Media Type: LTO-6
Capacity: 2.5 TB
Used: 1.2 TB
5.1 存储容量监控
- 定期检查存储单元的可用容量
- 设置存储容量告警阈值
- 及时清理过期备份数据
- 规划存储扩容
6. 告警配置
配置NBU告警,及时通知备份异常,确保问题得到及时处理。更多学习教程公众号风哥教程itpux_com
# /usr/openv/netbackup/bin/admincmd/nbmailcmd -add -recipient admin@fgedu.net.cn -subject “NBU Backup Alert”
# 配置SNMP告警
# /usr/openv/netbackup/bin/admincmd/nbemmcmd -setsnmp -primary trap.fgedu.net.cn -community public
# 配置告警阈值
# /usr/openv/netbackup/bin/admincmd/nbdevconfig -setdv -stype PureDisk -dp DP1 -capacitythreshold 80
6.1 告警类型
- 作业告警:备份作业失败、超时等
- 服务器告警:服务状态异常、数据库故障等
- 存储告警:存储容量不足、设备故障等
- 媒体告警:磁带过期、媒体错误等
7. 常见故障排查
NBU备份系统可能遇到各种故障,需要及时排查和处理,确保系统正常运行。
7.1 客户端连接故障
# 检查网络连接
# ping -c 5 server3
PING server3 (192.168.1.20) 56(84) bytes of data.
56 bytes from server3 (192.168.1.20): icmp_seq=1 ttl=64 time=0.52 ms
56 bytes from server3 (192.168.1.20): icmp_seq=2 ttl=64 time=0.48 ms
56 bytes from server3 (192.168.1.20): icmp_seq=3 ttl=64 time=0.51 ms
56 bytes from server3 (192.168.1.20): icmp_seq=4 ttl=64 time=0.49 ms
56 bytes from server3 (192.168.1.20): icmp_seq=5 ttl=64 time=0.50 ms
— server3 ping statistics —
5 packets transmitted, 5 received, 0% packet loss, time 4ms
rtt min/avg/max/mdev = 0.480/0.500/0.520/0.020 ms
# 检查客户端服务状态
# ssh server3 “systemctl status netbackup”
● netbackup.service – NetBackup Client
Loaded: loaded (/etc/systemd/system/netbackup.service; enabled; vendor preset: disabled)
Active: active (running) since Sat 2026-04-02 08:00:00 CST; 12h ago
Main PID: 1234 (bpcd)
CGroup: /system.slice/netbackup.service
└─1234 /usr/openv/netbackup/bin/bpcd
# 检查客户端配置
# ssh server3 “cat /usr/openv/netbackup/bp.conf”
SERVER = fgedu.net.cn
CLIENT_NAME = server3
7.2 存储故障
# 检查存储单元状态
# /usr/openv/netbackup/bin/admincmd/nbdevconfig -listdv -stype PureDisk
Disk Pool Name: DP1
Storage Server: storage1
Disk Type: PureDisk
Status: DOWN
Capacity: 1000.0 GB
Free: 0.0 GB
Used: 1000.0 GB
# 检查存储服务器状态
# ssh storage1 “df -h /data”
Filesystem Size Used Avail Use% Mounted on
/dev/sdb1 1.0T 1.0T 0 100% /data
# 清理过期备份
# /usr/openv/netbackup/bin/admincmd/bpexpdate -d 30 -force
7.3 数据库故障
# 检查数据库状态
# /usr/openv/db/bin/nbdb_status
NBDB is not responding on server fgedu.net.cn.
# 启动数据库
# /usr/openv/db/bin/nbdbms_start
# 验证数据库状态
# /usr/openv/db/bin/nbdb_status
NBDB is alive and well on server fgedu.net.cn.
# 启动NBU服务
# systemctl start netbackup
8. 故障恢复流程
建立完善的故障恢复流程,确保在备份系统出现故障时能够快速恢复,最小化业务影响。
8.1 故障恢复步骤
- 识别故障:通过监控工具发现备份系统故障
- 初步诊断:根据错误信息和日志进行初步诊断
- 故障隔离:确定故障范围和影响
- 实施修复:根据故障类型采取相应的修复措施
- 验证修复:验证故障是否已解决
- 恢复服务:恢复备份服务正常运行
- 记录故障:记录故障原因和解决方案
8.2 常见故障恢复方案
# 1. 检查网络连接
# 2. 检查客户端服务状态
# 3. 重启客户端服务
# 4. 验证客户端配置
# 存储故障恢复
# 1. 检查存储容量
# 2. 清理过期备份
# 3. 扩展存储容量
# 4. 重启存储服务
# 服务器故障恢复
# 1. 检查服务状态
# 2. 重启NBU服务
# 3. 检查数据库状态
# 4. 修复数据库问题
# 5. 恢复服务
8.3 灾备方案
- 备份NBU配置:定期备份NBU配置和数据库
- 配置复制:复制备份数据到异地存储
- 备用服务器:配置备用NBU服务器
- 灾难恢复演练:定期进行灾难恢复演练
# /usr/openv/netbackup/bin/admincmd/nbbackupconfig -online -outfile /backup/nbconfig_$(date +%Y%m%d).tar
# 恢复NBU配置
# /usr/openv/netbackup/bin/admincmd/nbrestoreconfig -infile /backup/nbconfig_20260402.tar
本文由风哥教程整理发布,仅用于学习测试使用,转载注明出处:http://www.fgedu.net.cn/10327.html
