1. 首页 > IT综合教程 > 正文

it教程FG186-NBU备份监控与故障处理

1. 备份监控概述

NBU备份监控是确保备份系统正常运行的关键环节,通过实时监控备份作业状态、服务器状态和存储资源,及时发现和处理异常,确保数据保护的连续性和可靠性。更多学习教程www.fgedu.net.cn

生产环境风哥建议:建立完善的备份监控体系,包括实时监控、定期检查和自动告警,确保备份系统的稳定运行。

2. 监控工具与命令

NBU提供了多种监控工具和命令,用于监控备份作业、服务器状态和存储资源。学习交流加群风哥微信: itpux-com

2.1 命令行工具

# 查看当前运行的备份作业
# /usr/openv/netbackup/bin/admincmd/bpjobs -active
Job ID Type State Status Client Policy Schedule
12345 Backup Active In Progress server1 FULL_BACKUP Full
12346 Backup Active In Progress server2 FULL_BACKUP Full

# 查看所有备份作业
# /usr/openv/netbackup/bin/admincmd/bpjobs
Job ID Type State Status Client Policy Schedule
12345 Backup Done Successful server1 FULL_BACKUP Full
12346 Backup Done Successful server2 FULL_BACKUP Full
12347 Backup Done Failed server3 FULL_BACKUP Full

# 查看失败的备份作业
# /usr/openv/netbackup/bin/admincmd/bpjobs -failed
Job ID Type State Status Client Policy Schedule
12347 Backup Done Failed server3 FULL_BACKUP Full

2.2 图形界面工具

  • NetBackup Administration Console:图形化管理控制台,可查看备份作业、配置策略等
  • NetBackup Web UI:基于Web的管理界面,提供更直观的监控和管理功能
  • NetBackup OpsCenter:企业级监控和报告工具,提供更全面的监控和分析功能

3. 备份作业监控

备份作业监控是NBU监控的核心,需要实时跟踪作业状态,及时发现和处理异常。

# 查看作业详情
# /usr/openv/netbackup/bin/admincmd/bpjobinfo -jobid 12347
Job ID: 12347
Job Type: Backup
State: Done
Status: Failed
Client: server3
Policy: FULL_BACKUP
Schedule: Full
Start Time: 04/02/2026 20:00:00
End Time: 04/02/2026 20:05:00
Status Code: 25
Status Message: cannot connect on socket

# 查看作业详细日志
# /usr/openv/netbackup/bin/admincmd/bperror -jobid 12347 -detail
12347:0000:server3: backup failed: cannot connect on socket
12347:0000:server3: cannot connect to client server3
12347:0000:server3: status: 25

3.1 作业状态监控

  • Active:作业正在执行中
  • Done:作业已完成
  • Failed:作业失败
  • Partially Successful:作业部分成功
  • Pending:作业等待执行

3.2 作业状态码

  • 0:成功
  • 1:部分成功
  • 2:失败
  • 25:无法连接到客户端
  • 39:客户端不在服务器的客户端列表中
  • 61:写入介质失败
  • 69:读取文件失败

4. 服务器状态监控

监控NBU服务器的运行状态,确保服务器组件正常工作。学习交流加群风哥QQ113257174

# 查看NBU服务状态
# /usr/openv/netbackup/bin/bpps
NB Processes:
root 1234 1 0 08:00 ? 00:00:00 /usr/openv/netbackup/bin/nbdbms
root 1235 1 0 08:00 ? 00:00:00 /usr/openv/netbackup/bin/nbsvcmon
root 1236 1 0 08:00 ? 00:00:00 /usr/openv/netbackup/bin/nbemm
root 1237 1 0 08:00 ? 00:00:00 /usr/openv/netbackup/bin/nbpem
root 1238 1 0 08:00 ? 00:00:00 /usr/openv/netbackup/bin/nbjm
root 1239 1 0 08:00 ? 00:00:00 /usr/openv/netbackup/bin/nbstserv
root 1240 1 0 08:00 ? 00:00:00 /usr/openv/netbackup/bin/nbcdbsdb
root 1241 1 0 08:00 ? 00:00:00 /usr/openv/netbackup/bin/nbwmc

# 检查NBU数据库状态
# /usr/openv/db/bin/nbdb_status
NBDB is alive and well on server fgedu.net.cn.

# 检查EMM数据库状态
# /usr/openv/netbackup/bin/nbemmcmd -listhosts

Host information:
server hostname: fgedu.net.cn
host id: 12345678-1234-1234-1234-1234567890ab
host type: MASTER
host state: UP

4.1 关键服务监控

  • nbemm:企业媒体管理服务,管理媒体和设备
  • nbpem:策略执行管理服务,管理备份策略执行
  • nbjm:作业管理服务,管理备份作业
  • nbdbms:数据库服务,管理NBU数据库
  • nbwmc:Web管理控制台服务

5. 存储资源监控

监控NBU的存储资源,确保存储容量充足,设备正常工作。

# 查看存储单元状态
# /usr/openv/netbackup/bin/admincmd/nbdevconfig -listdv -stype PureDisk

Disk Pool Name: DP1
Storage Server: storage1
Disk Type: PureDisk
Status: UP
Capacity: 1000.0 GB
Free: 800.0 GB
Used: 200.0 GB

# 查看磁带库状态
# /usr/openv/netbackup/bin/admincmd/nbdevconfig -listluns

Robot Name: robot1
Robot Type: TLD
Number of Drives: 4
Status: UP

# 查看磁带状态
# /usr/openv/netbackup/bin/admincmd/bpmedia -list -m

Media ID: A00001
Volume Pool: NetBackup
Status: ACTIVE
Barcode: A00001
Media Type: LTO-6
Capacity: 2.5 TB
Used: 1.2 TB

5.1 存储容量监控

  • 定期检查存储单元的可用容量
  • 设置存储容量告警阈值
  • 及时清理过期备份数据
  • 规划存储扩容

6. 告警配置

配置NBU告警,及时通知备份异常,确保问题得到及时处理。更多学习教程公众号风哥教程itpux_com

# 配置邮件告警
# /usr/openv/netbackup/bin/admincmd/nbmailcmd -add -recipient admin@fgedu.net.cn -subject “NBU Backup Alert”

# 配置SNMP告警
# /usr/openv/netbackup/bin/admincmd/nbemmcmd -setsnmp -primary trap.fgedu.net.cn -community public

# 配置告警阈值
# /usr/openv/netbackup/bin/admincmd/nbdevconfig -setdv -stype PureDisk -dp DP1 -capacitythreshold 80

6.1 告警类型

  • 作业告警:备份作业失败、超时等
  • 服务器告警:服务状态异常、数据库故障等
  • 存储告警:存储容量不足、设备故障等
  • 媒体告警:磁带过期、媒体错误等

7. 常见故障排查

NBU备份系统可能遇到各种故障,需要及时排查和处理,确保系统正常运行。

7.1 客户端连接故障

# 症状:备份作业失败,状态码25(cannot connect on socket)

# 检查网络连接
# ping -c 5 server3
PING server3 (192.168.1.20) 56(84) bytes of data.
56 bytes from server3 (192.168.1.20): icmp_seq=1 ttl=64 time=0.52 ms
56 bytes from server3 (192.168.1.20): icmp_seq=2 ttl=64 time=0.48 ms
56 bytes from server3 (192.168.1.20): icmp_seq=3 ttl=64 time=0.51 ms
56 bytes from server3 (192.168.1.20): icmp_seq=4 ttl=64 time=0.49 ms
56 bytes from server3 (192.168.1.20): icmp_seq=5 ttl=64 time=0.50 ms

— server3 ping statistics —
5 packets transmitted, 5 received, 0% packet loss, time 4ms
rtt min/avg/max/mdev = 0.480/0.500/0.520/0.020 ms

# 检查客户端服务状态
# ssh server3 “systemctl status netbackup”
● netbackup.service – NetBackup Client
Loaded: loaded (/etc/systemd/system/netbackup.service; enabled; vendor preset: disabled)
Active: active (running) since Sat 2026-04-02 08:00:00 CST; 12h ago
Main PID: 1234 (bpcd)
CGroup: /system.slice/netbackup.service
└─1234 /usr/openv/netbackup/bin/bpcd

# 检查客户端配置
# ssh server3 “cat /usr/openv/netbackup/bp.conf”
SERVER = fgedu.net.cn
CLIENT_NAME = server3

7.2 存储故障

# 症状:备份作业失败,状态码61(写入介质失败)

# 检查存储单元状态
# /usr/openv/netbackup/bin/admincmd/nbdevconfig -listdv -stype PureDisk

Disk Pool Name: DP1
Storage Server: storage1
Disk Type: PureDisk
Status: DOWN
Capacity: 1000.0 GB
Free: 0.0 GB
Used: 1000.0 GB

# 检查存储服务器状态
# ssh storage1 “df -h /data”
Filesystem Size Used Avail Use% Mounted on
/dev/sdb1 1.0T 1.0T 0 100% /data

# 清理过期备份
# /usr/openv/netbackup/bin/admincmd/bpexpdate -d 30 -force

7.3 数据库故障

# 症状:NBU服务无法启动,数据库连接失败

# 检查数据库状态
# /usr/openv/db/bin/nbdb_status
NBDB is not responding on server fgedu.net.cn.

# 启动数据库
# /usr/openv/db/bin/nbdbms_start

# 验证数据库状态
# /usr/openv/db/bin/nbdb_status
NBDB is alive and well on server fgedu.net.cn.

# 启动NBU服务
# systemctl start netbackup

风哥风哥提示:故障排查时,应先检查基础服务和网络连接,然后逐步深入分析具体问题。同时,应保留故障日志,以便后续分析和问题解决。

8. 故障恢复流程

建立完善的故障恢复流程,确保在备份系统出现故障时能够快速恢复,最小化业务影响。

8.1 故障恢复步骤

  1. 识别故障:通过监控工具发现备份系统故障
  2. 初步诊断:根据错误信息和日志进行初步诊断
  3. 故障隔离:确定故障范围和影响
  4. 实施修复:根据故障类型采取相应的修复措施
  5. 验证修复:验证故障是否已解决
  6. 恢复服务:恢复备份服务正常运行
  7. 记录故障:记录故障原因和解决方案

8.2 常见故障恢复方案

# 客户端连接故障恢复
# 1. 检查网络连接
# 2. 检查客户端服务状态
# 3. 重启客户端服务
# 4. 验证客户端配置

# 存储故障恢复
# 1. 检查存储容量
# 2. 清理过期备份
# 3. 扩展存储容量
# 4. 重启存储服务

# 服务器故障恢复
# 1. 检查服务状态
# 2. 重启NBU服务
# 3. 检查数据库状态
# 4. 修复数据库问题
# 5. 恢复服务

8.3 灾备方案

  • 备份NBU配置:定期备份NBU配置和数据库
  • 配置复制:复制备份数据到异地存储
  • 备用服务器:配置备用NBU服务器
  • 灾难恢复演练:定期进行灾难恢复演练
# 备份NBU配置
# /usr/openv/netbackup/bin/admincmd/nbbackupconfig -online -outfile /backup/nbconfig_$(date +%Y%m%d).tar

# 恢复NBU配置
# /usr/openv/netbackup/bin/admincmd/nbrestoreconfig -infile /backup/nbconfig_20260402.tar

生产环境风哥建议:建立详细的故障恢复手册,包括常见故障的诊断步骤和解决方案。同时,定期培训运维人员,提高故障处理能力。

风哥风哥提示:备份系统的故障恢复能力直接影响数据保护的可靠性,应建立完善的故障恢复机制,确保在系统出现故障时能够快速恢复,最大限度减少数据丢失风险。

本文由风哥教程整理发布,仅用于学习测试使用,转载注明出处:http://www.fgedu.net.cn/10327.html

联系我们

在线咨询:点击这里给我发消息

微信号:itpux-com

工作日:9:30-18:30,节假日休息