NetBackup教程FG034-NetBackup常见故障(备份失败、恢复异常)解决实战
本文档风哥主要介绍NetBackup常见故障的解决方法,包括备份失败、恢复异常等问题的故障排查和解决步骤,风哥教程参考NetBackup官方文档NetBackup Troubleshooting Guide,适合备份管理员和系统工程师在学习和测试中使用。学习交流加群风哥微信: itpux-com
Part01-基础概念与理论知识
1.1 故障概述
NetBackup故障是指在备份、恢复或其他操作过程中出现的异常情况,导致操作无法正常完成。NetBackup常见故障包括:
- 备份失败:备份作业无法完成
- 恢复异常:恢复作业无法完成或恢复的数据不一致
- 介质故障:存储介质出现问题
- 网络故障:网络连接出现问题
- 配置错误:配置参数设置错误
1.2 NetBackup状态码
NetBackup使用状态码来表示操作的结果。常见的状态码包括:
1.2.1 常见状态码
- 0:操作成功
- 1:操作部分成功
- 2:操作失败
- 15:客户端连接失败
- 21:状态码不存在
- 23:写入失败
- 39:客户端未安装NetBackup客户端软件
- 41:网络连接超时
- 61:介质错误
- 69:文件系统满
1.3 故障排查方法
NetBackup故障排查的主要方法包括:
1.3.1 日志分析
- 进程日志:记录NetBackup进程的运行状态
- 作业日志:记录备份和恢复作业的执行情况
- 设备日志:记录存储设备的操作情况
- 客户端日志:记录客户端的备份和恢复操作
1.3.2 命令行工具
- bpjobinfo:查看作业详细信息
- bperror:查看错误信息
- bpclntcmd:测试客户端连接
- nbdevquery:查看存储设备信息
Part02-生产环境规划与建议
2.1 故障预防
NetBackup故障预防应考虑以下因素:
– [ ] 定期维护:定期维护NetBackup系统
– [ ] 监控系统:配置监控和告警机制
– [ ] 备份测试:定期测试备份和恢复操作
– [ ] 配置审查:定期审查NetBackup配置
– [ ] 软件更新:及时更新NetBackup软件
– [ ] 硬件维护:定期维护存储设备和服务器
– [ ] 网络维护:定期维护网络设备和连接
2.2 故障响应计划
NetBackup故障响应计划应包括以下内容:
– [ ] 故障识别:如何识别故障
– [ ] 故障分类:如何分类故障
– [ ] 故障上报:如何上报故障
– [ ] 故障处理:如何处理故障
– [ ] 故障记录:如何记录故障
– [ ] 故障分析:如何分析故障
– [ ] 故障预防:如何预防类似故障
2.3 故障排查工具
NetBackup故障排查的常用工具包括:
– [ ] bpjobinfo:查看作业详细信息
– [ ] bperror:查看错误信息
– [ ] bpclntcmd:测试客户端连接
– [ ] nbdevquery:查看存储设备信息
– [ ] vxlogview:查看详细日志
– [ ] nbemmcmd:查看介质管理器信息
– [ ] bppllist:查看策略信息
Part03-生产环境项目实施方案
3.1 故障检测
3.1.1 配置监控系统
$ /NetBackup/app/netbackup/bin/admincmd/bpsetconfig “MONITORING_ENABLED = TRUE”
# 2. 配置告警
$ /NetBackup/app/netbackup/bin/admincmd/bpsetconfig “ALERT_ENABLED = TRUE”
$ /NetBackup/app/netbackup/bin/admincmd/bpsetconfig “ALERT_EMAIL = admin@fgedu.net.cn”
# 3. 验证监控配置
$ /NetBackup/app/netbackup/bin/admincmd/bpgetconfig MONITORING_ENABLED
$ /NetBackup/app/netbackup/bin/admincmd/bpgetconfig ALERT_ENABLED
3.1.2 使用命令行工具检测故障
$ /NetBackup/app/netbackup/bin/bpjobinfo -alljobs
# 2. 查看错误信息
$ /NetBackup/app/netbackup/bin/bperror -hoursago 24
# 3. 查看存储设备状态
$ /NetBackup/app/netbackup/bin/admincmd/nbdevquery -listdv
# 4. 测试客户端连接
$ /NetBackup/app/netbackup/bin/bpclntcmd -pn
3.2 故障隔离
3.2.1 确定故障范围
$ /NetBackup/app/netbackup/bin/bpjobinfo -client client1.fgedu.net.cn
# 2. 确定故障是否影响单个策略或多个策略
$ /NetBackup/app/netbackup/bin/bpjobinfo -policy TestPolicy
# 3. 确定故障是否影响单个存储单元或多个存储单元
$ /NetBackup/app/netbackup/bin/admincmd/nbdevquery -listdv -stype PureDisk
3.2.2 分析故障原因
$ /NetBackup/app/netbackup/bin/bpjobinfo -jobid 12345 -detailed
# 2. 查看作业日志
$ /NetBackup/app/netbackup/bin/admincmd/bpdbjobs -jobid 12345 -l
# 3. 查看进程日志
$ tail -f /NetBackup/app/netbackup/logs/bpbrm/bpbrm.log
# 4. 查看客户端日志
$ tail -f /NetBackup/app/netbackup/logs/bpcd/bpcd.log
3.3 故障解决
3.3.1 解决备份失败
$ /NetBackup/app/netbackup/bin/bpclntcmd -pn
# 解决方案:确保客户端服务运行正常,网络连接正常
$ ssh client1.fgedu.net.cn “/NetBackup/app/netbackup/bin/bp.start_all”
# 2. 写入失败(状态码23)
$ df -h
# 解决方案:确保磁盘空间足够
$ sudo rm -rf /NetBackup/app/netbackup/logs/old/*
# 3. 客户端未安装NetBackup客户端软件(状态码39)
$ ssh client1.fgedu.net.cn “/NetBackup/app/netbackup/bin/bp.version”
# 解决方案:在客户端安装NetBackup客户端软件
$ sudo rpm -ivh NetBackup_10.0_CLIENTS_RHEL7.x86_64.rpm
3.3.2 解决恢复异常
$ /NetBackup/app/netbackup/bin/bpjobinfo -jobid 12346 -detailed
# 2. 查看恢复日志
$ /NetBackup/app/netbackup/bin/admincmd/bpdbjobs -jobid 12346 -l
# 3. 验证备份数据
$ /NetBackup/app/netbackup/bin/bpimagelist -backupid client1.fgedu.net.cn_1234567890
# 4. 重新执行恢复
$ /NetBackup/app/netbackup/bin/bprestore -w -C client1.fgedu.net.cn -t 0 -D / /path/to/file
Part04-生产案例与实战讲解
4.1 备份失败案例
4.1.1 案例1:客户端连接失败
# 1. 查看作业详细信息
$ /NetBackup/app/netbackup/bin/bpjobinfo -jobid 12345 -detailed
Job ID: 12345
Status: Failed
Status Code: 15
Client: client1.fgedu.net.cn
Policy: TestPolicy
Schedule: Full Backup
Error: cannot connect to client
# 2. 测试客户端连接
$ /NetBackup/app/netbackup/bin/bpclntcmd -client client1.fgedu.net.cn -pn
bpclntcmd: cannot connect to client1.fgedu.net.cn
# 3. 检查客户端服务状态
$ ssh client1.fgedu.net.cn “/NetBackup/app/netbackup/bin/bp.kill_all && /NetBackup/app/netbackup/bin/bp.start_all”
# 4. 再次测试客户端连接
$ /NetBackup/app/netbackup/bin/bpclntcmd -client client1.fgedu.net.cn -pn
Expecting the server to connect back on port 1556
# 5. 重新执行备份
$ /NetBackup/app/netbackup/bin/bpbackup -w -p TestPolicy -s “Full Backup” /NetBackup/fgdata
Backup started, job id = 12346
Waiting for job to complete…
Job 12346 completed successfully
4.1.2 案例2:存储设备错误
# 1. 查看作业详细信息
$ /NetBackup/app/netbackup/bin/bpjobinfo -jobid 12347 -detailed
Job ID: 12347
Status: Failed
Status Code: 61
Client: client1.fgedu.net.cn
Policy: TestPolicy
Schedule: Full Backup
Error: media error
# 2. 查看存储设备状态
$ /NetBackup/app/netbackup/bin/admincmd/nbdevquery -listdv
Disk Pool Name: PureDiskPool
Status: DOWN
Capacity: 100TB
Used: 95TB
Available: 5TB
# 3. 检查存储设备
$ ssh storage.fgedu.net.cn “df -h”
# 4. 扩展存储容量
$ ssh storage.fgedu.net.cn “sudo lvextend -L +10TB /dev/mapper/storage-puredisk”
$ ssh storage.fgedu.net.cn “sudo xfs_growfs /dev/mapper/storage-puredisk”
# 5. 重新启动存储设备
$ /NetBackup/app/netbackup/bin/admincmd/nbdevconfig -enable -stype PureDisk -dp PureDiskPool
# 6. 重新执行备份
$ /NetBackup/app/netbackup/bin/bpbackup -w -p TestPolicy -s “Full Backup” /NetBackup/fgdata
Backup started, job id = 12348
Waiting for job to complete…
Job 12348 completed successfully
4.2 恢复异常案例
4.2.1 案例1:恢复作业失败
# 1. 查看作业详细信息
$ /NetBackup/app/netbackup/bin/bpjobinfo -jobid 12349 -detailed
Job ID: 12349
Status: Failed
Status Code: 2
Client: client1.fgedu.net.cn
Policy: TestPolicy
Schedule: Full Backup
Error: operation failed
# 2. 查看恢复日志
$ /NetBackup/app/netbackup/bin/admincmd/bpdbjobs -jobid 12349 -l
# 3. 验证备份数据
$ /NetBackup/app/netbackup/bin/bpimagelist -backupid client1.fgedu.net.cn_1234567890
# 4. 检查客户端磁盘空间
$ ssh client1.fgedu.net.cn “df -h”
# 5. 清理客户端磁盘空间
$ ssh client1.fgedu.net.cn “sudo rm -rf /tmp/*”
# 6. 重新执行恢复
$ /NetBackup/app/netbackup/bin/bprestore -w -C client1.fgedu.net.cn -t 0 -D / /NetBackup/fgdata/file.txt
Restore started, job id = 12350
Waiting for job to complete…
Job 12350 completed successfully
4.2.2 案例2:恢复数据不一致
# 1. 查看备份作业信息
$ /NetBackup/app/netbackup/bin/bpjobinfo -jobid 12345 -detailed
# 2. 查看恢复作业信息
$ /NetBackup/app/netbackup/bin/bpjobinfo -jobid 12350 -detailed
# 3. 验证备份数据
$ /NetBackup/app/netbackup/bin/bpimagelist -backupid client1.fgedu.net.cn_1234567890
# 4. 检查客户端文件系统
$ ssh client1.fgedu.net.cn “fsck -y /dev/sda1”
# 5. 重新执行备份和恢复
$ /NetBackup/app/netbackup/bin/bpbackup -w -p TestPolicy -s “Full Backup” /NetBackup/fgdata
$ /NetBackup/app/netbackup/bin/bprestore -w -C client1.fgedu.net.cn -t 0 -D / /NetBackup/fgdata/file.txt
# 6. 验证恢复数据
$ ssh client1.fgedu.net.cn “md5sum /NetBackup/fgdata/file.txt”
4.3 其他故障案例
4.3.1 案例1:NetBackup服务启动失败
# 1. 检查NetBackup服务状态
$ /NetBackup/app/netbackup/bin/bp.start_all
# 2. 查看服务日志
$ tail -f /NetBackup/app/netbackup/logs/bpdbm/bpdbm.log
# 3. 检查数据库状态
$ /NetBackup/app/netbackup/bin/admincmd/nbdb_status
# 4. 启动数据库
$ /NetBackup/app/netbackup/bin/admincmd/nbdb_start
# 5. 重新启动NetBackup服务
$ /NetBackup/app/netbackup/bin/bp.start_all
# 6. 验证服务状态
$ /NetBackup/app/netbackup/bin/bpclntcmd -pn
4.3.2 案例2:策略配置错误
# 1. 查看作业详细信息
$ /NetBackup/app/netbackup/bin/bpjobinfo -jobid 12351 -detailed
Job ID: 12351
Status: Failed
Status Code: 21
Client: client1.fgedu.net.cn
Policy: TestPolicy
Schedule: Full Backup
Error: status code does not exist
# 2. 查看策略配置
$ /NetBackup/app/netbackup/bin/admincmd/bpplinfo TestPolicy -U
# 3. 修正策略配置
$ /NetBackup/app/netbackup/bin/admincmd/bpplinfo TestPolicy -modify -client client1.fgedu.net.cn
# 4. 重新执行备份
$ /NetBackup/app/netbackup/bin/bpbackup -w -p TestPolicy -s “Full Backup” /NetBackup/fgdata
Backup started, job id = 12352
Waiting for job to complete…
Job 12352 completed successfully
Part05-风哥经验总结与分享
5.1 故障预防最佳实践
NetBackup故障预防最佳实践:
- 定期维护:定期维护NetBackup系统,包括软件更新、硬件检查等
- 监控系统:配置监控和告警机制,及时发现异常
- 备份测试:定期测试备份和恢复操作,确保数据可恢复性
- 配置审查:定期审查NetBackup配置,确保配置正确
- 容量规划:定期进行容量规划,确保存储容量充足
- 文档记录:记录系统配置和操作,便于故障排查
- 培训:对相关人员进行培训,提高故障处理能力
5.2 故障排查最佳实践
NetBackup故障排查最佳实践:
- 系统分析:系统分析故障现象,确定故障范围
- 日志分析:详细分析日志,找出故障原因
- 工具使用:合理使用故障排查工具,提高排查效率
- 步骤记录:记录故障排查步骤,便于后续分析
- 测试验证:测试解决方案,确保故障得到解决
- 总结经验:总结故障处理经验,避免类似故障再次发生
5.3 故障解决最佳实践
NetBackup故障解决最佳实践:
- 快速响应:快速响应故障,减少故障影响
- 优先级:根据故障影响程度确定处理优先级
- 团队协作:加强团队协作,共同解决故障
- 沟通:及时与相关人员沟通,确保信息透明
- 文档:记录故障处理过程,便于后续参考
- 预防:采取措施预防类似故障再次发生
- 持续改进:根据故障处理经验,持续改进系统
本文由风哥教程整理发布,仅用于学习测试使用,转载注明出处:http://www.fgedu.net.cn/10327.html
