1. 首页 > NBU-NetBackup教程 > 正文

NetBackup教程FG034-NetBackup常见故障(备份失败、恢复异常)解决实战

本文档风哥主要介绍NetBackup常见故障的解决方法,包括备份失败、恢复异常等问题的故障排查和解决步骤,风哥教程参考NetBackup官方文档NetBackup Troubleshooting Guide,适合备份管理员和系统工程师在学习和测试中使用。学习交流加群风哥微信: itpux-com

Part01-基础概念与理论知识

1.1 故障概述

NetBackup故障是指在备份、恢复或其他操作过程中出现的异常情况,导致操作无法正常完成。NetBackup常见故障包括:

NetBackup常见故障类型:

  • 备份失败:备份作业无法完成
  • 恢复异常:恢复作业无法完成或恢复的数据不一致
  • 介质故障:存储介质出现问题
  • 网络故障:网络连接出现问题
  • 配置错误:配置参数设置错误

1.2 NetBackup状态码

NetBackup使用状态码来表示操作的结果。常见的状态码包括:

1.2.1 常见状态码

  • 0:操作成功
  • 1:操作部分成功
  • 2:操作失败
  • 15:客户端连接失败
  • 21:状态码不存在
  • 23:写入失败
  • 39:客户端未安装NetBackup客户端软件
  • 41:网络连接超时
  • 61:介质错误
  • 69:文件系统满

1.3 故障排查方法

NetBackup故障排查的主要方法包括:

1.3.1 日志分析

  • 进程日志:记录NetBackup进程的运行状态
  • 作业日志:记录备份和恢复作业的执行情况
  • 设备日志:记录存储设备的操作情况
  • 客户端日志:记录客户端的备份和恢复操作

1.3.2 命令行工具

  • bpjobinfo:查看作业详细信息
  • bperror:查看错误信息
  • bpclntcmd:测试客户端连接
  • nbdevquery:查看存储设备信息

Part02-生产环境规划与建议

2.1 故障预防

NetBackup故障预防应考虑以下因素:

# 故障预防要点
– [ ] 定期维护:定期维护NetBackup系统
– [ ] 监控系统:配置监控和告警机制
– [ ] 备份测试:定期测试备份和恢复操作
– [ ] 配置审查:定期审查NetBackup配置
– [ ] 软件更新:及时更新NetBackup软件
– [ ] 硬件维护:定期维护存储设备和服务器
– [ ] 网络维护:定期维护网络设备和连接

2.2 故障响应计划

NetBackup故障响应计划应包括以下内容:

# 故障响应计划
– [ ] 故障识别:如何识别故障
– [ ] 故障分类:如何分类故障
– [ ] 故障上报:如何上报故障
– [ ] 故障处理:如何处理故障
– [ ] 故障记录:如何记录故障
– [ ] 故障分析:如何分析故障
– [ ] 故障预防:如何预防类似故障

2.3 故障排查工具

NetBackup故障排查的常用工具包括:

# 故障排查工具
– [ ] bpjobinfo:查看作业详细信息
– [ ] bperror:查看错误信息
– [ ] bpclntcmd:测试客户端连接
– [ ] nbdevquery:查看存储设备信息
– [ ] vxlogview:查看详细日志
– [ ] nbemmcmd:查看介质管理器信息
– [ ] bppllist:查看策略信息
风哥提示:故障预防是NetBackup运维的重要环节,需要根据企业的业务需求和系统特点进行合理规划。建议在部署前制定详细的故障响应计划,确保在故障发生时能够及时有效地处理。学习交流加群风哥QQ113257174

Part03-生产环境项目实施方案

3.1 故障检测

3.1.1 配置监控系统

# 1. 配置NetBackup监控
$ /NetBackup/app/netbackup/bin/admincmd/bpsetconfig “MONITORING_ENABLED = TRUE”

# 2. 配置告警
$ /NetBackup/app/netbackup/bin/admincmd/bpsetconfig “ALERT_ENABLED = TRUE”
$ /NetBackup/app/netbackup/bin/admincmd/bpsetconfig “ALERT_EMAIL = admin@fgedu.net.cn”

# 3. 验证监控配置
$ /NetBackup/app/netbackup/bin/admincmd/bpgetconfig MONITORING_ENABLED
$ /NetBackup/app/netbackup/bin/admincmd/bpgetconfig ALERT_ENABLED

3.1.2 使用命令行工具检测故障

# 1. 查看作业状态
$ /NetBackup/app/netbackup/bin/bpjobinfo -alljobs

# 2. 查看错误信息
$ /NetBackup/app/netbackup/bin/bperror -hoursago 24

# 3. 查看存储设备状态
$ /NetBackup/app/netbackup/bin/admincmd/nbdevquery -listdv

# 4. 测试客户端连接
$ /NetBackup/app/netbackup/bin/bpclntcmd -pn

3.2 故障隔离

3.2.1 确定故障范围

# 1. 确定故障是否影响单个客户端或多个客户端
$ /NetBackup/app/netbackup/bin/bpjobinfo -client client1.fgedu.net.cn

# 2. 确定故障是否影响单个策略或多个策略
$ /NetBackup/app/netbackup/bin/bpjobinfo -policy TestPolicy

# 3. 确定故障是否影响单个存储单元或多个存储单元
$ /NetBackup/app/netbackup/bin/admincmd/nbdevquery -listdv -stype PureDisk

3.2.2 分析故障原因

# 1. 查看作业详细信息
$ /NetBackup/app/netbackup/bin/bpjobinfo -jobid 12345 -detailed

# 2. 查看作业日志
$ /NetBackup/app/netbackup/bin/admincmd/bpdbjobs -jobid 12345 -l

# 3. 查看进程日志
$ tail -f /NetBackup/app/netbackup/logs/bpbrm/bpbrm.log

# 4. 查看客户端日志
$ tail -f /NetBackup/app/netbackup/logs/bpcd/bpcd.log

3.3 故障解决

3.3.1 解决备份失败

# 1. 客户端连接失败(状态码15)
$ /NetBackup/app/netbackup/bin/bpclntcmd -pn
# 解决方案:确保客户端服务运行正常,网络连接正常
$ ssh client1.fgedu.net.cn “/NetBackup/app/netbackup/bin/bp.start_all”

# 2. 写入失败(状态码23)
$ df -h
# 解决方案:确保磁盘空间足够
$ sudo rm -rf /NetBackup/app/netbackup/logs/old/*

# 3. 客户端未安装NetBackup客户端软件(状态码39)
$ ssh client1.fgedu.net.cn “/NetBackup/app/netbackup/bin/bp.version”
# 解决方案:在客户端安装NetBackup客户端软件
$ sudo rpm -ivh NetBackup_10.0_CLIENTS_RHEL7.x86_64.rpm

3.3.2 解决恢复异常

# 1. 恢复作业失败
$ /NetBackup/app/netbackup/bin/bpjobinfo -jobid 12346 -detailed

# 2. 查看恢复日志
$ /NetBackup/app/netbackup/bin/admincmd/bpdbjobs -jobid 12346 -l

# 3. 验证备份数据
$ /NetBackup/app/netbackup/bin/bpimagelist -backupid client1.fgedu.net.cn_1234567890

# 4. 重新执行恢复
$ /NetBackup/app/netbackup/bin/bprestore -w -C client1.fgedu.net.cn -t 0 -D / /path/to/file

生产环境建议:在处理NetBackup故障时,应根据故障的具体情况进行分析和解决,确保故障能够及时有效地处理。建议在生产环境中建立故障处理流程,确保故障处理的标准化和规范化。更多学习教程公众号风哥教程itpux_com

Part04-生产案例与实战讲解

4.1 备份失败案例

4.1.1 案例1:客户端连接失败

# 问题:备份作业失败,状态码15

# 1. 查看作业详细信息
$ /NetBackup/app/netbackup/bin/bpjobinfo -jobid 12345 -detailed

Job ID: 12345
Status: Failed
Status Code: 15
Client: client1.fgedu.net.cn
Policy: TestPolicy
Schedule: Full Backup
Error: cannot connect to client

# 2. 测试客户端连接
$ /NetBackup/app/netbackup/bin/bpclntcmd -client client1.fgedu.net.cn -pn

bpclntcmd: cannot connect to client1.fgedu.net.cn

# 3. 检查客户端服务状态
$ ssh client1.fgedu.net.cn “/NetBackup/app/netbackup/bin/bp.kill_all && /NetBackup/app/netbackup/bin/bp.start_all”

# 4. 再次测试客户端连接
$ /NetBackup/app/netbackup/bin/bpclntcmd -client client1.fgedu.net.cn -pn

Expecting the server to connect back on port 1556

# 5. 重新执行备份
$ /NetBackup/app/netbackup/bin/bpbackup -w -p TestPolicy -s “Full Backup” /NetBackup/fgdata

Backup started, job id = 12346
Waiting for job to complete…
Job 12346 completed successfully

4.1.2 案例2:存储设备错误

# 问题:备份作业失败,状态码61

# 1. 查看作业详细信息
$ /NetBackup/app/netbackup/bin/bpjobinfo -jobid 12347 -detailed

Job ID: 12347
Status: Failed
Status Code: 61
Client: client1.fgedu.net.cn
Policy: TestPolicy
Schedule: Full Backup
Error: media error

# 2. 查看存储设备状态
$ /NetBackup/app/netbackup/bin/admincmd/nbdevquery -listdv

Disk Pool Name: PureDiskPool
Status: DOWN
Capacity: 100TB
Used: 95TB
Available: 5TB

# 3. 检查存储设备
$ ssh storage.fgedu.net.cn “df -h”

# 4. 扩展存储容量
$ ssh storage.fgedu.net.cn “sudo lvextend -L +10TB /dev/mapper/storage-puredisk”
$ ssh storage.fgedu.net.cn “sudo xfs_growfs /dev/mapper/storage-puredisk”

# 5. 重新启动存储设备
$ /NetBackup/app/netbackup/bin/admincmd/nbdevconfig -enable -stype PureDisk -dp PureDiskPool

# 6. 重新执行备份
$ /NetBackup/app/netbackup/bin/bpbackup -w -p TestPolicy -s “Full Backup” /NetBackup/fgdata

Backup started, job id = 12348
Waiting for job to complete…
Job 12348 completed successfully

4.2 恢复异常案例

4.2.1 案例1:恢复作业失败

# 问题:恢复作业失败

# 1. 查看作业详细信息
$ /NetBackup/app/netbackup/bin/bpjobinfo -jobid 12349 -detailed

Job ID: 12349
Status: Failed
Status Code: 2
Client: client1.fgedu.net.cn
Policy: TestPolicy
Schedule: Full Backup
Error: operation failed

# 2. 查看恢复日志
$ /NetBackup/app/netbackup/bin/admincmd/bpdbjobs -jobid 12349 -l

# 3. 验证备份数据
$ /NetBackup/app/netbackup/bin/bpimagelist -backupid client1.fgedu.net.cn_1234567890

# 4. 检查客户端磁盘空间
$ ssh client1.fgedu.net.cn “df -h”

# 5. 清理客户端磁盘空间
$ ssh client1.fgedu.net.cn “sudo rm -rf /tmp/*”

# 6. 重新执行恢复
$ /NetBackup/app/netbackup/bin/bprestore -w -C client1.fgedu.net.cn -t 0 -D / /NetBackup/fgdata/file.txt

Restore started, job id = 12350
Waiting for job to complete…
Job 12350 completed successfully

4.2.2 案例2:恢复数据不一致

# 问题:恢复的数据与备份数据不一致

# 1. 查看备份作业信息
$ /NetBackup/app/netbackup/bin/bpjobinfo -jobid 12345 -detailed

# 2. 查看恢复作业信息
$ /NetBackup/app/netbackup/bin/bpjobinfo -jobid 12350 -detailed

# 3. 验证备份数据
$ /NetBackup/app/netbackup/bin/bpimagelist -backupid client1.fgedu.net.cn_1234567890

# 4. 检查客户端文件系统
$ ssh client1.fgedu.net.cn “fsck -y /dev/sda1”

# 5. 重新执行备份和恢复
$ /NetBackup/app/netbackup/bin/bpbackup -w -p TestPolicy -s “Full Backup” /NetBackup/fgdata
$ /NetBackup/app/netbackup/bin/bprestore -w -C client1.fgedu.net.cn -t 0 -D / /NetBackup/fgdata/file.txt

# 6. 验证恢复数据
$ ssh client1.fgedu.net.cn “md5sum /NetBackup/fgdata/file.txt”

4.3 其他故障案例

4.3.1 案例1:NetBackup服务启动失败

# 问题:NetBackup服务启动失败

# 1. 检查NetBackup服务状态
$ /NetBackup/app/netbackup/bin/bp.start_all

# 2. 查看服务日志
$ tail -f /NetBackup/app/netbackup/logs/bpdbm/bpdbm.log

# 3. 检查数据库状态
$ /NetBackup/app/netbackup/bin/admincmd/nbdb_status

# 4. 启动数据库
$ /NetBackup/app/netbackup/bin/admincmd/nbdb_start

# 5. 重新启动NetBackup服务
$ /NetBackup/app/netbackup/bin/bp.start_all

# 6. 验证服务状态
$ /NetBackup/app/netbackup/bin/bpclntcmd -pn

4.3.2 案例2:策略配置错误

# 问题:备份作业失败,状态码21

# 1. 查看作业详细信息
$ /NetBackup/app/netbackup/bin/bpjobinfo -jobid 12351 -detailed

Job ID: 12351
Status: Failed
Status Code: 21
Client: client1.fgedu.net.cn
Policy: TestPolicy
Schedule: Full Backup
Error: status code does not exist

# 2. 查看策略配置
$ /NetBackup/app/netbackup/bin/admincmd/bpplinfo TestPolicy -U

# 3. 修正策略配置
$ /NetBackup/app/netbackup/bin/admincmd/bpplinfo TestPolicy -modify -client client1.fgedu.net.cn

# 4. 重新执行备份
$ /NetBackup/app/netbackup/bin/bpbackup -w -p TestPolicy -s “Full Backup” /NetBackup/fgdata

Backup started, job id = 12352
Waiting for job to complete…
Job 12352 completed successfully

生产环境建议:定期备份NetBackup配置和目录数据库,确保在故障发生时能够快速恢复。建议建立故障处理手册,记录常见故障的处理步骤和解决方案。from NetBackup视频:www.itpux.com

Part05-风哥经验总结与分享

5.1 故障预防最佳实践

NetBackup故障预防最佳实践:

  • 定期维护:定期维护NetBackup系统,包括软件更新、硬件检查等
  • 监控系统:配置监控和告警机制,及时发现异常
  • 备份测试:定期测试备份和恢复操作,确保数据可恢复性
  • 配置审查:定期审查NetBackup配置,确保配置正确
  • 容量规划:定期进行容量规划,确保存储容量充足
  • 文档记录:记录系统配置和操作,便于故障排查
  • 培训:对相关人员进行培训,提高故障处理能力

5.2 故障排查最佳实践

NetBackup故障排查最佳实践:

  • 系统分析:系统分析故障现象,确定故障范围
  • 日志分析:详细分析日志,找出故障原因
  • 工具使用:合理使用故障排查工具,提高排查效率
  • 步骤记录:记录故障排查步骤,便于后续分析
  • 测试验证:测试解决方案,确保故障得到解决
  • 总结经验:总结故障处理经验,避免类似故障再次发生

5.3 故障解决最佳实践

NetBackup故障解决最佳实践:

  • 快速响应:快速响应故障,减少故障影响
  • 优先级:根据故障影响程度确定处理优先级
  • 团队协作:加强团队协作,共同解决故障
  • 沟通:及时与相关人员沟通,确保信息透明
  • 文档:记录故障处理过程,便于后续参考
  • 预防:采取措施预防类似故障再次发生
  • 持续改进:根据故障处理经验,持续改进系统
风哥提示:NetBackup故障处理是企业数据保护的重要环节,需要系统学习故障排查和解决技能。建议建立故障处理流程和知识库,提高故障处理效率和准确性。更多视频教程www.fgedu.net.cn

持续学习:NetBackup技术不断发展,新的故障类型和解决方案不断出现。建议定期关注Veritas官方文档和技术论坛,了解最新的故障处理技术和最佳实践。

本文由风哥教程整理发布,仅用于学习测试使用,转载注明出处:http://www.fgedu.net.cn/10327.html

联系我们

在线咨询:点击这里给我发消息

微信号:itpux-com

工作日:9:30-18:30,节假日休息