1. 首页 > IT综合教程 > 正文

IT教程FG204-NBU备份系统性能监控与优化

1. 性能监控基础

性能监控是NBU备份系统运维的重要组成部分,通过监控可以及时发现性能瓶颈,确保备份系统的高效运行。更多学习教程www.fgedu.net.cn

1.1 监控目标

性能监控的主要目标包括:

  • 监控备份作业的执行时间和成功率
  • 监控存储设备的使用情况和性能
  • 监控NBU服务的运行状态
  • 监控网络带宽的使用情况
  • 监控系统资源的使用情况

1.2 监控层次

NBU备份系统的性能监控可以分为以下几个层次:

  • 系统层:监控服务器的CPU、内存、磁盘I/O等资源
  • 网络层:监控网络带宽、延迟、丢包率等
  • 应用层:监控NBU服务的运行状态和性能
  • 存储层:监控存储设备的使用情况和性能
# 检查系统资源使用情况
# top -b -n 1 | head -20
top – 10:00:00 up 10 days, 2:34, 1 user, load average: 0.50, 0.45, 0.40
Tasks: 200 total, 1 running, 199 sleeping, 0 stopped, 0 zombie
%Cpu(s): 5.0 us, 2.0 sy, 0.0 ni, 92.0 id, 1.0 wa, 0.0 hi, 0.0 si, 0.0 st
KiB Mem : 32768000 total, 20480000 free, 8192000 used, 4096000 buff/cache
KiB Swap: 16384000 total, 16384000 free, 0 used. 23552000 avail Mem

PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
1234 root 20 0 100000 50000 20000 S 5.0 0.2 1:00.00 bpdbm
5678 root 20 0 150000 80000 30000 S 3.0 0.2 0:30.00 bprd
9012 root 20 0 200000 100000 40000 S 2.0 0.3 0:15.00 nbmm

2. 性能指标分析

分析NBU备份系统的性能指标是优化系统的前提,以下是关键的性能指标:

2.1 备份作业性能指标

# 查看备份作业性能统计
# /usr/openv/netbackup/bin/admincmd/bpdbjobs -report -summary

Job Summary Report
=================

Total Jobs: 100
Successful Jobs: 95
Failed Jobs: 5

Average Backup Rate: 150 MB/s
Average Restore Rate: 200 MB/s
Average Job Duration: 30 minutes

Top 5 Slowest Jobs:
Job ID Type Policy Client Duration Rate
——————————————–
12345 BACKUP Oracle oracle1 2:30:00 50 MB/s
12346 BACKUP SQL sql1 1:45:00 80 MB/s
12347 BACKUP File client1 1:30:00 100 MB/s
12348 BACKUP Oracle oracle2 1:15:00 70 MB/s
12349 BACKUP File client2 1:00:00 120 MB/s

2.2 存储设备性能指标

# 查看存储设备状态
# /usr/openv/volmgr/bin/vmoprcmd -d list

Device Name Type State Media Id Vol Ses Label
—————————————————————-
/dev/nst0 TAPE UP A00001 0 0 LTO8_001
/dev/nst1 TAPE UP A00002 0 0 LTO8_002
/storage/disk1 DISK UP DISK001 0 0 Disk_Pool_01
/storage/disk2 DISK UP DISK002 0 0 Disk_Pool_02

# 查看存储设备性能
# /usr/openv/netbackup/bin/admincmd/nbdevquery -listdp -dp Disk_Pool_01 -detail

Disk Pool: Disk_Pool_01
Storage Server: master_server
Media Server: master_server
Total Capacity: 10000 GB
Used Capacity: 6000 GB
Free Capacity: 4000 GB
Read Rate: 200 MB/s
Write Rate: 150 MB/s

2.3 网络性能指标

# 测试网络带宽
# iperf3 -c client1 -t 10
Connecting to host client1, port 5201
[ 5] local 192.168.1.1 port 50000 connected to 192.168.1.10 port 5201
[ ID] Interval Transfer Bitrate Retr Cwnd
[ 5] 0.00-1.00 sec 112 MBytes 941 Mbits/sec 0 1.22 MBytes
[ 5] 1.00-2.00 sec 112 MBytes 941 Mbits/sec 0 1.22 MBytes
[ 5] 2.00-3.00 sec 112 MBytes 941 Mbits/sec 0 1.22 MBytes
[ 5] 3.00-4.00 sec 112 MBytes 941 Mbits/sec 0 1.22 MBytes
[ 5] 4.00-5.00 sec 112 MBytes 941 Mbits/sec 0 1.22 MBytes
[ 5] 5.00-6.00 sec 112 MBytes 941 Mbits/sec 0 1.22 MBytes
[ 5] 6.00-7.00 sec 112 MBytes 941 Mbits/sec 0 1.22 MBytes
[ 5] 7.00-8.00 sec 112 MBytes 941 Mbits/sec 0 1.22 MBytes
[ 5] 8.00-9.00 sec 112 MBytes 941 Mbits/sec 0 1.22 MBytes
[ 5] 9.00-10.00 sec 112 MBytes 941 Mbits/sec 0 1.22 MBytes
– – – – – – – – – – – – – – – – – – – – – – – – –
[ ID] Interval Transfer Bitrate Retr
[ 5] 0.00-10.00 sec 1.10 GBytes 941 Mbits/sec 0 sender
[ 5] 0.00-10.00 sec 1.10 GBytes 941 Mbits/sec receiver

# 查看网络连接状态
# netstat -ant | grep 13782 | wc -l
10

3. 性能优化策略

针对NBU备份系统的性能问题,可以采取以下优化策略:

3.1 存储优化

# 配置存储单元的并发度
# /usr/openv/netbackup/bin/admincmd/nbdevconfig -changestorageunit -storageunit SU1 -max concurrent_jobs 10

# 配置磁盘池的属性
# /usr/openv/netbackup/bin/admincmd/nbdevconfig -changedp -dp Disk_Pool_01 -property MaxIOStreams=8

# 启用存储生命周期策略
# /usr/openv/netbackup/bin/admincmd/nbstl

# 配置数据 deduplication
# /usr/openv/netbackup/bin/admincmd/nbdevconfig -changedp -dp Disk_Pool_01 -property Deduplication=Yes

3.2 备份策略优化

# 配置备份策略的多流
# /usr/openv/netbackup/bin/admincmd/bppllist Policy1 -U | grep -i stream

# 修改备份策略的多流设置
# /usr/openv/netbackup/bin/admincmd/bpplclients Policy1 -add -client client1 -stream 4

# 配置备份窗口
# /usr/openv/netbackup/bin/admincmd/bpplsched Policy1 -modify -schedtype FULL -starttime 22:00 -duration 480

# 启用 Accelerator 功能
# /usr/openv/netbackup/bin/admincmd/bpplinclude Policy1 -add -include /data -accelerator yes

3.3 网络优化

# 配置网络带宽限制
# /usr/openv/netbackup/bin/admincmd/nbsetconfig
Enter the following:
NET_BUFFER_SZ = 65536

# 配置多网卡绑定
# vi /etc/modprobe.d/bonding.conf
options bonding mode=4 miimon=100

# 配置网络接口MTU
# ifconfig eth0 mtu 9000

# 启用 jumbo frames
# ethtool -s eth0 mtu 9000

3.4 系统优化

# 调整系统内核参数
# vi /etc/sysctl.conf
net.core.rmem_max = 4194304
net.core.wmem_max = 1048576
net.ipv4.tcp_mem = 10240 87380 16777216

# 调整文件描述符限制
# vi /etc/security/limits.conf
* soft nofile 65536
* hard nofile 65536

# 调整NBU服务的内存限制
# vi /usr/openv/netbackup/bp.conf
BPDBM_CLIENT_MAX_CONNECTIONS = 100

4. 监控工具和方法

NBU备份系统提供了多种监控工具和方法,以下是常用的监控工具:

4.1 NBU内置监控工具

# 使用NBU管理控制台监控
# /usr/openv/netbackup/bin/jnbSA &

# 使用nbperfchk工具检查性能
# /usr/openv/netbackup/bin/admincmd/nbperfchk

# 查看性能报告
# /usr/openv/netbackup/bin/admincmd/bpdbjobs -report -summary

# 监控存储设备
# /usr/openv/volmgr/bin/vmoprcmd -d list

4.2 第三方监控工具

# 使用Nagios监控NBU
# vi /etc/nagios/plugins/check_nbu.sh

#!/bin/bash
# Check NBU service status
STATUS=$(/usr/openv/netbackup/bin/bpclntcmd -pn | grep -c “client_name”)
if [ $STATUS -eq 0 ]; then
echo “CRITICAL – NBU service is not running”
exit 2
else
echo “OK – NBU service is running”
exit 0
fi

# 使用Zabbix监控NBU
# 创建Zabbix监控项,使用自定义脚本获取NBU状态

# 使用Prometheus监控NBU
# 配置Prometheus exporter采集NBU metrics

4.3 日志分析

# 分析NBU作业日志
# grep “throughput” /usr/openv/netbackup/logs/bpbrm/log.*

# 分析NBU服务日志
# tail -50 /usr/openv/netbackup/logs/nbmaster/log.1

# 分析存储设备日志
# tail -50 /usr/openv/volmgr/logs/daemon.log

# 使用ELK Stack分析NBU日志
# 配置Filebeat收集NBU日志,发送到Elasticsearch

5. 性能优化案例

以下是几个NBU备份系统性能优化的实际案例:

5.1 案例一:备份速度慢优化

问题现象:Oracle数据库备份速度仅为50 MB/s,远低于预期。

排查步骤:

# 1. 检查备份作业详情
# /usr/openv/netbackup/bin/bpdbjobs -jobid 12345 -details

# 2. 检查存储设备性能
# /usr/openv/netbackup/bin/admincmd/nbdevquery -listdp -dp Disk_Pool_01 -detail

# 3. 检查网络带宽
# iperf3 -c oracle1 -t 10

# 4. 检查备份策略配置
# /usr/openv/netbackup/bin/admincmd/bppllist Oracle_Policy -U

解决方案:

  • 启用多流备份,将备份流从1增加到4
  • 启用Accelerator功能,减少需要备份的数据量
  • 调整存储单元的并发度,从2增加到8
# 实施优化
# /usr/openv/netbackup/bin/admincmd/bpplclients Oracle_Policy -add -client oracle1 -stream 4
# /usr/openv/netbackup/bin/admincmd/bpplinclude Oracle_Policy -add -include /oracle -accelerator yes
# /usr/openv/netbackup/bin/admincmd/nbdevconfig -changestorageunit SU1 -max concurrent_jobs 8

# 验证优化效果
# /usr/openv/netbackup/bin/bpdbjobs -jobid 12350 -details
Job ID: 12350
Job Type: BACKUP
Policy: Oracle_Policy
Client: oracle1
State: EXIT STATUS 0
Start time: 2023-03-31 22:00:00
End time: 2023-03-31 22:30:00
Status: the requested operation was successfully completed
Throughput: 200 MB/s

5.2 案例二:存储容量不足优化

问题现象:磁盘池容量使用率达到90%,备份作业开始失败。

排查步骤:

# 1. 检查磁盘池状态
# /usr/openv/netbackup/bin/admincmd/nbdevquery -listdp -dp Disk_Pool_01 -detail

# 2. 检查备份映像
# /usr/openv/netbackup/bin/bpimagelist -dp Disk_Pool_01 -l | wc -l

# 3. 检查备份策略的保留期限
# /usr/openv/netbackup/bin/admincmd/bppllist -U | grep -i retention

解决方案:

  • 启用数据 deduplication,减少存储占用
  • 调整备份策略的保留期限,从30天减少到14天
  • 配置存储生命周期策略,将老数据迁移到磁带
# 实施优化
# /usr/openv/netbackup/bin/admincmd/nbdevconfig -changedp -dp Disk_Pool_01 -property Deduplication=Yes
# /usr/openv/netbackup/bin/admincmd/bpplsched Policy1 -modify -schedtype FULL -retention 14
# /usr/openv/netbackup/bin/admincmd/nbstl

# 验证优化效果
# /usr/openv/netbackup/bin/admincmd/nbdevquery -listdp -dp Disk_Pool_01 -detail
Disk Pool: Disk_Pool_01
Total Capacity: 10000 GB
Used Capacity: 4000 GB
Free Capacity: 6000 GB

5.3 案例三:网络瓶颈优化

问题现象:跨网段备份速度慢,仅为10 MB/s。

排查步骤:

# 1. 测试网络带宽
# iperf3 -c remote_client -t 10

# 2. 检查网络配置
# ifconfig

# 3. 检查NBU网络配置
# cat /usr/openv/netbackup/bp.conf | grep -i net

解决方案:

  • 启用 jumbo frames,将MTU从1500调整到9000
  • 配置网络带宽限制,增加NET_BUFFER_SZ值
  • 使用专用备份网络,避免与生产网络冲突
# 实施优化
# ifconfig eth1 mtu 9000
# /usr/openv/netbackup/bin/admincmd/nbsetconfig
Enter the following:
NET_BUFFER_SZ = 65536

# 验证优化效果
# iperf3 -c remote_client -t 10
Connecting to host remote_client, port 5201
[ 5] local 192.168.1.1 port 50000 connected to 192.168.2.10 port 5201
[ ID] Interval Transfer Bitrate Retr Cwnd
[ 5] 0.00-10.00 sec 1.10 GBytes 941 Mbits/sec 0 sender
[ 5] 0.00-10.00 sec 1.10 GBytes 941 Mbits/sec receiver

生产环境风哥建议:定期进行性能评估,根据业务需求和系统状态调整优化策略,确保备份系统的高效运行。

风哥风哥提示:性能优化是一个持续的过程,需要根据系统的实际情况不断调整和完善,以达到最佳的备份性能。

本文由风哥教程整理发布,仅用于学习测试使用,转载注明出处:http://www.fgedu.net.cn/10327.html

联系我们

在线咨询:点击这里给我发消息

微信号:itpux-com

工作日:9:30-18:30,节假日休息