1. 首页 > Hadoop教程 > 正文

大数据教程FG140-大数据集群日常维护管理实战

本教程主要介绍大数据集群日常维护管理的方法和实战技巧,包括系统维护、服务管理、数据管理等内容。风哥教程参考bigdata官方文档运维指南、管理说明等相关内容。

通过本教程的学习,您将掌握大数据集群的日常维护管理方法,确保集群的稳定运行和性能优化。

目录大纲

Part01-基础概念与理论知识

1.1 日常维护管理概述

大数据集群日常维护管理是指对集群进行定期的检查、维护和管理,确保集群的稳定运行和性能优化,主要包括:

  • 系统维护:检查和维护操作系统、硬件等基础设施
  • 服务管理:管理和监控集群服务的运行状态
  • 数据管理:管理和维护集群数据的安全性和完整性
  • 性能管理:监控和优化集群性能
  • 安全管理:确保集群的安全性

日常维护管理是大数据集群管理的重要组成部分,需要定期进行,以确保集群的稳定运行和性能优化,学习交流加群风哥微信: itpux-com

1.2 维护管理内容

维护管理内容包括:

  • 系统维护:操作系统更新、补丁安装、硬件检查等
  • 服务管理:服务启动/停止/重启、服务状态检查、服务配置调整等
  • 数据管理:数据备份、数据清理、数据迁移等
  • 性能管理:性能监控、性能调优、资源管理等
  • 安全管理:安全检查、权限管理、加密配置等
  • 日志管理:日志收集、日志分析、日志清理等

1.3 维护管理工具

常用的维护管理工具:

  • 命令行工具:如hdfs、yarn、hbase等
  • 监控工具:如Prometheus、Grafana、Zabbix等
  • 集群管理工具:如Ambari、Cloudera Manager等
  • 自动化工具:如Ansible、Puppet、Chef等
  • 日志分析工具:如ELK Stack、Graylog等

Part02-生产环境规划与建议

2.1 维护管理规划

风哥提示:维护管理规划应根据集群规模和业务需求,制定合理的维护管理计划,确保维护管理的有效性。

维护管理规划建议:

  • 维护频率:根据集群重要性,确定维护频率,如每日、每周、每月等
  • 维护内容:根据集群规模和业务需求,确定维护内容
  • 维护人员:明确维护人员和职责
  • 维护时间:选择业务低峰期进行维护,减少对业务的影响
  • 维护记录:建立维护记录机制,记录维护结果和问题

2.2 维护管理流程

维护管理流程建议:

  • 准备阶段:准备维护工具和脚本,明确维护内容和目标
  • 执行阶段:按照维护计划执行维护,收集维护数据
  • 分析阶段:分析维护数据,发现问题和异常
  • 处理阶段:处理发现的问题和异常,确保集群正常运行
  • 报告阶段:生成维护报告,记录维护结果和问题处理情况

2.3 维护管理策略

维护管理策略建议:

  • 预防为主:采取预防措施,减少故障的发生
  • 定期维护:定期进行维护,确保集群的稳定运行
  • 快速响应:及时响应和处理问题,减少问题的影响
  • 持续优化:根据维护结果,持续优化集群配置和性能
  • 文档化:记录维护过程和结果,便于后续参考

Part03-生产环境项目实施方案

3.1 系统维护

配置系统维护:

# 1. 系统维护
## 1.1 操作系统更新
yum update -y

## 1.2 补丁安装
yum install -y security-patch

## 1.3 硬件检查
lshw
smartctl -a /dev/sda

## 1.4 磁盘空间检查
df -h

## 1.5 内存使用检查
free -h

## 1.6 CPU使用检查
top

## 1.7 网络状态检查
netstat -tuln

## 1.8 系统日志检查
tail -f /var/log/messages

## 1.9 系统服务检查
systemctl status sshd
systemctl status firewalld

## 1.10 系统性能检查
vmstat
iostat
sar

3.2 服务管理

配置服务管理:

# 1. 服务管理
## 1.1 Hadoop服务管理
### 1.1.1 启动服务
start-dfs.sh
start-yarn.sh

### 1.1.2 停止服务
stop-yarn.sh
stop-dfs.sh

### 1.1.3 检查服务状态
jps
hdfs dfsadmin -report
yarn node -list

## 1.2 Hive服务管理
### 1.2.1 启动服务
hive –service metastore &
hive –service hiveserver2 &

### 1.2.2 停止服务
kill -9 $(ps aux | grep HiveMetaStore | grep -v grep | awk ‘{print $2}’)
kill -9 $(ps aux | grep HiveServer2 | grep -v grep | awk ‘{print $2}’)

### 1.2.3 检查服务状态
ps aux | grep Hive

## 1.3 Spark服务管理
### 1.3.1 启动服务
start-master.sh
start-slave.sh spark://fgedu01:7077

### 1.3.2 停止服务
stop-slave.sh
stop-master.sh

### 1.3.3 检查服务状态
jps | grep Spark

## 1.4 HBase服务管理
### 1.4.1 启动服务
start-hbase.sh

### 1.4.2 停止服务
stop-hbase.sh

### 1.4.3 检查服务状态
jps | grep HBase

## 1.5 ZooKeeper服务管理
### 1.5.1 启动服务
zkServer.sh start

### 1.5.2 停止服务
zkServer.sh stop

### 1.5.3 检查服务状态
zkServer.sh status

3.3 数据管理

配置数据管理:

# 1. 数据管理
## 1.1 数据备份
### 1.1.1 HDFS数据备份
hdfs dfs -cp /user/fgedu/data hdfs://backup-cluster/user/fgedu/backup/

### 1.1.2 HBase数据备份
hbase org.apache.hadoop.hbase.mapreduce.Export fgedu_table /user/fgedu/backup/hbase/fgedu_table

### 1.1.3 Hive数据备份
hive -e “EXPORT TABLE fgedu_db.fgedu_table TO ‘/user/fgedu/backup/hive/fgedu_table’;”

## 1.2 数据清理
### 1.2.1 HDFS数据清理
hdfs dfs -rm -r /user/fgedu/tmp/*
hdfs dfs -expunge

### 1.2.2 日志清理
rm -rf /bigdata/fgdata/logs/*

### 1.2.3 临时文件清理
rm -rf /tmp/*

## 1.3 数据迁移
### 1.3.1 HDFS数据迁移
hadoop distcp hdfs://source-cluster:8020/user/fgedu/data hdfs://target-cluster:8020/user/fgedu/data

### 1.3.2 HBase数据迁移
hbase org.apache.hadoop.hbase.mapreduce.Export fgedu_table /user/fgedu/export/fgedu_table
hbase org.apache.hadoop.hbase.mapreduce.Import fgedu_table /user/fgedu/export/fgedu_table

## 1.4 数据检查
### 1.4.1 HDFS数据检查
hdfs fsck /

### 1.4.2 HBase数据检查
hbase shell
> scan ‘fgedu_table’

### 1.4.3 Hive数据检查
hive -e “SELECT COUNT(*) FROM fgedu_db.fgedu_table;”

Part04-生产案例与实战讲解

4.1 系统维护实战

案例:系统维护

# 检查磁盘空间

$ df -h
Filesystem Size Used Avail Use% Mounted on
devtmpfs 32G 0 32G 0% /dev
tmpfs 32G 0 32G 0% /dev/shm
tmpfs 32G 8.0G 24G 25% /run
/dev/sda1 50G 10G 40G 20% /
/dev/sdb1 100G 20G 80G 20% /bigdata

# 检查内存使用情况

$ free -h
total used free shared buff/cache available
Mem: 63G 7.8G 47G 8.0G 7.8G 53G
Swap: 8.0G 0B 8.0G

# 检查CPU使用情况

$ top -b -n 1 | head -20
top – 10:00:00 up 10 days, 2:34, 2 users, load average: 0.10, 0.05, 0.01
Tasks: 200 total, 1 running, 199 sleeping, 0 stopped, 0 zombie
%Cpu(s): 5.0 us, 2.0 sy, 0.0 ni, 92.0 id, 1.0 wa, 0.0 hi, 0.0 si, 0.0 st
MiB Mem : 64288.0 total, 48288.0 free, 8000.0 used, 8000.0 buff/cache
MiB Swap: 8192.0 total, 8192.0 free, 0.0 used. 54288.0 avail Mem

PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
12345 fgedu 20 0 123456 67890 23456 S 0.0 0.1 0:00.00 java
23456 fgedu 20 0 98765 45678 12345 S 0.0 0.1 0:00.00 java
34567 fgedu 20 0 87654 34567 11234 S 0.0 0.1 0:00.00 java

# 检查网络状态

$ netstat -tuln
Active Internet connections (only servers)
Proto Recv-Q Send-Q Local Address Foreign Address State
tcp 0 0 0.0.0.0:22 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:9000 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:9870 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:8030 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:8031 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:8032 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:8033 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:8088 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:9866 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:9864 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:9868 0.0.0.0:* LISTEN

4.2 服务管理实战

案例:服务管理

# 检查Hadoop服务状态

$ jps
23456 NameNode
23678 DataNode
23890 SecondaryNameNode
24123 ResourceManager
24345 NodeManager
24567 Jps

# 检查HDFS状态

$ hdfs dfsadmin -report
Configured Capacity: 30963660800 (28.85 GB)
Present Capacity: 27867295744 (25.96 GB)
DFS Remaining: 27867293696 (25.96 GB)
DFS Used: 2048 (2 KB)
DFS Used%: 0.00%
Under replicated blocks: 0
Blocks with corrupt replicas: 0
Missing blocks: 0
Missing blocks (with replication factor 1): 0

Live datanodes (3):

Name: 192.168.1.10:9866 (fgedu01)
Hostname: fgedu01
Decommission Status : Normal
Configured Capacity: 10321220266 (9.62 GB)
DFS Used: 683 (683 B)
Non DFS Used: 1032122026 (984 MB)
DFS Remaining: 9289100557 (8.65 GB)
DFS Used%: 0.00%
DFS Remaining%: 90.00%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Mon Apr 08 10:00:00 CST 2026

Name: 192.168.1.11:9866 (fgedu02)
Hostname: fgedu02
Decommission Status : Normal
Configured Capacity: 10321220266 (9.62 GB)
DFS Used: 682 (682 B)
Non DFS Used: 1032122026 (984 MB)
DFS Remaining: 9289100558 (8.65 GB)
DFS Used%: 0.00%
DFS Remaining%: 90.00%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Mon Apr 08 10:00:00 CST 2026

Name: 192.168.1.12:9866 (fgedu03)
Hostname: fgedu03
Decommission Status : Normal
Configured Capacity: 10321220266 (9.62 GB)
DFS Used: 683 (683 B)
Non DFS Used: 1032122026 (984 MB)
DFS Remaining: 9289100557 (8.65 GB)
DFS Used%: 0.00%
DFS Remaining%: 90.00%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Mon Apr 08 10:00:00 CST 2026

# 检查YARN状态

$ yarn node -list
Total Nodes:3
Node-Id Node-State Node-Http-Address Number-of-Running-Containers
fgedu01:45454 RUNNING fgedu01:8042 0
fgedu02:45454 RUNNING fgedu02:8042 0
fgedu03:45454 RUNNING fgedu03:8042 0

# 重启Hadoop服务

$ stop-yarn.sh
Stopping nodemanagers
Stopping resourcemanager
$ stop-dfs.sh
Stopping namenodes on [fgedu01]
Stopping datanodes
Stopping secondary namenodes [fgedu01]
$ start-dfs.sh
Starting namenodes on [fgedu01]
Starting datanodes
Starting secondary namenodes [fgedu01]
$ start-yarn.sh
Starting resourcemanager
Starting nodemanagers

4.3 数据管理实战

案例:数据管理

# 备份HDFS数据

$ hdfs dfs -cp /user/fgedu/data hdfs://backup-cluster/user/fgedu/backup/
10:00:00 INFO tools.DistCp: DistCp job-id: job_1234567890_0001
10:00:00 INFO tools.DistCp: Successfully copied 10 files (50 GB) in 300 seconds

# 清理HDFS临时数据

$ hdfs dfs -rm -r /user/fgedu/tmp/*
Deleted /user/fgedu/tmp/file1.txt
Deleted /user/fgedu/tmp/file2.txt
Deleted /user/fgedu/tmp/file3.txt

# 清理HDFS回收站

$ hdfs dfs -expunge
10:00:00 INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval = 0 minutes,
Emptier interval = 0 minutes.
10:00:00 INFO fs.TrashPolicyDefault: Trash expunge started
10:00:00 INFO fs.TrashPolicyDefault: Trash expunge completed

# 检查HDFS数据完整性

$ hdfs fsck /
Connecting to namenode via http://fgedu01:9870/fsck?ugi=fgedu&path=%2F
FSCK started by fgedu (auth:SIMPLE) from /192.168.1.10 for path / at Mon Apr 08 10:00:00 CST 2026
……………………………………………………………………………………….
……………………………………………………………………………………….
……………………………………………………………………………………….
Status: HEALTHY
Total size: 1342177280 B
Total dirs: 100
Total files: 1000
Total symlinks: 0
Total blocks (validated): 1000 (avg. block size 1342177 B)
Minimally replicated blocks: 1000 (100.0 %)
Over-replicated blocks: 0 (0.0 %)
Under-replicated blocks: 0 (0.0 %)
Mis-replicated blocks: 0 (0.0 %)
Default replication factor: 3
Average block replication: 3.0
Corrupt blocks: 0
Missing replicas: 0 (0.0 %)
Number of data-nodes: 3
Number of racks: 1
FSCK ended at Mon Apr 08 10:00:00 CST 2026 in 10 seconds

The filesystem under path ‘/’ is HEALTHY

Part05-风哥经验总结与分享

5.1 常见问题解决方案

常见问题解决方案:

  • 磁盘空间不足:清理不必要的文件,增加磁盘空间,优化存储策略
  • 内存不足:调整内存配置,增加内存资源,优化内存使用
  • 服务启动失败:检查配置文件,查看日志,修复服务故障
  • 数据丢失:使用备份恢复数据,检查数据块状态,调整副本数
  • 性能下降:分析性能瓶颈,优化配置,调整资源分配
  • 网络故障:检查网络连接,检查防火墙,检查网络设备

5.2 最佳实践分享

风哥提示:在日常维护管理过程中,应注重预防为主,定期进行维护,及时发现和处理问题,确保集群的稳定运行。

最佳实践分享:

  • 建立维护计划:制定详细的维护计划,确保维护的全面性和及时性
  • 使用自动化工具:编写自动化脚本,提高维护效率
  • 建立监控告警机制:及时发现和处理问题
  • 定期备份数据:防止数据丢失
  • 持续优化:根据维护结果,持续优化集群配置和性能
  • 文档化:记录维护过程和结果,便于后续参考

5.3 维护管理建议

维护管理建议:

  • 定期维护:根据集群规模和业务需求,定期进行维护
  • 全面检查:检查系统、服务、数据等多个方面
  • 及时处理:发现问题后及时处理,避免问题扩大
  • 持续学习:不断学习维护管理技术,提高维护管理能力
  • 团队协作:组织专业团队,共同进行维护管理
  • 培训学习:加强团队培训,提高维护管理技能
  • 更多视频教程www.fgedu.net.cn

通过本教程的学习,您已经掌握了大数据集群日常维护管理的方法和实战技巧。在实际生产环境中,应根据集群规模和业务需求,制定合理的维护管理计划,定期进行维护,及时发现和处理问题,确保集群的稳定运行和性能优化。学习交流加群风哥QQ113257174

更多学习教程公众号风哥教程itpux_com

from bigdata视频:www.itpux.com

本文由风哥教程整理发布,仅用于学习测试使用,转载注明出处:http://www.fgedu.net.cn/10327.html

联系我们

在线咨询:点击这里给我发消息

微信号:itpux-com

工作日:9:30-18:30,节假日休息