大数据教程FG140-大数据集群日常维护管理实战

本教程主要介绍大数据集群日常维护管理的方法和实战技巧，包括系统维护、服务管理、数据管理等内容。风哥教程参考bigdata官方文档运维指南、管理说明等相关内容。

通过本教程的学习，您将掌握大数据集群的日常维护管理方法，确保集群的稳定运行和性能优化。

目录大纲

Part01-基础概念与理论知识
Part02-生产环境规划与建议
Part03-生产环境项目实施方案
Part04-生产案例与实战讲解
Part05-风哥经验总结与分享

Part01-基础概念与理论知识

1.1 日常维护管理概述

大数据集群日常维护管理是指对集群进行定期的检查、维护和管理，确保集群的稳定运行和性能优化，主要包括：

系统维护：检查和维护操作系统、硬件等基础设施
服务管理：管理和监控集群服务的运行状态
数据管理：管理和维护集群数据的安全性和完整性
性能管理：监控和优化集群性能
安全管理：确保集群的安全性

日常维护管理是大数据集群管理的重要组成部分，需要定期进行，以确保集群的稳定运行和性能优化，学习交流加群风哥微信: itpux-com

1.2 维护管理内容

维护管理内容包括：

系统维护：操作系统更新、补丁安装、硬件检查等
服务管理：服务启动/停止/重启、服务状态检查、服务配置调整等
数据管理：数据备份、数据清理、数据迁移等
性能管理：性能监控、性能调优、资源管理等
安全管理：安全检查、权限管理、加密配置等
日志管理：日志收集、日志分析、日志清理等

1.3 维护管理工具

常用的维护管理工具：

命令行工具：如hdfs、yarn、hbase等
监控工具：如Prometheus、Grafana、Zabbix等
集群管理工具：如Ambari、Cloudera Manager等
自动化工具：如Ansible、Puppet、Chef等
日志分析工具：如ELK Stack、Graylog等

Part02-生产环境规划与建议

2.1 维护管理规划

风哥提示：维护管理规划应根据集群规模和业务需求，制定合理的维护管理计划，确保维护管理的有效性。

维护管理规划建议：

维护频率：根据集群重要性，确定维护频率，如每日、每周、每月等
维护内容：根据集群规模和业务需求，确定维护内容
维护人员：明确维护人员和职责
维护时间：选择业务低峰期进行维护，减少对业务的影响
维护记录：建立维护记录机制，记录维护结果和问题

2.2 维护管理流程

维护管理流程建议：

准备阶段：准备维护工具和脚本，明确维护内容和目标
执行阶段：按照维护计划执行维护，收集维护数据
分析阶段：分析维护数据，发现问题和异常
处理阶段：处理发现的问题和异常，确保集群正常运行
报告阶段：生成维护报告，记录维护结果和问题处理情况

2.3 维护管理策略

维护管理策略建议：

预防为主：采取预防措施，减少故障的发生
定期维护：定期进行维护，确保集群的稳定运行
快速响应：及时响应和处理问题，减少问题的影响
持续优化：根据维护结果，持续优化集群配置和性能
文档化：记录维护过程和结果，便于后续参考

Part03-生产环境项目实施方案

3.1 系统维护

配置系统维护：

# 1. 系统维护
## 1.1 操作系统更新
yum update -y

## 1.2 补丁安装
yum install -y security-patch

## 1.3 硬件检查
lshw
smartctl -a /dev/sda

## 1.4 磁盘空间检查
df -h

## 1.5 内存使用检查
free -h

## 1.6 CPU使用检查
top

## 1.7 网络状态检查
netstat -tuln

## 1.8 系统日志检查
tail -f /var/log/messages

## 1.9 系统服务检查
systemctl status sshd
systemctl status firewalld

## 1.10 系统性能检查
vmstat
iostat
sar

3.2 服务管理

配置服务管理：

# 1. 服务管理
## 1.1 Hadoop服务管理
### 1.1.1 启动服务
start-dfs.sh
start-yarn.sh

### 1.1.2 停止服务
stop-yarn.sh
stop-dfs.sh

### 1.1.3 检查服务状态
jps
hdfs dfsadmin -report
yarn node -list

## 1.2 Hive服务管理
### 1.2.1 启动服务
hive –service metastore &
hive –service hiveserver2 &

### 1.2.2 停止服务
kill -9 $(ps aux | grep HiveMetaStore | grep -v grep | awk ‘{print $2}’)
kill -9 $(ps aux | grep HiveServer2 | grep -v grep | awk ‘{print $2}’)

### 1.2.3 检查服务状态
ps aux | grep Hive

## 1.3 Spark服务管理
### 1.3.1 启动服务
start-master.sh
start-slave.sh spark://fgedu01:7077

### 1.3.2 停止服务
stop-slave.sh
stop-master.sh

### 1.3.3 检查服务状态
jps | grep Spark

## 1.4 HBase服务管理
### 1.4.1 启动服务
start-hbase.sh

### 1.4.2 停止服务
stop-hbase.sh

### 1.4.3 检查服务状态
jps | grep HBase

## 1.5 ZooKeeper服务管理
### 1.5.1 启动服务
zkServer.sh start

### 1.5.2 停止服务
zkServer.sh stop

### 1.5.3 检查服务状态
zkServer.sh status

3.3 数据管理

配置数据管理：

# 1. 数据管理
## 1.1 数据备份
### 1.1.1 HDFS数据备份
hdfs dfs -cp /user/fgedu/data hdfs://backup-cluster/user/fgedu/backup/

### 1.1.2 HBase数据备份
hbase org.apache.hadoop.hbase.mapreduce.Export fgedu_table /user/fgedu/backup/hbase/fgedu_table

### 1.1.3 Hive数据备份
hive -e “EXPORT TABLE fgedu_db.fgedu_table TO ‘/user/fgedu/backup/hive/fgedu_table’;”

## 1.2 数据清理
### 1.2.1 HDFS数据清理
hdfs dfs -rm -r /user/fgedu/tmp/*
hdfs dfs -expunge

### 1.2.2 日志清理
rm -rf /bigdata/fgdata/logs/*

### 1.2.3 临时文件清理
rm -rf /tmp/*

## 1.3 数据迁移
### 1.3.1 HDFS数据迁移
hadoop distcp hdfs://source-cluster:8020/user/fgedu/data hdfs://target-cluster:8020/user/fgedu/data

### 1.3.2 HBase数据迁移
hbase org.apache.hadoop.hbase.mapreduce.Export fgedu_table /user/fgedu/export/fgedu_table
hbase org.apache.hadoop.hbase.mapreduce.Import fgedu_table /user/fgedu/export/fgedu_table

## 1.4 数据检查
### 1.4.1 HDFS数据检查
hdfs fsck /

### 1.4.2 HBase数据检查
hbase shell
> scan ‘fgedu_table’

### 1.4.3 Hive数据检查
hive -e “SELECT COUNT(*) FROM fgedu_db.fgedu_table;”

Part04-生产案例与实战讲解

4.1 系统维护实战

案例：系统维护

# 检查磁盘空间

$ df -h
Filesystem Size Used Avail Use% Mounted on
devtmpfs 32G 0 32G 0% /dev
tmpfs 32G 0 32G 0% /dev/shm
tmpfs 32G 8.0G 24G 25% /run
/dev/sda1 50G 10G 40G 20% /
/dev/sdb1 100G 20G 80G 20% /bigdata

# 检查内存使用情况

$ free -h
total used free shared buff/cache available
Mem: 63G 7.8G 47G 8.0G 7.8G 53G
Swap: 8.0G 0B 8.0G

# 检查CPU使用情况

$ top -b -n 1 | head -20
top – 10:00:00 up 10 days, 2:34, 2 users, load average: 0.10, 0.05, 0.01
Tasks: 200 total, 1 running, 199 sleeping, 0 stopped, 0 zombie
%Cpu(s): 5.0 us, 2.0 sy, 0.0 ni, 92.0 id, 1.0 wa, 0.0 hi, 0.0 si, 0.0 st
MiB Mem : 64288.0 total, 48288.0 free, 8000.0 used, 8000.0 buff/cache
MiB Swap: 8192.0 total, 8192.0 free, 0.0 used. 54288.0 avail Mem

PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
12345 fgedu 20 0 123456 67890 23456 S 0.0 0.1 0:00.00 java
23456 fgedu 20 0 98765 45678 12345 S 0.0 0.1 0:00.00 java
34567 fgedu 20 0 87654 34567 11234 S 0.0 0.1 0:00.00 java

# 检查网络状态

$ netstat -tuln
Active Internet connections (only servers)
Proto Recv-Q Send-Q Local Address Foreign Address State
tcp 0 0 0.0.0.0:22 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:9000 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:9870 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:8030 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:8031 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:8032 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:8033 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:8088 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:9866 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:9864 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:9868 0.0.0.0:* LISTEN

4.2 服务管理实战

案例：服务管理

# 检查Hadoop服务状态

$ jps
23456 NameNode
23678 DataNode
23890 SecondaryNameNode
24123 ResourceManager
24345 NodeManager
24567 Jps

# 检查HDFS状态

$ hdfs dfsadmin -report
Configured Capacity: 30963660800 (28.85 GB)
Present Capacity: 27867295744 (25.96 GB)
DFS Remaining: 27867293696 (25.96 GB)
DFS Used: 2048 (2 KB)
DFS Used%: 0.00%
Under replicated blocks: 0
Blocks with corrupt replicas: 0
Missing blocks: 0
Missing blocks (with replication factor 1): 0

Live datanodes (3):

Name: 192.168.1.10:9866 (fgedu01)
Hostname: fgedu01
Decommission Status : Normal
Configured Capacity: 10321220266 (9.62 GB)
DFS Used: 683 (683 B)
Non DFS Used: 1032122026 (984 MB)
DFS Remaining: 9289100557 (8.65 GB)
DFS Used%: 0.00%
DFS Remaining%: 90.00%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Mon Apr 08 10:00:00 CST 2026

Name: 192.168.1.11:9866 (fgedu02)
Hostname: fgedu02
Decommission Status : Normal
Configured Capacity: 10321220266 (9.62 GB)
DFS Used: 682 (682 B)
Non DFS Used: 1032122026 (984 MB)
DFS Remaining: 9289100558 (8.65 GB)
DFS Used%: 0.00%
DFS Remaining%: 90.00%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Mon Apr 08 10:00:00 CST 2026

Name: 192.168.1.12:9866 (fgedu03)
Hostname: fgedu03
Decommission Status : Normal
Configured Capacity: 10321220266 (9.62 GB)
DFS Used: 683 (683 B)
Non DFS Used: 1032122026 (984 MB)
DFS Remaining: 9289100557 (8.65 GB)
DFS Used%: 0.00%
DFS Remaining%: 90.00%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Mon Apr 08 10:00:00 CST 2026

# 检查YARN状态

$ yarn node -list
Total Nodes:3
Node-Id Node-State Node-Http-Address Number-of-Running-Containers
fgedu01:45454 RUNNING fgedu01:8042 0
fgedu02:45454 RUNNING fgedu02:8042 0
fgedu03:45454 RUNNING fgedu03:8042 0

# 重启Hadoop服务

$ stop-yarn.sh
Stopping nodemanagers
Stopping resourcemanager
$ stop-dfs.sh
Stopping namenodes on [fgedu01]
Stopping datanodes
Stopping secondary namenodes [fgedu01]
$ start-dfs.sh
Starting namenodes on [fgedu01]
Starting datanodes
Starting secondary namenodes [fgedu01]
$ start-yarn.sh
Starting resourcemanager
Starting nodemanagers

4.3 数据管理实战

案例：数据管理

# 备份HDFS数据

$ hdfs dfs -cp /user/fgedu/data hdfs://backup-cluster/user/fgedu/backup/
10:00:00 INFO tools.DistCp: DistCp job-id: job_1234567890_0001
10:00:00 INFO tools.DistCp: Successfully copied 10 files (50 GB) in 300 seconds

# 清理HDFS临时数据

$ hdfs dfs -rm -r /user/fgedu/tmp/*
Deleted /user/fgedu/tmp/file1.txt
Deleted /user/fgedu/tmp/file2.txt
Deleted /user/fgedu/tmp/file3.txt

# 清理HDFS回收站

$ hdfs dfs -expunge
10:00:00 INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval = 0 minutes,
Emptier interval = 0 minutes.
10:00:00 INFO fs.TrashPolicyDefault: Trash expunge started
10:00:00 INFO fs.TrashPolicyDefault: Trash expunge completed

# 检查HDFS数据完整性

$ hdfs fsck /
Connecting to namenode via http://fgedu01:9870/fsck?ugi=fgedu&path=%2F
FSCK started by fgedu (auth:SIMPLE) from /192.168.1.10 for path / at Mon Apr 08 10:00:00 CST 2026
……………………………………………………………………………………….
……………………………………………………………………………………….
……………………………………………………………………………………….
Status: HEALTHY
Total size: 1342177280 B
Total dirs: 100
Total files: 1000
Total symlinks: 0
Total blocks (validated): 1000 (avg. block size 1342177 B)
Minimally replicated blocks: 1000 (100.0 %)
Over-replicated blocks: 0 (0.0 %)
Under-replicated blocks: 0 (0.0 %)
Mis-replicated blocks: 0 (0.0 %)
Default replication factor: 3
Average block replication: 3.0
Corrupt blocks: 0
Missing replicas: 0 (0.0 %)
Number of data-nodes: 3
Number of racks: 1
FSCK ended at Mon Apr 08 10:00:00 CST 2026 in 10 seconds

The filesystem under path ‘/’ is HEALTHY

Part05-风哥经验总结与分享

5.1 常见问题解决方案

常见问题解决方案：

磁盘空间不足：清理不必要的文件，增加磁盘空间，优化存储策略
内存不足：调整内存配置，增加内存资源，优化内存使用
服务启动失败：检查配置文件，查看日志，修复服务故障
数据丢失：使用备份恢复数据，检查数据块状态，调整副本数
性能下降：分析性能瓶颈，优化配置，调整资源分配
网络故障：检查网络连接，检查防火墙，检查网络设备

5.2 最佳实践分享

风哥提示：在日常维护管理过程中，应注重预防为主，定期进行维护，及时发现和处理问题，确保集群的稳定运行。

最佳实践分享：

建立维护计划：制定详细的维护计划，确保维护的全面性和及时性
使用自动化工具：编写自动化脚本，提高维护效率
建立监控告警机制：及时发现和处理问题
定期备份数据：防止数据丢失
持续优化：根据维护结果，持续优化集群配置和性能
文档化：记录维护过程和结果，便于后续参考

5.3 维护管理建议

维护管理建议：

定期维护：根据集群规模和业务需求，定期进行维护
全面检查：检查系统、服务、数据等多个方面
及时处理：发现问题后及时处理，避免问题扩大
持续学习：不断学习维护管理技术，提高维护管理能力
团队协作：组织专业团队，共同进行维护管理
培训学习：加强团队培训，提高维护管理技能
更多视频教程www.fgedu.net.cn

通过本教程的学习，您已经掌握了大数据集群日常维护管理的方法和实战技巧。在实际生产环境中，应根据集群规模和业务需求，制定合理的维护管理计划，定期进行维护，及时发现和处理问题，确保集群的稳定运行和性能优化。学习交流加群风哥QQ113257174

更多学习教程公众号风哥教程itpux_com

from bigdata视频:www.itpux.com

本文由风哥教程整理发布,仅用于学习测试使用,转载注明出处:http://www.fgedu.net.cn/10327.html