本教程主要介绍大数据集群日常巡检与健康检查的方法和实战技巧,包括系统状态检查、服务状态检查、性能检查等内容。风哥教程参考bigdata官方文档运维指南、监控说明等相关内容。
通过本教程的学习,您将掌握大数据集群的日常巡检和健康检查方法,确保集群的稳定运行和性能优化。
目录大纲
Part01-基础概念与理论知识
1.1 日常巡检概述
大数据集群日常巡检是指对集群进行定期检查,以确保集群的稳定运行和性能优化,主要包括:
- 系统状态检查:检查服务器的CPU、内存、磁盘、网络等资源使用情况
- 服务状态检查:检查Hadoop、Hive、Spark等服务的运行状态
- 性能检查:检查集群的性能指标,如作业执行时间、吞吐量等
- 安全检查:检查集群的安全状态,防止安全漏洞
- 故障排查:发现并解决潜在的故障和问题
日常巡检是大数据集群管理的重要组成部分,需要定期进行,以确保集群的稳定运行,学习交流加群风哥微信: itpux-com
1.2 健康检查内容
健康检查内容包括:
- 硬件健康:检查服务器硬件状态,如CPU、内存、磁盘、电源等
- 系统健康:检查操作系统状态,如进程、服务、网络等
- 集群健康:检查集群状态,如节点状态、服务状态等
- 数据健康:检查数据状态,如数据完整性、数据一致性等
- 性能健康:检查集群性能,如响应时间、吞吐量等
- 安全健康:检查集群安全状态,如权限、认证、加密等
1.3 巡检工具
常用的巡检工具:
- 命令行工具:如top、free、df、netstat等
- 监控工具:如Prometheus、Grafana、Zabbix等
- 集群管理工具:如Ambari、Cloudera Manager等
- 日志分析工具:如ELK Stack、Graylog等
- 自动化脚本:如Shell脚本、Python脚本等
Part02-生产环境规划与建议
2.1 巡检计划制定
风哥提示:巡检计划制定应根据集群规模和业务需求,制定合理的巡检计划,确保巡检的全面性和及时性。
巡检计划制定建议:
- 巡检频率:根据集群重要性,确定巡检频率,如每日、每周、每月等
- 巡检内容:根据集群规模和业务需求,确定巡检内容
- 巡检人员:明确巡检人员和职责
- 巡检时间:选择业务低峰期进行巡检,减少对业务的影响
- 巡检记录:建立巡检记录机制,记录巡检结果和问题
2.2 巡检流程设计
巡检流程设计建议:
- 准备阶段:准备巡检工具和脚本,明确巡检内容和目标
- 执行阶段:按照巡检计划执行巡检,收集巡检数据
- 分析阶段:分析巡检数据,发现问题和异常
- 处理阶段:处理发现的问题和异常,确保集群正常运行
- 报告阶段:生成巡检报告,记录巡检结果和问题处理情况
2.3 巡检指标设置
巡检指标设置建议:
- 硬件指标:CPU使用率、内存使用率、磁盘使用率、网络带宽等
- 系统指标:进程状态、服务状态、系统负载、网络连接等
- 集群指标:节点状态、服务状态、数据块状态、作业执行情况等
- 性能指标:作业执行时间、吞吐量、响应时间等
- 安全指标:权限设置、认证状态、加密状态等
Part03-生产环境项目实施方案
3.1 系统状态检查
配置系统状态检查:
## 1.1 CPU使用情况
top
mpstat
## 1.2 内存使用情况
free -h
vmstat
## 1.3 磁盘使用情况
df -h
iostat
## 1.4 网络使用情况
netstat -tuln
ss -tuln
ifconfig
# 2. 系统状态检查
## 2.1 进程状态
ps aux
pstree
## 2.2 系统负载
uptime
w
## 2.3 系统日志
tail -f /var/log/messages
tail -f /var/log/syslog
# 3. 网络状态检查
## 3.1 网络连接
ping fgedu01
telnet fgedu01 22
traceroute fgedu01
## 3.2 网络吞吐量
iperf3 -c fgedu01
3.2 服务状态检查
配置服务状态检查:
## 1.1 HDFS状态
hdfs dfsadmin -report
hdfs fsck /
## 1.2 YARN状态
yarn node -list
yarn application -list
## 1.3 MapReduce状态
mapred job -list
# 2. Hive服务状态检查
## 2.1 Hive Metastore状态
ps aux | grep HiveMetaStore
## 2.2 HiveServer2状态
ps aux | grep HiveServer2
# 3. Spark服务状态检查
## 3.1 Spark History Server状态
ps aux | grep SparkHistoryServer
## 3.2 Spark Master状态
curl http://fgedu01:8080
# 4. HBase服务状态检查
## 4.1 HBase Master状态
ps aux | grep HMaster
## 4.2 HBase RegionServer状态
ps aux | grep HRegionServer
# 5. ZooKeeper服务状态检查
## 5.1 ZooKeeper状态
zkServer.sh status
3.3 性能检查
配置性能检查:
## 1.1 读写性能
hadoop jar /bigdata/app/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.5.jar teragen
10000000 /user/fgedu/terasort/input
hadoop jar /bigdata/app/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.5.jar terasort
/user/fgedu/terasort/input /user/fgedu/terasort/output
## 1.2 数据块状态
hdfs fsck /
# 2. YARN性能检查
## 2.1 资源使用情况
yarn node -list -all
yarn top
## 2.2 作业执行情况
yarn application -list
yarn application -status
# 3. MapReduce性能检查
## 3.1 作业执行时间
hadoop jar /bigdata/app/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.5.jar pi 10
1000000
## 3.2 任务执行情况
yarn logs -applicationId
# 4. Hive性能检查
## 4.1 查询执行时间
hive -e “SELECT COUNT(*) FROM fgedu_db.fgedu_table;”
## 4.2 元数据性能
hive -e “SHOW TABLES;”
Part04-生产案例与实战讲解
4.1 日常巡检实战
案例:日常巡检
# 检查系统状态
top – 10:00:00 up 10 days, 2:34, 2 users, load average: 0.10, 0.05, 0.01
Tasks: 200 total, 1 running, 199 sleeping, 0 stopped, 0 zombie
%Cpu(s): 5.0 us, 2.0 sy, 0.0 ni, 92.0 id, 1.0 wa, 0.0 hi, 0.0 si, 0.0 st
MiB Mem : 64288.0 total, 48288.0 free, 8000.0 used, 8000.0 buff/cache
MiB Swap: 8192.0 total, 8192.0 free, 0.0 used. 54288.0 avail Mem
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
12345 fgedu 20 0 123456 67890 23456 S 0.0 0.1 0:00.00 java
23456 fgedu 20 0 98765 45678 12345 S 0.0 0.1 0:00.00 java
34567 fgedu 20 0 87654 34567 11234 S 0.0 0.1 0:00.00 java
# 检查磁盘使用情况
Filesystem Size Used Avail Use% Mounted on
devtmpfs 32G 0 32G 0% /dev
tmpfs 32G 0 32G 0% /dev/shm
tmpfs 32G 8.0G 24G 25% /run
/dev/sda1 50G 10G 40G 20% /
/dev/sdb1 100G 20G 80G 20% /bigdata
# 检查网络状态
Active Internet connections (only servers)
Proto Recv-Q Send-Q Local Address Foreign Address State
tcp 0 0 0.0.0.0:22 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:9000 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:9870 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:8030 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:8031 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:8032 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:8033 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:8088 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:9866 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:9864 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:9868 0.0.0.0:* LISTEN
4.2 健康检查实战
案例:健康检查
# 检查HDFS状态
Configured Capacity: 30963660800 (28.85 GB)
Present Capacity: 27867295744 (25.96 GB)
DFS Remaining: 27867293696 (25.96 GB)
DFS Used: 2048 (2 KB)
DFS Used%: 0.00%
Under replicated blocks: 0
Blocks with corrupt replicas: 0
Missing blocks: 0
Missing blocks (with replication factor 1): 0
Live datanodes (3):
Name: 192.168.1.10:9866 (fgedu01)
Hostname: fgedu01
Decommission Status : Normal
Configured Capacity: 10321220266 (9.62 GB)
DFS Used: 683 (683 B)
Non DFS Used: 1032122026 (984 MB)
DFS Remaining: 9289100557 (8.65 GB)
DFS Used%: 0.00%
DFS Remaining%: 90.00%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Mon Apr 08 10:00:00 CST 2026
Name: 192.168.1.11:9866 (fgedu02)
Hostname: fgedu02
Decommission Status : Normal
Configured Capacity: 10321220266 (9.62 GB)
DFS Used: 682 (682 B)
Non DFS Used: 1032122026 (984 MB)
DFS Remaining: 9289100558 (8.65 GB)
DFS Used%: 0.00%
DFS Remaining%: 90.00%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Mon Apr 08 10:00:00 CST 2026
Name: 192.168.1.12:9866 (fgedu03)
Hostname: fgedu03
Decommission Status : Normal
Configured Capacity: 10321220266 (9.62 GB)
DFS Used: 683 (683 B)
Non DFS Used: 1032122026 (984 MB)
DFS Remaining: 9289100557 (8.65 GB)
DFS Used%: 0.00%
DFS Remaining%: 90.00%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Mon Apr 08 10:00:00 CST 2026
# 检查YARN状态
Total Nodes:3
Node-Id Node-State Node-Http-Address Number-of-Running-Containers
fgedu01:45454 RUNNING fgedu01:8042 0
fgedu02:45454 RUNNING fgedu02:8042 0
fgedu03:45454 RUNNING fgedu03:8042 0
# 检查Hive状态
fgedu 12345 0.0 0.1 123456 67890 ? Ss 10:00 0:00 /usr/bin/java -Xmx1024m -Djava.net.preferIPv4Stack=true
-Dhadoop.log.dir=/bigdata/fgdata/logs/hadoop-hive -Dhadoop.log.file=hive.log
-Dhadoop.home.dir=/bigdata/app/hadoop -Dhadoop.id.str=fgedu -Dhadoop.root.logger=INFO,console
-Djava.library.path=/bigdata/app/hadoop/lib/native -Xmx1024m -Djava.net.preferIPv4Stack=true
-Dhadoop.log.dir=/bigdata/fgdata/logs/hadoop-hive -Dhadoop.log.file=hive.log
-Dhadoop.home.dir=/bigdata/app/hadoop -Dhadoop.id.str=fgedu -Dhadoop.root.logger=INFO,console
-Djava.library.path=/bigdata/app/hadoop/lib/native -classpath
/bigdata/app/hive/conf:/bigdata/app/hadoop/etc/hadoop:/bigdata/app/hadoop/share/hadoop/common/lib/*:/bigdata/app/hadoop/share/hadoop/common/*:/bigdata/app/hadoop/share/hadoop/hdfs:/bigdata/app/hadoop/share/hadoop/hdfs/lib/*:/bigdata/app/hadoop/share/hadoop/hdfs/*:/bigdata/app/hadoop/share/hadoop/mapreduce/lib/*:/bigdata/app/hadoop/share/hadoop/mapreduce/*:/bigdata/app/hadoop/share/hadoop/yarn:/bigdata/app/hadoop/share/hadoop/yarn/lib/*:/bigdata/app/hadoop/share/hadoop/yarn/*:/bigdata/app/hive/lib/*:/bigdata/app/hive/conf
org.apache.hadoop.hive.metastore.HiveMetaStore
fgedu 23456 0.0 0.1 123456 67890 ? Ss 10:00 0:00 /usr/bin/java -Xmx1024m -Djava.net.preferIPv4Stack=true
-Dhadoop.log.dir=/bigdata/fgdata/logs/hadoop-hive -Dhadoop.log.file=hive.log
-Dhadoop.home.dir=/bigdata/app/hadoop -Dhadoop.id.str=fgedu -Dhadoop.root.logger=INFO,console
-Djava.library.path=/bigdata/app/hadoop/lib/native -Xmx1024m -Djava.net.preferIPv4Stack=true
-Dhadoop.log.dir=/bigdata/fgdata/logs/hadoop-hive -Dhadoop.log.file=hive.log
-Dhadoop.home.dir=/bigdata/app/hadoop -Dhadoop.id.str=fgedu -Dhadoop.root.logger=INFO,console
-Djava.library.path=/bigdata/app/hadoop/lib/native -classpath
/bigdata/app/hive/conf:/bigdata/app/hadoop/etc/hadoop:/bigdata/app/hadoop/share/hadoop/common/lib/*:/bigdata/app/hadoop/share/hadoop/common/*:/bigdata/app/hadoop/share/hadoop/hdfs:/bigdata/app/hadoop/share/hadoop/hdfs/lib/*:/bigdata/app/hadoop/share/hadoop/hdfs/*:/bigdata/app/hadoop/share/hadoop/mapreduce/lib/*:/bigdata/app/hadoop/share/hadoop/mapreduce/*:/bigdata/app/hadoop/share/hadoop/yarn:/bigdata/app/hadoop/share/hadoop/yarn/lib/*:/bigdata/app/hadoop/share/hadoop/yarn/*:/bigdata/app/hive/lib/*:/bigdata/app/hive/conf
org.apache.hive.service.server.HiveServer2
4.3 巡检脚本编写
案例:巡检脚本编写
# daily_check.sh
# from:www.itpux.com.qq113257174.wx:itpux-com
# web: `http://www.fgedu.net.cn`
echo “===== 系统状态检查 =====”
echo “CPU使用情况:”
top -b -n 1 | head -20
echo “\n内存使用情况:”
free -h
echo “\n磁盘使用情况:”
df -h
echo “\n网络使用情况:”
netstat -tuln
echo “\n===== Hadoop服务状态检查 =====”
echo “HDFS状态:”
hdfs dfsadmin -report
echo “\nYARN状态:”
yarn node -list
echo “\nMapReduce状态:”
yarn application -list
echo “\n===== Hive服务状态检查 =====”
echo “Hive Metastore状态:”
ps aux | grep HiveMetaStore
echo “\nHiveServer2状态:”
ps aux | grep HiveServer2
echo “\n===== Spark服务状态检查 =====”
echo “Spark History Server状态:”
ps aux | grep SparkHistoryServer
echo “\n===== HBase服务状态检查 =====”
echo “HBase Master状态:”
ps aux | grep HMaster
echo “\nHBase RegionServer状态:”
ps aux | grep HRegionServer
echo “\n===== ZooKeeper服务状态检查 =====”
echo “ZooKeeper状态:”
zkServer.sh status
echo “\n===== 巡检完成 =====”
# 执行巡检脚本
$ ./daily_check.sh
===== 系统状态检查 =====
CPU使用情况:
top – 10:00:00 up 10 days, 2:34, 2 users, load average: 0.10, 0.05, 0.01
Tasks: 200 total, 1 running, 199 sleeping, 0 stopped, 0 zombie
%Cpu(s): 5.0 us, 2.0 sy, 0.0 ni, 92.0 id, 1.0 wa, 0.0 hi, 0.0 si, 0.0 st
MiB Mem : 64288.0 total, 48288.0 free, 8000.0 used, 8000.0 buff/cache
MiB Swap: 8192.0 total, 8192.0 free, 0.0 used. 54288.0 avail Mem
内存使用情况:
total used free shared buff/cache available
Mem: 63G 7.8G 47G 8.0G 7.8G 53G
Swap: 8.0G 0B 8.0G
磁盘使用情况:
Filesystem Size Used Avail Use% Mounted on
devtmpfs 32G 0 32G 0% /dev
tmpfs 32G 0 32G 0% /dev/shm
tmpfs 32G 8.0G 24G 25% /run
/dev/sda1 50G 10G 40G 20% /
/dev/sdb1 100G 20G 80G 20% /bigdata
网络使用情况:
Active Internet connections (only servers)
Proto Recv-Q Send-Q Local Address Foreign Address State
tcp 0 0 0.0.0.0:22 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:9000 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:9870 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:8030 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:8031 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:8032 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:8033 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:8088 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:9866 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:9864 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:9868 0.0.0.0:* LISTEN
===== Hadoop服务状态检查 =====
HDFS状态:
Configured Capacity: 30963660800 (28.85 GB)
Present Capacity: 27867295744 (25.96 GB)
DFS Remaining: 27867293696 (25.96 GB)
DFS Used: 2048 (2 KB)
DFS Used%: 0.00%
Under replicated blocks: 0
Blocks with corrupt replicas: 0
Missing blocks: 0
Missing blocks (with replication factor 1): 0
Live datanodes (3):
Name: 192.168.1.10:9866 (fgedu01)
Hostname: fgedu01
Decommission Status : Normal
Configured Capacity: 10321220266 (9.62 GB)
DFS Used: 683 (683 B)
Non DFS Used: 1032122026 (984 MB)
DFS Remaining: 9289100557 (8.65 GB)
DFS Used%: 0.00%
DFS Remaining%: 90.00%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Mon Apr 08 10:00:00 CST 2026
Name: 192.168.1.11:9866 (fgedu02)
Hostname: fgedu02
Decommission Status : Normal
Configured Capacity: 10321220266 (9.62 GB)
DFS Used: 682 (682 B)
Non DFS Used: 1032122026 (984 MB)
DFS Remaining: 9289100558 (8.65 GB)
DFS Used%: 0.00%
DFS Remaining%: 90.00%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Mon Apr 08 10:00:00 CST 2026
Name: 192.168.1.12:9866 (fgedu03)
Hostname: fgedu03
Decommission Status : Normal
Configured Capacity: 10321220266 (9.62 GB)
DFS Used: 683 (683 B)
Non DFS Used: 1032122026 (984 MB)
DFS Remaining: 9289100557 (8.65 GB)
DFS Used%: 0.00%
DFS Remaining%: 90.00%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Mon Apr 08 10:00:00 CST 2026
YARN状态:
Total Nodes:3
Node-Id Node-State Node-Http-Address Number-of-Running-Containers
fgedu01:45454 RUNNING fgedu01:8042 0
fgedu02:45454 RUNNING fgedu02:8042 0
fgedu03:45454 RUNNING fgedu03:8042 0
MapReduce状态:
Total number of applications (application-types: [] and states: [SUBMITTED, ACCEPTED, RUNNING]):0
Application-Id Application-Name Application-Type User Queue State Final-State Progress Tracking-URL
===== Hive服务状态检查 =====
Hive Metastore状态:
fgedu 12345 0.0 0.1 123456 67890 ? Ss 10:00 0:00 /usr/bin/java -Xmx1024m -Djava.net.preferIPv4Stack=true
-Dhadoop.log.dir=/bigdata/fgdata/logs/hadoop-hive -Dhadoop.log.file=hive.log
-Dhadoop.home.dir=/bigdata/app/hadoop -Dhadoop.id.str=fgedu -Dhadoop.root.logger=INFO,console
-Djava.library.path=/bigdata/app/hadoop/lib/native -Xmx1024m -Djava.net.preferIPv4Stack=true
-Dhadoop.log.dir=/bigdata/fgdata/logs/hadoop-hive -Dhadoop.log.file=hive.log
-Dhadoop.home.dir=/bigdata/app/hadoop -Dhadoop.id.str=fgedu -Dhadoop.root.logger=INFO,console
-Djava.library.path=/bigdata/app/hadoop/lib/native -classpath
/bigdata/app/hive/conf:/bigdata/app/hadoop/etc/hadoop:/bigdata/app/hadoop/share/hadoop/common/lib/*:/bigdata/app/hadoop/share/hadoop/common/*:/bigdata/app/hadoop/share/hadoop/hdfs:/bigdata/app/hadoop/share/hadoop/hdfs/lib/*:/bigdata/app/hadoop/share/hadoop/hdfs/*:/bigdata/app/hadoop/share/hadoop/mapreduce/lib/*:/bigdata/app/hadoop/share/hadoop/mapreduce/*:/bigdata/app/hadoop/share/hadoop/yarn:/bigdata/app/hadoop/share/hadoop/yarn/lib/*:/bigdata/app/hadoop/share/hadoop/yarn/*:/bigdata/app/hive/lib/*:/bigdata/app/hive/conf
org.apache.hadoop.hive.metastore.HiveMetaStore
HiveServer2状态:
fgedu 23456 0.0 0.1 123456 67890 ? Ss 10:00 0:00 /usr/bin/java -Xmx1024m -Djava.net.preferIPv4Stack=true
-Dhadoop.log.dir=/bigdata/fgdata/logs/hadoop-hive -Dhadoop.log.file=hive.log
-Dhadoop.home.dir=/bigdata/app/hadoop -Dhadoop.id.str=fgedu -Dhadoop.root.logger=INFO,console
-Djava.library.path=/bigdata/app/hadoop/lib/native -Xmx1024m -Djava.net.preferIPv4Stack=true
-Dhadoop.log.dir=/bigdata/fgdata/logs/hadoop-hive -Dhadoop.log.file=hive.log
-Dhadoop.home.dir=/bigdata/app/hadoop -Dhadoop.id.str=fgedu -Dhadoop.root.logger=INFO,console
-Djava.library.path=/bigdata/app/hadoop/lib/native -classpath
/bigdata/app/hive/conf:/bigdata/app/hadoop/etc/hadoop:/bigdata/app/hadoop/share/hadoop/common/lib/*:/bigdata/app/hadoop/share/hadoop/common/*:/bigdata/app/hadoop/share/hadoop/hdfs:/bigdata/app/hadoop/share/hadoop/hdfs/lib/*:/bigdata/app/hadoop/share/hadoop/hdfs/*:/bigdata/app/hadoop/share/hadoop/mapreduce/lib/*:/bigdata/app/hadoop/share/hadoop/mapreduce/*:/bigdata/app/hadoop/share/hadoop/yarn:/bigdata/app/hadoop/share/hadoop/yarn/lib/*:/bigdata/app/hadoop/share/hadoop/yarn/*:/bigdata/app/hive/lib/*:/bigdata/app/hive/conf
org.apache.hive.service.server.HiveServer2
===== Spark服务状态检查 =====
Spark History Server状态:
fgedu 34567 0.0 0.1 123456 67890 ? Ss 10:00 0:00 /usr/bin/java -Xmx1024m -Djava.net.preferIPv4Stack=true
-Dhadoop.log.dir=/bigdata/fgdata/logs/spark -Dhadoop.log.file=spark.log
-Dhadoop.home.dir=/bigdata/app/hadoop -Dhadoop.id.str=fgedu -Dhadoop.root.logger=INFO,console
-Djava.library.path=/bigdata/app/hadoop/lib/native -Xmx1024m -Djava.net.preferIPv4Stack=true
-Dhadoop.log.dir=/bigdata/fgdata/logs/spark -Dhadoop.log.file=spark.log
-Dhadoop.home.dir=/bigdata/app/hadoop -Dhadoop.id.str=fgedu -Dhadoop.root.logger=INFO,console
-Djava.library.path=/bigdata/app/hadoop/lib/native -classpath
/bigdata/app/spark/conf:/bigdata/app/hadoop/etc/hadoop:/bigdata/app/hadoop/share/hadoop/common/lib/*:/bigdata/app/hadoop/share/hadoop/common/*:/bigdata/app/hadoop/share/hadoop/hdfs:/bigdata/app/hadoop/share/hadoop/hdfs/lib/*:/bigdata/app/hadoop/share/hadoop/hdfs/*:/bigdata/app/hadoop/share/hadoop/mapreduce/lib/*:/bigdata/app/hadoop/share/hadoop/mapreduce/*:/bigdata/app/hadoop/share/hadoop/yarn:/bigdata/app/hadoop/share/hadoop/yarn/lib/*:/bigdata/app/hadoop/share/hadoop/yarn/*:/bigdata/app/spark/lib/*:/bigdata/app/spark/conf
org.apache.spark.deploy.history.HistoryServer
===== HBase服务状态检查 =====
HBase Master状态:
fgedu 45678 0.0 0.1 123456 67890 ? Ss 10:00 0:00 /usr/bin/java -Xmx1024m -Djava.net.preferIPv4Stack=true
-Dhadoop.log.dir=/bigdata/fgdata/logs/hbase -Dhadoop.log.file=hbase.log
-Dhadoop.home.dir=/bigdata/app/hadoop -Dhadoop.id.str=fgedu -Dhadoop.root.logger=INFO,console
-Djava.library.path=/bigdata/app/hadoop/lib/native -Xmx1024m -Djava.net.preferIPv4Stack=true
-Dhadoop.log.dir=/bigdata/fgdata/logs/hbase -Dhadoop.log.file=hbase.log
-Dhadoop.home.dir=/bigdata/app/hadoop -Dhadoop.id.str=fgedu -Dhadoop.root.logger=INFO,console
-Djava.library.path=/bigdata/app/hadoop/lib/native -classpath
/bigdata/app/hbase/conf:/bigdata/app/hadoop/etc/hadoop:/bigdata/app/hadoop/share/hadoop/common/lib/*:/bigdata/app/hadoop/share/hadoop/common/*:/bigdata/app/hadoop/share/hadoop/hdfs:/bigdata/app/hadoop/share/hadoop/hdfs/lib/*:/bigdata/app/hadoop/share/hadoop/hdfs/*:/bigdata/app/hadoop/share/hadoop/mapreduce/lib/*:/bigdata/app/hadoop/share/hadoop/mapreduce/*:/bigdata/app/hadoop/share/hadoop/yarn:/bigdata/app/hadoop/share/hadoop/yarn/lib/*:/bigdata/app/hadoop/share/hadoop/yarn/*:/bigdata/app/hbase/lib/*:/bigdata/app/hbase/conf
org.apache.hadoop.hbase.master.HMaster
HBase RegionServer状态:
fgedu 56789 0.0 0.1 123456 67890 ? Ss 10:00 0:00 /usr/bin/java -Xmx1024m -Djava.net.preferIPv4Stack=true
-Dhadoop.log.dir=/bigdata/fgdata/logs/hbase -Dhadoop.log.file=hbase.log
-Dhadoop.home.dir=/bigdata/app/hadoop -Dhadoop.id.str=fgedu -Dhadoop.root.logger=INFO,console
-Djava.library.path=/bigdata/app/hadoop/lib/native -Xmx1024m -Djava.net.preferIPv4Stack=true
-Dhadoop.log.dir=/bigdata/fgdata/logs/hbase -Dhadoop.log.file=hbase.log
-Dhadoop.home.dir=/bigdata/app/hadoop -Dhadoop.id.str=fgedu -Dhadoop.root.logger=INFO,console
-Djava.library.path=/bigdata/app/hadoop/lib/native -classpath
/bigdata/app/hbase/conf:/bigdata/app/hadoop/etc/hadoop:/bigdata/app/hadoop/share/hadoop/common/lib/*:/bigdata/app/hadoop/share/hadoop/common/*:/bigdata/app/hadoop/share/hadoop/hdfs:/bigdata/app/hadoop/share/hadoop/hdfs/lib/*:/bigdata/app/hadoop/share/hadoop/hdfs/*:/bigdata/app/hadoop/share/hadoop/mapreduce/lib/*:/bigdata/app/hadoop/share/hadoop/mapreduce/*:/bigdata/app/hadoop/share/hadoop/yarn:/bigdata/app/hadoop/share/hadoop/yarn/lib/*:/bigdata/app/hadoop/share/hadoop/yarn/*:/bigdata/app/hbase/lib/*:/bigdata/app/hbase/conf
org.apache.hadoop.hbase.regionserver.HRegionServer
===== ZooKeeper服务状态检查 =====
ZooKeeper状态:
ZooKeeper JMX enabled by default
Using config: /bigdata/app/zookeeper/conf/zoo.cfg
Mode: leader
===== 巡检完成 =====
Part05-风哥经验总结与分享
5.1 常见问题解决方案
常见问题解决方案:
- CPU使用率高:检查进程状态,优化应用程序,增加CPU资源
- 内存不足:检查内存使用情况,优化内存配置,增加内存资源
- 磁盘空间不足:清理过期数据,增加磁盘空间,优化存储策略
- 网络连接异常:检查网络配置,修复网络故障,优化网络拓扑
- 服务启动失败:检查配置文件,修复服务故障,重启服务
- 数据块丢失:使用hdfs fsck检查,调整副本数,修复数据块
- 作业执行失败:查看作业日志,分析失败原因,调整作业配置
5.2 最佳实践分享
风哥提示:在日常巡检和健康检查过程中,应注重发现问题和解决问题,确保集群的稳定运行和性能优化。
最佳实践分享:
- 建立巡检制度:制定详细的巡检计划和流程,确保巡检的全面性和及时性
- 使用自动化工具:编写自动化巡检脚本,提高巡检效率
- 建立监控系统:使用监控系统,实时监控集群状态
- 定期分析巡检结果:分析巡检数据,发现问题和异常
- 及时处理问题:发现问题后及时处理,确保集群正常运行
- 记录巡检结果:建立巡检记录,便于后续参考
5.3 日常巡检与健康检查建议
日常巡检与健康检查建议:
- 定期巡检:根据集群规模和业务需求,定期进行巡检
- 全面检查:检查系统状态、服务状态、性能状态等多个方面
- 及时处理:发现问题后及时处理,避免问题扩大
- 持续优化:根据巡检结果,持续优化集群配置和性能
- 团队协作:组织专业团队,共同进行巡检和健康检查
- 培训学习:加强团队培训,提高巡检和健康检查技能
- 更多视频教程www.fgedu.net.cn
通过本教程的学习,您已经掌握了大数据集群日常巡检与健康检查的方法和实战技巧。在实际生产环境中,应根据集群规模和业务需求,制定合理的巡检计划,使用自动化工具进行巡检,及时发现和解决问题,确保集群的稳定运行和性能优化。学习交流加群风哥QQ113257174
更多学习教程公众号风哥教程itpux_com
from bigdata视频:www.itpux.com
本文由风哥教程整理发布,仅用于学习测试使用,转载注明出处:http://www.fgedu.net.cn/10327.html
