大数据教程FG111-Hadoop高可用集群整体架构实战

# 集群硬件配置建议
# 节点类型 CPU 内存磁盘网络
# NameNode 8核 32GB 1TB 10Gbps
# DataNode 16核 64GB 12TB 10Gbps
# JournalNode 4核 16GB 500GB 10Gbps
# ZooKeeper 4核 8GB 200GB 10Gbps

2.2 网络架构设计

推荐使用万兆网络，确保节点之间的通信速度。风哥提示：网络带宽是Hadoop集群性能的关键因素之一。

2.3 高可用集群架构设计

# 高可用集群架构示意图
# NameNode1(Active) ←→ JournalNode1
# NameNode2(Standby) ←→ JournalNode2
# ←→ JournalNode3
# ResourceManager1(Active)
# ResourceManager2(Standby)
# ZooKeeper1, ZooKeeper2, ZooKeeper3
# DataNode1, DataNode2, DataNode3, …

Part03-生产环境项目实施方案

3.1 集群部署准备

# 配置主机名和IP映射
[root@fgedu.net.cn ~]# vi /etc/hosts

192.168.1.10 namenode1.fgedu.net.cn namenode1
192.168.1.11 namenode2.fgedu.net.cn namenode2
192.168.1.12 datanode1.fgedu.net.cn datanode1
192.168.1.13 datanode2.fgedu.net.cn datanode2
192.168.1.14 datanode3.fgedu.net.cn datanode3
192.168.1.15 journalnode1.fgedu.net.cn journalnode1
192.168.1.16 journalnode2.fgedu.net.cn journalnode2
192.168.1.17 journalnode3.fgedu.net.cn journalnode3
192.168.1.18 zookeeper1.fgedu.net.cn zookeeper1
192.168.1.19 zookeeper2.fgedu.net.cn zookeeper2
192.168.1.20 zookeeper3.fgedu.net.cn zookeeper3

3.2 高可用配置实现

# 配置hdfs-site.xml
[root@fgedu.net.cn ~]# vi /bigdata/app/hadoop/etc/hadoop/hdfs-site.xml

dfs.nameservices
hdfscluster dfs.ha.namenodes.hdfscluster
nn1,nn2 dfs.namenode.rpc-address.hdfscluster.nn1
namenode1:9000 dfs.namenode.rpc-address.hdfscluster.nn2
namenode2:9000 dfs.namenode.http-address.hdfscluster.nn1
namenode1:50070 dfs.namenode.http-address.hdfscluster.nn2
namenode2:50070 dfs.namenode.shared.edits.dir
qjournal://journalnode1:8485;journalnode2:8485;journalnode3:8485/hdfscluster dfs.client.failover.proxy.provider.hdfscluster
org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider dfs.ha.fencing.methods
sshfence dfs.ha.fencing.ssh.private-key-files
/root/.ssh/id_rsa dfs.ha.automatic-failover.enabled
true

# 配置core-site.xml
[root@fgedu.net.cn ~]# vi /bigdata/app/hadoop/etc/hadoop/core-site.xml

fs.defaultFS
hdfs://hdfscluster hadoop.tmp.dir
/bigdata/fgdata/hadoop/tmp ha.zookeeper.quorum
zookeeper1:2181,zookeeper2:2181,zookeeper3:2181

# 配置yarn-site.xml
[root@fgedu.net.cn ~]# vi /bigdata/app/hadoop/etc/hadoop/yarn-site.xml

yarn.resourcemanager.ha.enabled
true yarn.resourcemanager.cluster-id
yarncluster yarn.resourcemanager.ha.rm-ids
rm1,rm2 yarn.resourcemanager.hostname.rm1
namenode1 yarn.resourcemanager.hostname.rm2
namenode2 yarn.resourcemanager.zk-address
zookeeper1:2181,zookeeper2:2181,zookeeper3:2181 yarn.resourcemanager.recovery.enabled
true yarn.resourcemanager.store.class
org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore

3.3 集群测试与验证

# 初始化ZooKeeper
[root@fgedu.net.cn ~]# hdfs zkfc -formatZK

# 启动JournalNode
[root@fgedu.net.cn ~]# hadoop-daemon.sh start journalnode

# 格式化NameNode
[root@namenode1 ~]# hdfs namenode -format

# 启动NameNode
[root@namenode1 ~]# hadoop-daemon.sh start namenode

# 同步NameNode元数据
[root@namenode2 ~]# hdfs namenode -bootstrapStandby

# 启动所有节点
[root@fgedu.net.cn ~]# start-dfs.sh
[root@fgedu.net.cn ~]# start-yarn.sh

# 查看集群状态
[root@fgedu.net.cn ~]# hdfs dfsadmin -report
[root@fgedu.net.cn ~]# yarn node -list

# 测试故障转移
[root@fgedu.net.cn ~]# hdfs haadmin -failover nn1 nn2

Part04-生产案例与实战讲解

4.1 双NameNode高可用集群

案例背景

某企业需要构建Hadoop高可用集群，确保NameNode的高可用性，避免单点故障。

实施步骤

部署3个JournalNode节点
部署2个NameNode节点
配置高可用参数
初始化集群
测试故障转移

实施效果

高可用集群部署完成后，当Active NameNode故障时，Standby NameNode会自动接管服务，实现无缝切换，确保集群的连续性。from bigdata视频:www.itpux.com

4.2 双ResourceManager高可用集群

# 启动ResourceManager
[root@namenode1 ~]# yarn-daemon.sh start resourcemanager
[root@namenode2 ~]# yarn-daemon.sh start resourcemanager

# 查看ResourceManager状态
[root@fgedu.net.cn ~]# yarn rmadmin -getServiceState rm1
active
[root@fgedu.net.cn ~]# yarn rmadmin -getServiceState rm2
standby

# 测试ResourceManager故障转移
[root@fgedu.net.cn ~]# yarn rmadmin -transitionToStandby rm1
[root@fgedu.net.cn ~]# yarn rmadmin -getServiceState rm1
standby
[root@fgedu.net.cn ~]# yarn rmadmin -getServiceState rm2
active

4.3 高可用集群故障演练

# 模拟NameNode故障
[root@namenode1 ~]# jps
1234 NameNode
5678 DataNode
[root@namenode1 ~]# kill -9 1234

# 查看故障转移结果
[root@fgedu.net.cn ~]# hdfs haadmin -getServiceState nn1
standby
[root@fgedu.net.cn ~]# hdfs haadmin -getServiceState nn2
active

# 恢复故障节点
[root@namenode1 ~]# hadoop-daemon.sh start namenode
[root@fgedu.net.cn ~]# hdfs haadmin -getServiceState nn1
standby

Part05-风哥经验总结与分享

5.1 高可用集群最佳实践

合理规划硬件资源：确保各节点的硬件配置满足需求
网络优化：使用万兆网络，确保节点之间的通信速度
监控与告警：建立完善的监控和告警机制
定期演练：定期进行故障演练，确保高可用机制正常工作
备份策略：定期备份NameNode元数据

5.2 性能优化技巧

# 优化NameNode性能
[root@fgedu.net.cn ~]# vi /bigdata/app/hadoop/etc/hadoop/hdfs-site.xml
dfs.namenode.handler.count
100 dfs.namenode.service.handler.count
100
# 优化ResourceManager性能
[root@fgedu.net.cn ~]# vi /bigdata/app/hadoop/etc/hadoop/yarn-site.xml
yarn.resourcemanager.scheduler.class
org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler yarn.scheduler.capacity.maximum-am-resource-percent
0.1

5.3 常见问题与解决方案

问题	原因	解决方案
故障转移失败	网络故障或配置不当	检查网络连接，确保配置正确
JournalNode同步失败	网络延迟或磁盘IO问题	优化网络，使用高性能磁盘
ZooKeeper连接失败	ZooKeeper集群故障	确保ZooKeeper集群正常运行
性能下降	资源配置不足或负载过高	增加资源配置，优化负载均衡

通过Hadoop高可用集群的构建，可以确保系统在部分组件故障时仍能正常运行，提高集群的可靠性和可用性，为业务提供稳定的大数据处理服务。学习交流加群风哥QQ113257174

本文由风哥教程整理发布,仅用于学习测试使用,转载注明出处:http://www.fgedu.net.cn/10327.html

大数据教程FG111-Hadoop高可用集群整体架构实战

目录大纲

Part01-基础概念与理论知识

1.1 高可用集群概述

1.2 Hadoop高可用架构原理

1.3 ZooKeeper在高可用中的作用

Part02-生产环境规划与建议

2.1 硬件资源规划