1. 产品概述
CDH (Cloudera Distribution for Hadoop) 是 Cloudera 公司提供的 Hadoop 发行版,包含了 Hadoop 生态系统的各种组件,如 HDFS、YARN、Hive、HBase、Spark 等。CDH 提供了企业级的稳定性和安全性,适用于大规模数据处理场景。
2. 版本信息
最新版本
CDH 6.3.4
最近几个版本
- CDH 6.3.3
- CDH 6.3.2
- CDH 6.3.1
- CDH 5.16.2
3. 下载方式
3.1 官方网站下载
CDH 6.3.4:
官方下载链接:https://www.cloudera.com/downloads/cdh/6-3-4.html
风哥提示:下载前请确保网络连接稳定
注意:下载 CDH 需要注册 Cloudera 账号。
3.2 Cloudera Manager 安装
使用 Cloudera Manager 安装 CDH:
wget https://archive.cloudera.com/cm6/6.3.1/cloudera-manager-installer.bin
# 赋予执行权限
chmod +x cloudera-manager-installer.bin
# 运行安装程序
./cloudera-manager-installer.bin
3.3 镜像站点下载
可以从以下镜像站点下载 CDH:
4. 验证步骤
4.1 验证下载文件
从官方网站下载文件后,建议验证文件的完整性:
md5sum cloudera-manager-installer.bin
# 计算文件的 SHA256 哈希值
sha256sum cloudera-manager-installer.bin
将计算得到的哈希值与官方网站提供的哈希值进行比较,确保文件完整性。
学习交流加群风哥QQ113257174
4.2 验证安装
安装完成后,验证 CDH 是否正常运行:
systemctl status cloudera-scm-server
# 访问 Cloudera Manager 控制台
# 打开浏览器访问 http://localhost:7180
# 默认用户名和密码:admin/admin
5. 安装准备
5.1 系统要求
- 操作系统:RHEL/CentOS 7+, SUSE Linux 12+, Ubuntu 16.04+
- CPU:至少 4 核心
- 内存:至少 16GB
- 磁盘空间:至少 100GB
- 网络:千兆网络
5.2 依赖项
yum install -y epel-release
yum install -y curl wget tar gcc gcc-c++ make java-1.8.0-openjdk-devel
# Ubuntu 系统
apt-get update
apt-get install -y curl wget tar gcc g++ make openjdk-8-jdk
5.3 创建用户和目录
groupadd cloudera-scm
useradd -g cloudera-scm -m -d /home/cloudera-scm -s /bin/bash cloudera-scm
passwd cloudera-scm
# 创建数据目录
mkdir -p /var/lib/cloudera-scm-server
chown cloudera-scm:cloudera-scm /var/lib/cloudera-scm-server
6. 生产环境建议
6.1 硬件配置
- CPU:8 核心或更多
- 内存:32GB 或更多
- 存储:使用 SSD 存储,RAID 10 配置
- 网络:万兆网络
6.2 配置建议
# 主节点:至少 8 核心,32GB 内存
# 数据节点:至少 4 核心,16GB 内存
# 每个数据节点存储:至少 1TB
# HDFS 配置
dfs.replication = 3
dfs.namenode.handler.count = 100
dfs.datanode.handler.count = 64
# YARN 配置
yarn.nodemanager.resource.memory-mb = 8192
yarn.scheduler.maximum-allocation-mb = 8192
yarn.scheduler.minimum-allocation-mb = 1024
6.3 高可用方案
- 部署 HDFS 高可用(NameNode HA)
- 配置 YARN 高可用(ResourceManager HA)
- 使用 ZooKeeper 实现服务协调
- 配置 HBase 高可用
6.4 监控与备份
- 使用 Cloudera Manager 监控集群状态
- 配置 HDFS 快照和备份
- 设置日志聚合和监控
- 定期进行集群健康检查
7. 其他资源
本文由风哥教程整理发布,仅用于学习测试使用,转载注明出处:http://www.fgedu.net.cn/10327.html
