目录大纲
1.1 迁移后校验概述
1.2 校验内容与方法
1.3 校验工具与技术
2.1 校验前准备工作
2.2 校验计划制定
2.3 校验风险评估
3.1 数据一致性校验
3.2 服务功能验证
3.3 性能验证
4.1 HDFS数据校验实战
4.2 HBase数据校验实战
4.3 Hive数据校验实战
5.1 校验常见问题
5.2 校验最佳实践
5.3 校验结果分析
Part01-基础概念与理论知识
1.1 迁移后校验概述
迁移后校验是指在Hadoop集群迁移完成后,对目标集群进行全面的检查和验证,确保迁移的成功和系统的正常运行。其核心目标是:
- 确保数据一致性:验证源集群和目标集群数据一致
- 验证服务功能:确保所有服务正常运行
- 确认性能达标:验证系统性能符合要求
- 保证安全合规:验证安全配置正确
- 确保应用兼容:验证应用在新集群正常运行
更多视频教程www.fgedu.net.cn
1.2 校验内容与方法
校验内容与方法:
- 数据一致性校验:使用校验和、文件列表对比等方法
- 服务功能验证:测试各服务的基本功能
- 性能验证:进行基准测试和负载测试
- 安全验证:检查安全配置和权限
- 应用兼容性验证:测试应用在新集群的运行情况
学习交流加群风哥微信: itpux-com
1.3 校验工具与技术
常用的校验工具与技术:
- DistCp:用于数据复制和校验
- hdfs dfs -checksum:计算文件校验和
- hdfs fsck:检查HDFS文件系统健康状态
- hbase hbck:检查HBase一致性
- 自定义校验脚本:根据业务需求开发
学习交流加群风哥QQ113257174
Part02-生产环境规划与建议
2.1 校验前准备工作
风哥提示:校验前要做好充分的准备工作,包括制定详细的校验计划和准备必要的工具
校验前准备工作:
- 收集源集群的配置和性能数据
- 准备校验工具和脚本
- 建立校验测试环境
- 制定详细的校验计划和时间表
- 培训校验团队成员
更多学习教程公众号风哥教程itpux_com
2.2 校验计划制定
校验计划制定要点:
- 确定校验范围和目标
- 制定详细的校验步骤
- 分配校验任务和责任
- 建立校验结果记录机制
- 制定问题处理流程
from bigdata视频:www.itpux.com
2.3 校验风险评估
校验风险评估:
- 数据不一致风险:可能导致业务数据丢失
- 服务故障风险:可能影响业务运行
- 性能下降风险:可能影响用户体验
- 安全漏洞风险:可能导致安全问题
- 应用兼容风险:可能导致应用故障
Part03-生产环境项目实施方案
3.1 数据一致性校验
[root@fgedu.net.cn ~]# cat > data_verification.sh << 'EOF' #!/bin/bash # data_verification.sh # from:www.itpux.com.qq113257174.wx:itpux-com # web: `http://www.fgedu.net.cn` # 源集群和目标集群配置 SOURCE_NN="hdfs://source:8020" TARGET_NN="hdfs://target:8020" # 要校验的目录 DATA_DIR="/user/fgedu/data" # 生成文件列表 echo "生成源集群文件列表..." hdfs dfs -ls -R $SOURCE_NN$DATA_DIR > source_list.txt
echo “生成目标集群文件列表…”
hdfs dfs -ls -R $TARGET_NN$DATA_DIR > target_list.txt
# 对比文件列表
echo “对比文件列表…”
diff source_list.txt target_list.txt
if [ $? -eq 0 ]; then
echo “文件列表一致”
else
echo “文件列表不一致”
fi
# 计算校验和
echo “计算源集群校验和…”
hdfs dfs -checksum $SOURCE_NN$DATA_DIR/* > source_checksum.txt
echo “计算目标集群校验和…”
hdfs dfs -checksum $TARGET_NN$DATA_DIR/* > target_checksum.txt
# 对比校验和
echo “对比校验和…”
diff source_checksum.txt target_checksum.txt
if [ $? -eq 0 ]; then
echo “校验和一致”
else
echo “校验和不一致”
fi
EOF
[root@fgedu.net.cn ~]# chmod +x data_verification.sh
3.2 服务功能验证
[root@fgedu.net.cn ~]# cat > service_verification.sh << 'EOF' #!/bin/bash # service_verification.sh # from:www.itpux.com.qq113257174.wx:itpux-com # web: `http://www.fgedu.net.cn` # 检查HDFS服务 echo "检查HDFS服务..." hdfs dfs -ls / if [ $? -eq 0 ]; then echo "HDFS服务正常" else echo "HDFS服务异常" fi # 检查YARN服务 echo "检查YARN服务..." yarn node -list if [ $? -eq 0 ]; then echo "YARN服务正常" else echo "YARN服务异常" fi # 检查HBase服务 echo "检查HBase服务..." echo "status" | hbase shell if [ $? -eq 0 ]; then echo "HBase服务正常" else echo "HBase服务异常" fi # 检查Hive服务 echo "检查Hive服务..." hive -e "show databases;" if [ $? -eq 0 ]; then echo "Hive服务正常" else echo "Hive服务异常" fi EOF [root@fgedu.net.cn ~]# chmod +x service_verification.sh
3.3 性能验证
[root@fgedu.net.cn ~]# cat > performance_verification.sh << 'EOF' #!/bin/bash # performance_verification.sh # from:www.itpux.com.qq113257174.wx:itpux-com # web: `http://www.fgedu.net.cn` # 测试HDFS读写性能 echo "测试HDFS写入性能..." time hadoop jar /bigdata/app/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar teragen 1000000 /user/fgedu/teragen echo "测试HDFS读取性能..." time hadoop jar /bigdata/app/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar terasort /user/fgedu/teragen /user/fgedu/terasort # 测试MapReduce性能 echo "测试MapReduce性能..." time hadoop jar /bigdata/app/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount /user/fgedu/data /user/fgedu/wordcount EOF [root@fgedu.net.cn ~]# chmod +x performance_verification.sh
Part04-生产案例与实战讲解
4.1 HDFS数据校验实战
[root@fgedu.net.cn ~]# ./data_verification.sh
# 输出日志
生成源集群文件列表…
生成目标集群文件列表…
对比文件列表…
文件列表一致
计算源集群校验和…
计算目标集群校验和…
对比校验和…
校验和一致
[root@fgedu.net.cn ~]# hdfs fsck /user/fgedu/data
# 输出日志
Connecting to namenode via http://fgedu.net.cn:9870/fsck?ugi=fgedu&path=%2Fuser%2Ffgedu%2Fdata
FSCK started by fgedu (auth:SIMPLE) from /192.168.1.100 for path /user/fgedu/data at Thu Apr 07 19:00:00 CST 2026
……………………………………………………………………………………….
Status: HEALTHY
Total blocks: 100
Total files: 50
Total directories: 5
Total symlinks: 0
Replicated Blocks: 100 (100.0 %)
Under-replicated blocks: 0 (0.0 %)
Blocks with corrupt replicas: 0 (0.0 %)
Missing blocks: 0 (0.0 %)
Missing replicas: 0 (0.0 %)
DataNodes with missing blocks: 0
DataNodes with corrupt blocks: 0
DataNodes with under-replicated blocks: 0
File System is HEALTHY
4.2 HBase数据校验实战
[root@fgedu.net.cn ~]# hbase hbck
# 输出日志
Version: 2.5.6
2026-04-07 19:10:00,000 INFO [main] util.HBaseFsck: Starting HBaseFsck
2026-04-07 19:10:00,000 INFO [main] util.HBaseFsck: Checking and repairing region consistency
2026-04-07 19:10:05,000 INFO [main] util.HBaseFsck: Summary:
– Region consistency: 100%
– Table consistency: 100%
– Meta consistency: 100%
– HDFS consistency: 100%
Status: OK
[root@fgedu.net.cn ~]# hbase shell
hbase(main):001:0> count ‘fgedu_table’
# 输出日志
Current count: 1000000, row: row1000000
1000000 row(s) in 15.234 seconds
4.3 Hive数据校验实战
[root@fgedu.net.cn ~]# hive -e “SELECT COUNT(*) FROM fgedu.table1;”
# 输出日志
OK
500000
Time taken: 10.456 seconds, Fetched: 1 row(s)
[root@fgedu.net.cn ~]# hive -e “MSCK REPAIR TABLE fgedu.table1;”
# 输出日志
OK
Time taken: 2.345 seconds
[root@fgedu.net.cn ~]# hive -e “DESCRIBE fgedu.table1;”
# 输出日志
OK
id int
name string
age int
address string
Time taken: 0.567 seconds, Fetched: 4 row(s)
Part05-风哥经验总结与分享
5.1 校验常见问题
常见问题及解决方法:
- 数据不一致:重新同步数据,使用校验和验证
- 服务启动失败:检查配置文件,查看日志
- 性能下降:优化集群配置,调整资源分配
- 权限问题:检查权限配置,确保权限一致
- 应用兼容性问题:修改应用配置,适配新集群
更多视频教程www.fgedu.net.cn
5.2 校验最佳实践
风哥提示:校验过程要全面、细致,确保所有关键组件都得到验证
- 制定详细的校验计划和时间表
- 使用自动化工具和脚本进行校验
- 建立校验结果记录和分析机制
- 进行充分的性能测试和压力测试
- 制定问题处理流程和回滚方案
学习交流加群风哥微信: itpux-com
5.3 校验结果分析
校验结果分析要点:
- 数据一致性:确保所有数据都已正确迁移
- 服务状态:确保所有服务正常运行
- 性能指标:确保性能达到或超过源集群
- 安全配置:确保安全配置正确
- 应用兼容性:确保所有应用正常运行
学习交流加群风哥QQ113257174
本文由风哥教程整理发布,仅用于学习测试使用,转载注明出处:http://www.fgedu.net.cn/10327.html
